análisis de la minería de datos aplicada en empresas del
Post on 17-Jul-2022
4 Views
Preview:
TRANSCRIPT
Facultad de Ingeniería y Computación
Escuela Profesional de Ingeniería Industrial
Análisis de la minería de datos aplicada en
empresas del sector retail
Presentado por:
Aldana Fransheska Dongo Pozo
Xiomara Pamela Silva Cama
Para optar el Grado Académico de Bachiller en:
INGENIERÍA INDUSTRIAL
Arequipa, enero del 2020
Dedicatoria de Dongo Pozo, Aldana Fransheska
A mi familia; mi mamá, mi papá, mi hermanito y mi abuelita, por confiar en que lo lograría,
por insistirme en no dejarlo para el último y por ser un gran ejemplo, tanto como profesionales,
pero sobre todo como personas, porque a pesar de todos mis errores siempre confiaron en mí y en
lo que era capaz, incluso cuando yo misma ya no creía en mí. Por levantarme cuando me caí y
creía que ya no podía levantarme. Por ser mi fuerza y el motor que me impulsa a enfrentar la vida.
A mi compañera de tesis, Xiomara, que más allá de ser una compañera de clases, es mi mejor
amiga y la hermana que no tengo. Siempre juntas en las buenas y en las malas, este es solo un
capítulo más de nuestras vidas y espero estar a tu lado cada vez que logres alcanzar tus sueños.
Dedicatoria de Silva Cama, Xiomara Silva
Dedico este trabajo de investigación a mi familia; en especial a mis padres y hermano, por ser
de gran apoyo en todo mí desarrollo académico y personal, por siempre estar ahí para aconsejarme,
por no permitir que me rinda, por ayudarme levantarme después de cada tropiezo.
A Dios sobre todo por impactar mi vida de un modo sobrenatural, por enseñarme a ser mejor
cada día, por ser mi fiel apoyo, en quien encuentro paz y alegría.
A mi mejor amiga, Franshesha, quien además de ser mi compañera en toda esta trayectoria
académica lo fue de modo personal, le agradezco por el apoyo incondicional que siempre
encuentro en su persona, es una persona a la cual admiro mucho y que contará con mi apoyo
siempre.
A mis amigos que siempre estuvieron apoyándome y con los cuales compartí esta gran etapa
de mi vida.
Agradecimientos
Agradecemos a Dios, a nuestros familiares por el apoyo que recibimos de parte de ellos durante
toda nuestra trayectoria académica, por siempre impulsarnos a cumplir con esta meta tan
significativa tanto para ellos como para nosotras. También agradecemos a nuestros asesores
quienes nos orientaron en el desarrollo de nuestro trabajo, y de quienes aprendimos muchas cosas.
A nuestros profesores y a la Universidad Católica San Pablo.
Resumen y Palabras clave
Actualmente en empresas pequeñas del Perú no se tiene tanto conocimiento de lo que es la
minería de datos, en comparación con las grandes empresas que buscan estar siempre a la
vanguardia. (Rygielski, 2002) Siendo así, empresas como Tesco, la cual es una gran cadena de
supermercados que pertenecen al sector retail de Reino Unido, han logrado un buen
posicionamiento en el mercado, porque conocen las necesidades de sus clientes y eso ayuda a que
se tomen mejores decisiones orientadas a los mismos. Esto fue logrado gracias a la aplicación de
la minería de datos como herramienta, la cual permitió el tratamiento de las bases de datos con los
que la empresa contaba, los cuales contenían información referente a sus clientes respecto a sus
tendencias de compra, búsquedas frecuentes y necesidades. (Davenport, 2006) Adicionalmente,
hay una gran variedad de empresas que pudiendo usar esta herramienta, inmersa en Big Data
(Requena, 2018), no la utilizan y prefieren el método intuitivo, lo cual limita sus capacidades y
presenta un riesgo en la toma de sus decisiones.
La minería de datos puede ser aplicada a diferentes sectores, como lo son, el sector retail,
telecomunicaciones, banca, educación, bolsa de valores, entre otros, llegando incluso a ser
utilizada en elecciones presidenciales, pues de lo que se encarga la minería de datos es buscar
patrones ocultos en los datos que posee toda empresa, sin importar su rubro o tamaño. (Murcia y
Quintero, 2013) Cabe resaltar que, usualmente para hallar dichos patrones u otros, se pueden
emplear técnicas como los árboles de decisión, redes neuronales, entre otras técnicas (Camana,
2016).
Lo que se pretende con el presente trabajo es identificar y mostrar cómo aplican algunas
empresas del sector retail la minería de datos en sus operaciones. Para ello, es necesario tener como
base preliminar, el conocimiento de qué es la minería de datos, cuáles son sus fases, su arquitectura,
sus modelos, y las diferentes técnicas que se derivan de ella. Posteriormente, se presenta una
descripción del modo en que diversas empresas pertenecientes al sector retail aplicaron la minería
de datos.
Cabe resaltar que para el desarrollo del presente trabajo se realizó una bibliometría, la cual
indica las fuentes que mayor aporte da a la búsqueda de información referente a la minería de datos
en general, así como el país que hizo mayores aportes bibliográficos, la cantidad de citaciones por
artículo empleado en la investigación, su respectivo año de publicación; sin embargo, dicha
información no se puede ver reflejada con claridad en el trabajo debido a la falta de acceso, por lo
que se recurrió a las siguientes fuentes: Scholar Google, IOP Science, Science Direct y Scielo.
Palabras clave: Minería de datos, Sector retail, Toma de decisiones, Base de datos.
Abstract & Keywords
Currently in small companies in Peru we do not have so much knowledge of what data mining
is, compared to the large companies that seek to be always at the forefront (Rygielski, 2002). That
being so, companies like Tesco, which is a large supermarket chain belonging to the UK retail
sector, have achieved a good position in the market, because they know the needs of their
customers and that helps to make better decisions oriented to them. This was achieved through the
application of data mining as a tool, which allowed the treatment of the databases that the company
had, which contained information regarding its customers regarding their purchasing trends,
searches frequent and needs (Davenport, 2006). In addition, there is a wide variety of companies
that can use this tool, immersed in Big Data (Requena, 2018), do not use it and prefer the intuitive
method, which limits their capabilities and presents a risk in making their decisions.
Data mining can be applied to different sectors, such as retail, telecommunications, banking,
education, stock exchange, among others, even being used in presidential elections, as it is
responsible for data mining is to look for hidden patterns in the data that every company owns,
regardless of their field or size. (Murcia and Quintero, 2013) It should be noted that, usually to
find such patterns or others, techniques such as decision trees, neural networks, among other
techniques can be used (Camana, 2016).
What it is intended with this work is to identify and show how some companies in the retail
sector apply data mining in their operations. To do this, it is necessary to have as a preliminary
basis, the knowledge of what is data mining, what its phases are, its architecture, its models, and
the different techniques that derive from it. Subsequently, a description is presented on how
various companies in the retail sector applied data mining.
It should be noted that for the development of this work a bibliometry was carried out, which
indicates the sources that contribute to the search for information related to data mining in general,
as well as the country that made the most bibliographic contributions, the number of citations per
article used in the investigation, their respective year of publication; however, this information
cannot be clearly reflected at work due to lack of access, so the following sources were used:
Scholar Google, IOP Science, Science Direct and Scielo.
Keywords: Data mining, retail sector, Making decision, Database.
ÍNDICE GENERAL
INTRODUCCIÓN ................................................................................................................ 1
CAPÍTULO II ....................................................................................................................... 6
REFERENCIAL TEÓRICO ............................................................................................... 6
1. Marco Teórico-conceptual. ........................................................................................ 6
1.1. Minería de datos ......................................................................................................... 7
1.2. Evolución de la minería de datos .............................................................................. 7
a. Recopilación de datos ............................................................................................. 9
b. Acceso a datos .......................................................................................................... 9
c. Navegación de datos ................................................................................................ 9
d. Minería de datos ...................................................................................................... 9
1.3. Aplicaciones de la minería de datos ........................................................................ 10
a. Descubrimiento ..................................................................................................... 10
b. Modelo predictivo ................................................................................................. 10
c. Análisis forense...................................................................................................... 10
1.4. Fases en el proceso de minería de datos ................................................................. 10
a. Comprensión del negocio ..................................................................................... 11
b. Comprensión de los datos ..................................................................................... 11
c. Preparación de datos ............................................................................................ 11
d. Modelado ............................................................................................................... 11
e. Evaluación ............................................................................................................. 11
f. Implementación ........................................................................................................ 11
1.5. Tipos de información ............................................................................................... 12
a. Asociaciones ........................................................................................................... 12
b. Secuencias .............................................................................................................. 12
c. Clasificaciones ....................................................................................................... 12
d. Agrupamientos ...................................................................................................... 13
e. Previsiones ............................................................................................................. 13
1.6. Técnicas de Minería de Datos ................................................................................. 13
a. Redes neuronales ................................................................................................... 13
b. Regresión lineal ..................................................................................................... 14
c. Árboles de decisión ............................................................................................... 14
d. Reglas de asociación .............................................................................................. 15
e. Agrupamiento (Clustering) .................................................................................. 16
f. Análisis factorial ....................................................................................................... 16
g. Serie de tiempos..................................................................................................... 17
h. Pronóstico (Forecasting) ....................................................................................... 17
1.7. Herramientas empleadas en la minería de datos .................................................. 17
a. Interfaces de programación de aplicaciones (APIS) .......................................... 17
b. Los Modelos de Analítica Predictiva (PMML) .................................................. 18
1.8. La Minería de Datos y el Sector Retail................................................................... 19
1.9. Empresas Retail que aplican minería de datos...................................................... 21
a. Master Card .......................................................................................................... 21
b. Wal Mart................................................................................................................ 22
c. Burger King ........................................................................................................... 22
d. Tesco ....................................................................................................................... 22
e. Papas “Chips” ....................................................................................................... 23
f. Tienda Online en Indonesia ..................................................................................... 23
CAPÍTULO III ................................................................................................................... 26
MÉTODO DE INVESTIGACIÓN ................................................................................... 26
1. Descripción del objeto de estudio y unidad de análisis ......................................... 26
2. Descripción del tipo de investigación...................................................................... 26
3. Descripción detallada de los instrumentos de investigación ................................ 26
4. Descripción del paso a paso de cómo la investigación fue realizada ................... 26
5. Análisis de las ventajas, desventajas y limitaciones del método, así como las formas
de superar estas limitaciones. ............................................................................................. 27
CAPÍTULO IV ................................................................................................................... 29
ANÁLISIS BIBLIOMÉTRICO ........................................................................................ 29
1. Scholar Google .......................................................................................................... 30
2. IOP Science ............................................................................................................... 34
3. Science Direct ........................................................................................................... 37
4. Scielo…………………………………… .................................................................. 42
5. Artículos revisados ................................................................................................... 46
6. Citaciones por artículo revisado ............................................................................. 50
7. Artículos revisados por Base de datos .................................................................... 53
8. Año de publicación de los artículos revisados ....................................................... 54
9. Ubicación geográfica de países en los que se publicaron los artículos revisados 56
10. Cantidad de artículos revisados por país ............................................................... 57
CAPÍTULO V ..................................................................................................................... 59
ANÁLISIS DE RESULTADOS ........................................................................................ 59
CAPÍTULO VI ................................................................................................................... 60
CONCLUSIONES Y RECOMENDACIONES ............................................................... 60
REFERENCIAS ................................................................................................................. 62
ÍNDICE DE ILUSTRACIONES
Ilustración 1: Proceso Estándar de la industria de Minería de Datos ....................................... 12
Ilustración 2: Ejemplo de Regresión Lineal Simple ................................................................ 14
Ilustración 3: Árbol de decisión para la compra de una computadora. .................................... 15
Ilustración 4: Clustering de datos bancarios. ........................................................................... 16
Ilustración 5: Gráfico de participación por filtrado de búsqueda en español de la base de datos
“Scholar Google” .......................................................................................................................... 31
Ilustración 6: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos
“Scholar Google” .......................................................................................................................... 32
Ilustración 7: Gráfico de participación por año de publicación de la base de datos “Scholar
Google” ......................................................................................................................................... 33
Ilustración 8: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos
“IOP Science” .............................................................................................................................. 34
Ilustración 9: Gráfico de participación por año de publicación de la base de datos “IOP
Science”. ....................................................................................................................................... 35
Ilustración 10: Gráfico de participación por número de publicaciones por autor de la base de
datos “IOP Science” ...................................................................................................................... 37
Ilustración 11: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos
“Science Direct”............................................................................................................................ 38
Ilustración 12: Gráfico de participación por filtrado de búsqueda en español de la base de
datos “Science Direct” .................................................................................................................. 39
Ilustración 13: Gráfico de participación por año de publicación de la base de datos “Science
Direct” .......................................................................................................................................... 41
Ilustración 14: Gráfico de participación por filtrado de búsqueda en español de la base de
datos “Scielo”................................................................................................................................ 43
Ilustración 15: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos
“Scielo” ........................................................................................................................................ 44
Ilustración 16: Gráfico de participación por año de publicación de la base de datos “Scielo” 45
Ilustración 17: Gráfico de la cantidad de citaciones por cada artículo revisado. ..................... 52
Ilustración 18: Gráfica de cantidad de artículos revisados por Base de Datos. ....................... 53
Ilustración 19: Gráfico de cantidad de artículos revisados por año de publicación ................. 55
Ilustración 20: Ubicación geográfica de los países en los que se publicaron los artículos
revisados. ...................................................................................................................................... 56
Ilustración 21: Gráfico de la cantidad de artículos revisados por país de publicación. ........... 58
ÍNDICE DE TABLAS
Tabla 1 Etapas de la evolución de la minería de datos .............................................................. 8
Tabla 2 Filtración de la base de datos “Scholar Google” en español ...................................... 30
Tabla 3 Filtración de la base de datos “Scholar Google” en inglés ........................................ 31
Tabla 4 Participación de publicaciones respecto al año de publicación de la base de datos
“Scholar Google” .......................................................................................................................... 32
Tabla 5 Filtración de la base de datos “IOP Science” en inglés .............................................. 34
Tabla 6 Participación de publicaciones respecto al año de publicación de la base de datos
“IOP Science” ............................................................................................................................... 35
Tabla 7 Número de publicaciones por autor de la base de datos “IOP Science” .................... 36
Tabla 8 Filtración de la base de datos Science Direct” en inglés ............................................. 38
Tabla 9 Filtración de la base de datos “Science Direct” en español ........................................ 39
Tabla 10 Participación de publicaciones respecto al año de publicación de la base de datos
“Science Direct”............................................................................................................................ 40
Tabla 11 Filtración de la base de datos “Scielo” en español .................................................... 42
Tabla 12 Filtración de la base de datos “Scielo” en inglés ...................................................... 43
Tabla 13 Participación de publicaciones respecto al año de publicación de la base de datos
“Scielo” ......................................................................................................................................... 45
Tabla 14 Información referente a artículos revisados ............................................................. 47
Tabla 16 Cantidad de citaciones por artículo revisado ........................................................... 50
Tabla 17 Cantidad de artículos revisados por Base de Datos ................................................. 53
Tabla 18 Cantidad de artículos revisados por año de publicación .......................................... 54
Tabla 19 Cantidad de artículos revisados por país de publicación .......................................... 57
1
CAPÍTULO I
INTRODUCCIÓN
En la actualidad existe un creciente almacenamiento de datos, de los cuales no todos ellos
brindan información significativa para la empresa luego de ser procesados. Es por ello que se
busca implementar herramientas que ayuden procesar dichos datos y así transformarlos en
información.
Con los avances tecnológicos con los que se cuentan actualmente, se utilizan diferentes
herramientas de inteligencia artificial que permiten acelerar el proceso de transformación de
datos en información.
Entre las diferentes herramientas existentes, la que a continuación se ha de desarrollar es
conocida como minería de datos o Data Mining en inglés, la cual con su correcta implementación
ayudará a la empresa a encontrar patrones ocultos que permitirá una mejor toma de decisiones.
Descripción del problema de investigación
El contexto en el cual se encuentran muchas empresas peruanas es que la toma de sus decisiones
se da de manera intuitiva o por conocimientos históricos que posee la empresa, por situaciones que
ha atravesado previamente; sin embargo, los tiempos cambian y con ellos los clientes y sus
necesidades, es por ello que las empresas deben ir de la mano con la tecnología disponible para
satisfacer las necesidades de los clientes y cumplir sus expectativas, pues una mala decisión puede
significar grandes pérdidas para una empresa, no solo económicamente sino también en su
prestigio y en la calidad de servicio.
Hoy en día el conocimiento de lo que es la Minería de datos es mínimo en empresas pequeñas
e incluso medianas, partiendo del hecho de que la mayoría de estas no almacenan sus datos
históricos en base de datos, ni cuentan con sistemas de tecnología de información, por lo que no
cuentan con datos que puedan ser aprovechados por esta herramienta para que los transforme en
información útil, a diferencia de las empresas grandes que si tienen la posibilidad de utilizar la
herramienta, sin embargo, no lo hacen de una manera eficiente por lo que no se pueden apreciar
las grandes mejoras que conlleva la implementación de la minería de datos. Teniendo ello por
2
precedente, se puede entender el porqué de que muchas organizaciones presentan complicaciones
al querer analizar los grandes volúmenes de datos que poseen, no estratificados y generados
exponencialmente; por lo que el propósito del presente trabajo es analizar la minería de datos aplica
en empresas del sector retail, con lo cual las empresas se ven beneficiadas al mostrar patrones de
compra de sus clientes, generando indicadores, a modo que se pueda llevar un control de la
información y para que sea de utilidad para mejorar la toma de decisiones, basándonos en
información de la empresa, la cual con el correspondiente análisis e interpretación ayudará a que
la empresa tome decisiones acertadas, haciendo uso de una herramienta de Big Data, conocida
como Minería de Datos (Data Mining) la cual es capaz extraer información útil de la base de datos
que poseen las empresas. Todo ello toma base en el hecho de que las empresas poseen una cantidad
de datos no procesados cada vez mayor, y dichos datos, son una fuente valiosa de información
para la empresa si se sabe manejar de una manera adecuada y eficiente.
Planteamiento del problema
La ingeniería industrial busca mejoras en cualquier ámbito industrial, para el presente caso, se
busca que mediante la aplicación de la minería de datos se pueda analizar la información que
proviene de la transformación de datos, los cuales pueden ser proporcionados por la misma
empresa o por terceros, que se refiera a los clientes finales de los productos que las empresas
ofrezcan, de modo que se podrá observar una mejora en lo referente a la toma de decisiones.
Ahora bien, lo que se busca es determinar es:
¿En qué modo se aplica la minería de datos en empresas del sector retail?
1. Objetivos de la investigación
Los objetivos planteados a continuación permitirán delimitar el trabajo a tratar y definir con
mayor cuidado las actividades que se han de ejecutar para llevarlo a cabo. Siendo así, el objetivo
general, permitirá definir el enfoque principal del trabajo a grandes rasgos, mientras que los
objetivos específicos tratarán las actividades más detalladas.
3
1.1.Objetivo general
Conocer el modo de aplicación de la minería de datos en empresas del sector retail. Analizar la
minería de datos aplicada en empresas del sector retail.
1.2.Objetivos específicos
- Analizar información sobre la minería de datos, como herramienta.
- Conocer las diferentes técnicas de la minería de datos.
- Recopilar y analizar información referente a la aplicación de la minería de datos en
empresas del sector retail.
- Realizar una bibliometría que nos permita identificar las diferentes fuentes de información
documentada para futura consulta.
2. Justificación de la investigación
2.1.Conveniencia
El conocimiento que se busca extender en el presente trabajo, tiene como finalidad recopilar
información referente a la minería de datos, para que futuros investigadores tengan la información
con un enfoque centrado a la aplicación al sector retail, el cual es un sector orientado a la
comercialización minorista y masiva de productos al consumidor final.
2.2.Justificación Práctica
La información que se presenta a continuación es recopilación de un conjunto de
investigaciones previas, por lo que servirá de base para futuras investigaciones, que deseen
continuar con la investigación, enfocándose en empresas que comercien con una gran variedad de
productos a diferentes clientes y en diferentes cantidades.
El motivo por el cual se adquiriría la presente información es debido a que al ser una
recopilación de información, los futuros investigadores no tendrán problema alguno en recurrir al
presente trabajo y encontrar la información sintetizada y orientada al sector retail que es al cual se
dirige el presente trabajo.
Cabe resaltar que el sector retail es un sector que tiene contacto directo con el consumidor final
de cada uno de los productos que ofrece, dichos clientes son sumamente variados y su demanda
4
varía según cada uno de ellos por sus preferencias y necesidades individuales. Es por ello que este
sector es uno de los cuales presenta mayor cantidad de datos debido a la gran cantidad de clientes
que posee, la variedad de sus productos, entre otros datos recopilados por cada empresa
individualmente.
Siendo así, este sector es uno de los más abundantes en datos, los cuales pueden ser
transformados en información para su aprovechamiento en la toma de decisiones, lo cual mejoraría
no solo los ingresos de la empresa, sino también la percepción que los clientes tienen de la empresa,
otorgándole así una ventaja competitiva sobre las demás empresas. Las decisiones que se pueden
tomar pueden ser sumamente variadas dependiendo de la información de cada empresa, como
ejemplo se muestra a continuación algunas de ellas: agrupación de productos, formas frecuentes
de pago, layout cómodo para el cliente, predicción de la demanda, actividades de promoción d
acuerdo a las necesidades del cliente, entre otras.
3. Delimitación de la investigación
3.1.Temporal
La presente investigación fue iniciada en abril del 2019, con la finalidad de culminar dicha
investigación a mediados de setiembre del 2019. Por lo cual se contó con 7 meses para desarrollar
la presente investigación.
3.2.Temática
Se considera que la presente investigación está enfocada a los temas informáticos, dado que
para aplicar la minería de datos es necesaria la aplicación de un software. Adicionalmente, está
enfocada en el ámbito logístico, pues es dónde se planea ver la aplicación de la minería de datos.
Cabe resaltar que la minería de datos puede ser aplicada a muchos más sectores diferentes al
informático y al logístico; sin embargo, estos son en los que se tendrá mayor repercusión.
4. Resumen de la estructura capitular de la tesis
En el capítulo uno se describió el problema que inspiró la investigación, el cual afecta la toma
de decisiones, pues las empresas al poseer grandes volúmenes de datos no estructurados o semi-
estructurados, generados exponencialmente, poseen un gran obstáculo para el óptimo manejo de
5
dicha información. Por esta razón se plantea como objetivo general el conocer el modo de
aplicación de la minería de datos por empresas del sector retail, para lograrlo se va a trabajar de la
mano con cuatro objetivos específicos que darán soporte al objetivo general.
La razón por la cual se inició la presente investigación posee una justificación por conveniencia
y práctica.
Se delimitó de modo temporal el inicio y término de la investigación. Además de delimitar la
temática de la investigación en la abstracción de información de fuentes externas a las de la
universidad, pues el tema a investigar aún no fue desarrollado por estudiantes de dicha universidad.
6
CAPÍTULO II
REFERENCIAL TEÓRICO
Para la investigación bibliográfica que se presenta a continuación se planteó en primera
instancia trabajar con “Big Data”. Dicho tema por poseer un campo de investigación muy
amplio, se debía enfocar en uno más específico, por lo que previa investigación se encontró que
el Big Data envolvía a la Minería de datos, el cual era un tema más puntual y centrado, además
presenta oportunidades de desarrollo para el presente trabajo.
Adicionalmente, se debe mencionar que la minería de datos es aplicada por diferentes
empresas del sector retail, las cuales serán descritas brevemente, previa introducción a la minería
de datos como tal.
1. Marco Teórico-conceptual.
Como punto de partida se ha de tomar el descubrimiento del conocimiento, más
conocido en las fuentes bibliográficas, como KDD. Debido a que este envuelve a la minería
de datos como tal.
Es común encontrar que se usa el término de “Descubrimiento del conocimiento” como
sinónimo de minería de datos; sin embargo, esto no es así, la diferencia radica en la forma
de extracción de datos, mientras que la minería de datos hace la extracción de patrones por
medio de algoritmos específicos, el KDD sigue un proceso de preparación, selección y
limpieza, pero de manera intuitiva, haciendo uso de su interpretación, con ayuda de los
conocimientos adquiridos anteriormente. (Gilbert, et al, 2006).
Los pasos siguientes son los manifestados por Gilbert, respecto al proceso que sigue el
KDD:
1. Comprende el dominio de aplicación
2. Extraer la base de datos objetivo
3. Preparar los datos
4. Minería de datos
5. Interpretación
6. Utilizar el conocimiento descubierto
7
Como se puede ver en el proceso del KDD, la minería de datos está inmersa en el paso
cuatro y representa la fase fundamental de todo el proceso.
A continuación, se definirán los principales conceptos relacionados con la minería de
datos, los cuales nos proporcionarán un mayor conocimiento sobre el tema a investigar.
1.1. Minería de datos
Para comenzar, es preciso conocer el significado de lo que es minería de datos,
más conocida como Data Mining en la literatura.
La minera de datos es una tecnología computarizada, que posee técnicas útiles
para extraer información de grandes volúmenes de datos, que muchas empresas no
consideran dado que no logran identificarlos con facilidad; minería de datos los
relaciona, agrupa para ayudar de este modo en la toma de decisiones. (Camana,
2016; Shen, et al, 2009)
La minería de datos encuentra patrones de coincidencia entre los datos que posee
la empresa; los datos que se extraerán servirán para realizar predicciones,
previsiones, estimaciones, que serán empleadas en la toma de decisiones; el usar
esta herramienta de manera exitosa le proporcionará a la empresa una ventaja
competitiva.
Por ejemplo, al momento de tener una tienda en línea, la empresa tendrá acceso
a los datos de los consumidores de sus servicios y/o productos, dicha información
le servirá para mejorar sus estrategias, de modo que sus ingresos incrementen y
también le ayudarán a brindarle un servicio más adecuado a sus clientes, pues se
tendrá conocimiento de sus preferencias, tendencias y comportamientos.
1.2. Evolución de la minería de datos
Tiene sus orígenes en los años 60’s (Camana, 2016), el cual comienza cuando
los datos son almacenados en los ordenadores, posteriormente se sigue avanzando
con la mejora en el acceso a dichos datos y se llega finalmente al día de hoy donde
las personas son capaces de navegar en tiempo real a través de los datos
almacenados (Rygielski, 2002)
8
Tabla 1
Etapas de la evolución de la minería de datos
ETAPAS EVOLUTIVAS DE LA MINERÍA DE DATOS
Escenario Pregunta de
Negocios
Habilitación de
la tecnología
Productos
de los
proveedores
Características
Colección
de Datos
(1960)
¿Cuál fue mi
ingreso total
promedio en los
últimos cinco
años?
Ordenadores,
cintas, discos. IBM, CDC
Retrospectiva,
entrega de datos
estáticos.
Acceso a
los Datos
(1980)
¿Cuáles fueron
las ventas de
unidades en
Nueva Inglaterra
en marzo pasado?
Bases de datos
relacionales
(RDBMS), lenguaje
de consulta
estructurado (SQL),
ODBC
Oracle,
Sybase,
Informix,
IBM,
Microsoft
Retrospectiva,
entrega dinámica
de datos a nivel de
registro
Navegación
de los Datos
(1990)
¿Cuáles fueron
las ventas de
unidades en
Nueva Inglaterra
en marzo pasado?
Perforar hasta
Boston
Procesamiento
analítico en línea
(OLAP), bases de
datos
multidimensionales,
almacenes de datos
Pilot, IRI,
Arbor,
Redbrick,
Evolutionary
Technologies
Retrospectiva,
entrega dinámica
de datos a
múltiples niveles.
Minería de
Datos
¿Qué es
probable que
suceda en las
ventas de Boston
el próximo mes?
¿Por qué?
Algoritmos
avanzados,
computadoras
multiprocesador,
bases de datos
masivos.
Lockheed,
IBM, SGI,
numerosas
empresas
emergentes
Prospectiva,
proactiva entrega
de información.
Fuente: (Rygielski, 2002)
9
El autor (Rygielski, 2002) define cada una de estas etapas como (Tabla 1):
a. Recopilación de datos
Se recolecta los datos que vayan a ser utilizados, para desarrollar con ellos
cálculos simples, como sumas o promedios.
La información que se obtiene a partir de la recopilación de datos permite
responder preguntas del negocio relacionadas con cifras derivadas de sitios de
recopilación de datos, como ingresos totales o ingresos totales promedio
durante un período de tiempo.
b. Acceso a datos
Lo que se busca es utilizar las bases de datos para almacenar dichos datos
en un formato estructurado.
Dado que cada unidad de negocio tiene requisitos o formatos específicos, se
opta por establecer políticas para recopilar datos y notificar la información.
c. Navegación de datos
Luego de conocer las denominadas cifras individuales, se podían realizar las
preguntas sobre el rendimiento de los sitios agregados.
Ahora las empresas pueden obtener una vista global y profundizar en un
punto específico para realizar las comparaciones que vean por convenientes.
d. Minería de datos
Las herramientas analíticas en línea proporcionan retroalimentación en
tiempo real e intercambio de información con unidades de negocio
colaboradoras.
En 1990, se concluye en que la minería de datos engloba la base de datos, la
información, la extracción y el conocimiento (Camana, 2016).
El término “Knowledge Discovery in Database” (KDD) (…) fue utilizado por
primera vez por Gregory Piatetsky-Shapiro en 1989, dicho término posee una
10
estrecha relación con la minería de datos, pues el KDD utiliza sus técnicas para la
explotación de datos, mientras que la minería de datos utiliza su metodología para
un desarrollo aplicado. (Camana, 2016)
1.3. Aplicaciones de la minería de datos
La minería de datos puede ser aplicada en 3 categorías, según (Rygielski, 2002)
a. Descubrimiento
Es el proceso que permite buscar patrones ocultos en la base de datos sin
tener una idea o hipótesis previa de lo que podría ser el patrón.
A su vez esta categoría se subdivide en tres:
- Condicional lógico
- Afinidades y asociaciones
- Tendencias y variaciones
b. Modelo predictivo
Es el proceso que hace uso de los patrones hallados para predecir el futuro.
A su vez se subdivide en dos:
- Predicción de resultados
- Pronóstico
c. Análisis forense
Es el proceso de aplicar los patrones extraídos para encontrar elementos
anormales e inusuales.
A su vez se subdivide en dos:
- Detección de desviación
- Análisis de enlace
1.4. Fases en el proceso de minería de datos
Como toda técnica para ser aplicada requiere seguir pasos, los cuales ya han sido
establecidos por (Leventhal, 2010) como siguen a continuación:
11
a. Comprensión del negocio
Busca enfocarse en comprender lo que quiere lograr la empresa con el
desarrollo del proyecto y los requerimientos que implica este.
b. Comprensión de los datos
En primera instancia se recopilan los datos para poder familiarizarse con
ellos y así lograr la identificación del problema; es decir, se conocen los datos
en general al inicio para luego proceder a dividirlos por subconjuntos y con la
ayuda de ellos formular predicciones de información oculta.
c. Preparación de datos
A partir de los datos iniciales que aún no han sido procesados se crea un
conjunto de datos final.
d. Modelado
De una amplia gama de técnicas de modelado se elige y aplica una para
posteriormente calibrar sus parámetros para conseguir valores ideales.
Es importante mencionar que, dado que hay una gran variedad de técnicas
y cada una de ellas tienen requisitos específicos, se debe elegir bien la técnica
a utilizar, caso contrario se regresará a la fase anterior en repetidas ocasiones.
e. Evaluación
Para estar seguros de que se han logrado los objetivos del negocio, es
necesario evaluar el modelo previamente estructurado y así hacer seguimiento
de los procedimientos ya ejecutados.
f. Implementación
En la mayoría de casos el cliente o consumidor final será quien lleve a cabo
el proceso de implementación en lugar del analista de datos.
12
Ilustración 1: Proceso Estándar de la industria de Minería de Datos. Fuente: (Leventhal, 2010)
1.5. Tipos de información
Según (Ahmed, 2018) los tipos de información que genera la minería de datos
son los siguientes:
a. Asociaciones
Las asociaciones se presentarán cuando se cuenta con sucesos vinculados a
un evento, esto se presenta por ejemplo cuando un cliente compra un cuaderno
dado que es posible que el mismo cliente adquiera lapiceros.
b. Secuencias
Se refiere a la presentación de las secuencias de sucesos ocurridos en el
tiempo, como las compras ocurridas en temporadas donde se colocaron ofertas
y promociones.
c. Clasificaciones
La clasificación realizada por esta herramienta permite visualizar las
características que posee el cliente, conocer las reacciones ante diferentes
13
promociones realizadas, la fidelidad del cliente, para poder poner un enfoque
especial en sus diferentes tipos de clientes y retenerlos.
d. Agrupamientos
Se agrupan cuando se halla una similitud en datos, tendencias.
e. Previsiones
Está relaciona todas las predicciones que fueron estimadas en base a los
patrones extraídos de los datos.
1.6. Técnicas de Minería de Datos
Después de la revisión bibliográfica se han encontrado 7 técnicas, las cuales se
exponen a continuación:
a. Redes neuronales
Detectan patrones y similitudes en los datos que se poseen, para poder
realizar previsiones, clasificaciones y segmentaciones. (Estrada, 2012, extraído
de Camana, 2016) Toma información histórica (experiencias del pasado), la
analiza y la aplica a las circunstancias en las que se encuentre la organización
en la actualidad, dicha información hace posible la realización de predicciones.
Como ventajas se puede decir que permite la sencillez, la potente adecuación y
evolución, que es provechosa dada la realidad que es tan vulnerable y nada
estable. Puede ser empleada para detectar ilustraciones, localiza la información
que se requiere en Internet, entre otros. (Camana, 2016)
La fortaleza de esta técnica radica en su habilidad para comprender y
discernir patrones sutiles en un gran número de variables sin suprimir los
detalles. Además, puede llevar a cabo múltiples operaciones de manera
simultánea. No solo puede identificar patrones en una cantidad mínima de
variables, sino que también puede detectar dichas correlaciones en cientos de
variables. (…) Para concluir con esta técnica se puede decir que aprende
patrones en señales complejas (Hajizadeh, et al, 2014)
14
b. Regresión lineal
Genera una relación con los datos que se tienen, tomando dos variables para
construir una relación entre ellas. Se contará una variable de salida y múltiples
entradas numéricas. Esta técnica modela los datos empleando una línea recta
para expresarlos. (Camana, 2016)
Como ejemplo se tiene la relación entre el porcentaje de azúcar añadida en
una gaseosa y su contenido calórico. La regresión se puede observar en la
siguiente ilustración:
Ilustración 2: Ejemplo de Regresión Lineal Simple. Fuente: (Camana, 2016)
Esta técnica de preferencia no debe ser aplicada con datos diferentes a los
numéricos. (Gilbert, et al, 2006).
c. Árboles de decisión
Es una de las técnicas más poderosa y popular para la clasificación y
predicción (…) puede ser usada para representar clasificadores y modelos de
regresión (Hajizadeh, et al, 2014)
“Muestra relaciones, y posee una forma similar a la de un árbol, en el cual
sus nodos internos vienen a ser las validaciones sobre atributos, las ramas
representan las salidas de las validaciones y los nodos hoja son las clases.”
(Estrada, 2012; Macías, 2008; extraídos de Camana, 2016)
Esta técnica consta de un conjunto de reglas para dividir una gran población
heterogénea en grupos más pequeños y más homogéneos con respecto a una
variable de destino determinada. (Hajizadeh, et al, 2014)
15
Con el siguiente ejemplo se puede observar la aplicación de dicha técnica
en la predicción de compra de una computadora.
Ilustración 3: Árbol de decisión para la compra de una computadora. Fuente: (Camana, 2016)
d. Reglas de asociación
Encuentran los hechos que tiene en común un conjunto de datos y los asocia,
es decir, se deben cumplir condiciones de manera secuencial. (Camana, 2016)
Además encuentra asociaciones interesantes y/o correlaciones entre un gran
conjunto de datos (Hajizadeh, et al, 2014)
En palabras más sencillas es la técnica encargada de encontrar patrones
donde un evento está conectado con otro evento (…) además las reglas de
asociación pueden ser directas o indirectas, dependiendo del caso. En caso de
ser directas, esta técnica ayudará a diseñar un mejor layout de una tienda
(Bhambri, 2012)
Para concluir con esta técnica, se puede decir que es útil al momento de
poner los precios a sus diferentes productos, en la comercialización y venta de
estos, a desarrollar las diferentes estrategias de marketing para llegar a su
mercado objetivo con éxito, diseña los catálogos de productos, marketing cruz
y estudia el comportamiento de compra de sus clientes, siendo de gran ayuda
para la toma de decisiones. (Bhambri, 2012)
16
e. Agrupamiento (Clustering)
Agrupa a los datos, en clases o grupos, basándose en las características
similares, esto brinda el conocimiento de las similitudes de sus consumidores.
(Bhambri, 2012; Camana, 2016)
No hay datos preclasificados ni distinción entre variables dependientes e
independientes (Hajizadeh, et al, 2014)
En la siguiente imagen se representa la representación del agrupamiento de
los datos bancarios de sus clientes. Clasifican a los clientes en zonas
geográficas, debido a que poseen un perfil, esto se obtienen por el gran volumen
de datos que se posee de ellos, esto permite conocer los productos y servicios
que prefieren sus clientes. Estas zonas geográficas en las que se los agrupa
pueden determinarse debido a su comportamiento de transacción, esto permite
también identificar a los clientes insatisfechos.
Ilustración 4: Clustering de datos bancarios. Fuente: (Camana, 2016)
f. Análisis factorial
Tiene origen en la psicometría, y es utilizado en las ciencias del
comportamiento, ciencias sociales, marketing, mercado financiero, gestión del
producto, investigación de operaciones, entre otras ciencias aplicadas, que
posean una gran cantidad de datos.
Se deben tomar factores que contengan dos propiedades: la independencia e
importancia; estás vienen a ser condiciones del análisis factorial, y también se
debe de tomar los factores que representen de un modo completo la
17
información para lograr los objetivos en base a los conocimientos claros que se
extraerán. Independientes de modo que es único y no tiene relación con otros
y es importante al poseer un peso representativo en el ranking.
El análisis factorial puede ser empleado para dar soluciones efectivas en un
menor tiempo. (Shahrabi, 2014)
g. Serie de tiempos
Con esta técnica se trata de comprender las series de tiempo desde su origen
y lo que las provoca, para poder realizar las predicciones en base a los datos
históricos. Se debe delimitar un marco de tiempo para los datos, de los cuales
se puede generar gráficas, esto puede permitir la visualización e identificación
de las tendencias de los datos. Cabe resaltar que la información que se tiene
debe ser complementada con herramientas estadísticas. (Shahrabi, 2014)
Todo pronóstico realizado está basado en el conocimiento de eventos
pasados. (Hajizadeh, et al, 2014)
h. Pronóstico (Forecasting)
Relaciona variables independientes y dependientes para poder realizar
predicciones. Pero también se debe tomar en cuenta que hay muchas
situaciones que no pueden ser solucionadas con una predicción. Partiendo de
esto se puede decir que es posible predecir las ventas, los precios de los
accionistas y el producto de las tasas de fracaso. (Bhambri, 2012)
1.7. Herramientas empleadas en la minería de datos
a. Interfaces de programación de aplicaciones (APIS)
Las APIS, conocidas en su lenguaje de origen como Application
Programming, facilitan el uso e integración de la minería de datos con un
software que vaya a aplicar una empresa, por lo que la minería de datos
desarrolló las siguientes aplicaciones de las interfaces de programación de
aplicaciones: SQL, Java, Microsoft. (Fang, 2008)
18
La multimedia y aplicaciones de paquetes estándar (SQL/MM)
especifican una interfaz, para poder aplicar la minería de datos. Por lo que
se proporciona una API para poder tener acceso a los datos de SQL/MM, a
sus bases de datos relacionales que sean compatibles. (Chouat, Irawan,
2018)
El Java Specification Request-73 (JSR-73) definió un API que le servirá
para la generación de los modelos de minería de datos y puntuaciones de los
datos, permitirá el almacenamiento, mantenimiento y acceso de los datos
que se contienen en las bases de datos. (Chouat, Irawan, 2018)
El OLE DB que es apoyado por Microsoft para la minería de datos
definió una API para aplicarla de modo le genere beneficios, dado que ellos
desean introducir nuevas capacidades, la taxonomía de sus datos y la
creación de un mecanismo para tratar los datos. (Chouat, Irawan, 2018)
b. Los Modelos de Analítica Predictiva (PMML)
Los Modelos de Analítica Predictiva, conocido en su leguaje original
como Predictive Modelling Markup Language (PMML), es una herramienta
que fue desarrollada por el Data Mining Group (DMG), un consorcio que
se dedica a la creación de estándares de minería de datos.
El PMML tiene la función de describir y representar modelos
estadísticos, minería de datos y conjuntamente realiza operaciones de
limpieza y transforma datos para que estos puedan ser modelados.
(Wettschereck, Muller, 2001)
El objetivo de los Modelos de Analítica Predictiva es brindar una
estructura útil para que se pueda crear un modelo, conocido como PMML
productor, y también crea la aplicación para su consumo, llamado PMML
consumidor, el cual permite la lectura de datos contenidos en el archivo
XML PMML (Lenguaje de marcas Extensible del PMML).
El PMML está compuesto por un diccionario de datos, un esquema de
datos, diccionario de transformación, estadísticas del modelo y los modelos
en sí. (Grossman, et al, 2002)
19
El diccionario de datos está compuesto por los atributos de entrada de
cada modelo, que vienen a ser diferenciados y específicos por su tipo y
valor. (Wettschereck, Muller, 2001)
Cada modelo debe de contener un Esquema de minería, el cual debe
enumerar los atributos de su esquema y las funciones del modelo, dado que
estos factores vienen a ser los subconjuntos de los atributos del Diccionario
de datos. (Grossman, et al, 2002)
La diferencia entre estos dos componentes es que el esquema de minería
contiene información específica de un modelo en específico pero el
diccionario de datos contiene información que no varía según el modelo,
pues es especifica según el tipo de atributo de uso, pudiendo ser activa,
predijo o suplementaria. (Grossman, et al, 2002)
El diccionario de transformación contiene normalización, que viene a ser
el mapeo de valores continuos y discretos de números; discretización, en
otras palabras, el mapeo de valores continuos a valores discretos; asignación
de valores, el cual es el mapeo de valores discretos a valores discretos; y de
agregación, el resumir o recopilar los grupos de valores como el cálculo de
promedios. (Wettschereck, Muller, 2001)
Las estadísticas del modelo son univariantes que es extraída de los
atributos del modelo.
Los modelos, contienen parámetros especificados por etiquetas, existen
modelos de regresión, de racimo, árboles, redes neuronales, modelos
bayesianos, reglas de asociación y modelos de secuencia. (Wettschereck,
Muller, 2001)
1.8. La Minería de Datos y el Sector Retail
Retail se refiere a la venta al detalle de productos, por lo que se refiere a un sector
empresarial que se enfoca en productos cuya venta se realiza manera masiva, por
lo que este sector tiene una gran cantidad de clientes, dado que es el que tiene
contacto directo con el consumidor final de cada producto que ofrece. Se debe de
tomar en cuenta que a este sector le involucran principalmente las actividades
20
referidas a la planificación y venta, cabe mencionar que no solo se refiere a ofrecer
productos, sino que también puede involucrar servicios. (Paz, 2016)
El modo en que se relaciona la minería de datos con el sector retail es que dado
que en este sector, dependiendo del tipo y tamaño de la empresa, cuenta con una
variedad de tipos de clientes, desde consumidores hasta familias, también pueden
ser minoristas, supermercados, centros comerciales, bancos, y/o establecimientos
pequeños de venta como tiendas; por lo que esta herramienta sirve para analizar las
bases de datos de cada organización de modo que puedan utilizar la información de
sus clientes, como también les da la posibilidad de segmentarlos, ya sea mediante
la tendencias de compra que tienen estos, como también por sus diferentes
necesidades.
Al momento de que la minería de datos es aplicada en este sector se podrán
obtener resultados como patrones de compra, la inclinación que tienen los clientes
al comprar, los cuales no podrían ser aprovechados mediante la toma de decisiones,
si es que no se aprovecharan los datos que tienen las empresas de sus clientes
mediante la utilización de las técnicas de esta herramienta. (Murcia y Quintero,
2013)
Cabe mencionar que las actividades que se realizan en este sector de manera
continua les permite contar con datos referidos a sus ventas, al historial de compra
de cada uno de sus clientes, también información de las actividades que realizan los
clientes de modo complementario como por ejemplo el modo en que acuden al
establecimiento, por lo que la toma de decisiones que realicen una vez sean
aprovechados estos datos podrán estar referidas al modo en que las organizaciones
ofrezcan sus servicios, pudiendo hallar de este modo oportunidades de mejora para
ofrecer un servicio de calidad, lo cual les permitirá obtener una fidelización de sus
clientes existentes y también la obtención de nuevos. (Polo, 2017)
Esto quiere decir que como resultado de la aplicación de la minería de datos en
el sector retail, mediante el tratamiento y análisis de cada base de datos
organizacional, nos dará como resultado la obtención de información relevante para
cada organización, puesto que mostrará el comportamiento de cada tipo de cliente
21
que pueda tener cada empresa, mediante la aplicación de las diferentes técnicas y
herramientas mencionadas anteriormente, dependiendo de la conveniencia y
utilidad que representen para cada una de ellas.
1.9. Empresas Retail que aplican minería de datos
Son muchos los sectores en los que la minería de datos es aplicable, como las
finanzas, manufactura, salud bancos, seguros y servicios públicos; pues dichos
sectores poseen grandes volúmenes de datos referidos a sus clientes, proveedores,
sus productos y/o servicios. (Ahmed, 2018).
Las industrias Retail pueden requerir del siguiente tipo de información:
- Datos demográficos, como por ejemplo edad, sexo y estado civil.
- Su estado económico actual, cuánto pagan, carrera profesional e ingresos por
familia.
- Datos geográficos, como continente, país, ciudad en la que viven, direcciones.
A continuación, se presenta el modo de aplicación de algunas empresas del
sector Retail que aplican esta herramienta:
a. Master Card
La aplicación de Master Card minería de datos al momento de extraer
información sobre todas sus transacciones realizadas día a día realizadas por
el titular de la tarjeta. También vende información a bancos y diversas
compañías como por ejemplo Shell Oil, la cual brinda el servicio de crédito.
Actualmente se hace uso de las líneas de acceso DLS o T1 rápidas del
Internet, por lo que se está considerando como un recurso valioso y que
posee un precio no tan elevado de lo que es la minería de datos. (Gutierrez,
2019)
Cuando una empresa brinda servicios virtuales, le es posible tomar
información de sus clientes mediante el uso de FTP (protocolo de
transferencia de archivos), para que posteriormente se realicen las
actividades correspondientes de la minería de datos. En caso la empresa no
22
brinde un servicio en línea, o si son demasiados datos y a su vez sensibles
se puede usar CDROMs. (Gutierrez, 2019; Ahmed, 2018)
b. Wal Mart
Wal Mart es uno de los pioneros usando el Data Mining y gestionando
sus datos. Toma los datos sobre las transacciones que se realizan en sus 2900
tiendas ubicadas en seis países y los coloca en su base de datos que posee
una capacidad de 1.5 terabytes. La empresa le brinda a sus proveedores
información acerca de los productos para, que ellos puedan identificar los
patrones de compra de los clientes, para lograr así gestionar los inventarios
en el almacén estratégicamente. (Zuluaga, 2011; Ahmed, 2018)
c. Burger King
Burger King posee 11 435 establecimientos en 50 estados y 58 países,
“es el uso de objetos de negocios de Business Intelligence para ayudarles a
alcanzar la excelencia operativa y mantener su liderazgo en una industria
competitiva” (Kellog, 2017, extraído de Ahmed, 2018)
Al emplear Busing Objects la organización podrá comprender y
gestionar su rendimiento, pues utilizaran la información que poseen en
bases de datos corporativas, planificación de recursos empresariales (ERP)
y la relación del cliente con los sistemas de gestión (CRM). (Ahmed, 2018)
d. Tesco
Organización reconocida por las ofertas de la cadena de valor por menor
de alimentos. Es considerado como el supermercado más grande del Reino
Unido, posee alrededor de 2320 tiendas. Tesco posee datos referidos a sus
clientes de consumo y sus perfiles de compra. Posee un historial de
búsquedas, navega por rutas, productos vistos, registro de compras,
información de ubicación, cada cliente posee un código de identificación.
(Davenport, 2006). Tienen registro de los movimientos de los clientes para
lograr así mejoras en los diseños y en la localización de los productos. Hace
23
uso de la información que provee la información de los celulares
inteligentes de sus clientes. Todo esto se logra a través de ofrecer el Wi-fi
disponible en sus tiendas. (Pervan, 2008, extraído de Agarwal, 2014)
e. Papas “Chips”
Papas “Chips” es una empresa distribuidora de productos como refrescos
y golosinas. Esta empresa hace uso de la minería de datos para lograr tener
a sus clientes satisfechos con el servicio brindado, lo cual también repercute
en los ingresos que tiene la empresa, ya que los clientes al estar satisfechos
con el servicio tanto en tiempo de entrega como calidad, se vuelven clientes
fieles. (Altamiranda, 2013)
La empresa utiliza la minería de datos para tener registro de las ventas
que se hacen sobre sus productos en las diferentes tiendas, logrando conocer
en qué periodos se tienen más ventas sobre un producto en específico, lo
cual permite que la empresa logre abastecer a sus clientes de la mejor
manera teniendo dicho producto en stock de acuerdo a las necesidades del
cliente. (Altamiranda, 2013)
Además, los camiones encargados de la distribución de productos
mantienen una comunicación constante con la empresa, para ir informando
en tiempo real las necesidades y requerimientos de los diferentes clientes.
Es así que se consigue darle un mejor uso al inventario perecedero de la
empresa, para saber cuánto y cuándo se vende cada uno de los diferentes
productos, de acuerdo a la demanda de los clientes. (Altamiranda, 2013)
f. Tienda Online en Indonesia
La empresa al ver el gran impacto que la minería de datos, el
almacenamiento de información y la utilización de diferentes softwares ha
tenido en muchas instituciones decidió aplicarlos porque deseaban obtener
una ventaja competitiva.
24
Tomando en cuenta que sus clientes tienden a seguir a las diferentes
Modas que varían constantemente, el emplear la minería de datos les
ayudaría brindarles a los clientes recomendaciones de acuerdo a los hábitos
de compra de cada cliente referente a prendas de vestir, dado que poseen
esta información en su base de datos. (Chen, et al, 1996, extraído de Chouat,
Irawan, 2018); también se les fue útil para realizar las recomendaciones la
información sobre la intención por conveniencia y los productos que están
tendiendo a comprar los clientes que están en línea.
La empresa tuvo como predictor significativo a Buiding experiential
marketing, pues se relacionan con la satisfacción del cliente y su
fidelización. (Kanungo, et al., 2002, extraído de Chouat, Irawan, et al, 2018)
La empresa también registra los hábitos de los clientes que utilizan
tarjetas de crédito para realizar los pagos, tales como si el cliente compra
con o sin conexión a transacciones en línea, si suele comprar en
supermercados, etc.Dicha información les será útil para identificar
transacciones no familiares, o sea habituales del propietario de la tarjeta, por
lo que en caso se realice una transacción inusual y de este modo se puede
inferir si el titular está haciendo uso de la tarjeta o no. (Chouat, Irawan,
2018)
A continuación, se nombran algunos de los algoritmos que ayudan a
resolver varios problemas mediante el uso de la minería de datos.
Un algoritmo que utilizan es obtenido de la división entre el número de
transacciones que contengan mercancías entre el total de las transacciones
que realizan. También cuentan con un algoritmo de implementación, el cual
realiza relaciones de los datos para plantear tendencias, utilizando el
porcentaje de transacciones y la combinación de artículos que compran, se
podrá inferir por ejemplo que si el cliente compra de un Samsung Galaxy
Note 3 automáticamente comprará un Advan-Vandroid s3a con una
confianza de 60% pero en caso de que compre un Advan-Vandroid s3a hay
un 33% de certeza de que el cliente vaya a comprar un Samsung Galaxy
Note 3. (Chouat, Irawan, 2018)
25
La empresa emplea el software llamado Xampp, y su base de datos
cuenta con una estructura que se ajusta al almacén de cada tipo de datos para
que pueda realizar la estructuración de los mismos. (Chouat, Irawan, 2018)
La tienda Online tuvo grandes resultados al aplicar la minería de datos
pues tuvo mejoras en sus estrategias de marketing, en la toma de decisiones,
y pudo clasificar estratégicamente los productos que se le ofrece a los
diferentes tipos de clientes. (Chouat, Irawan, 2018)
26
CAPÍTULO III
MÉTODO DE INVESTIGACIÓN
1. Descripción del objeto de estudio y unidad de análisis
El objeto de estudio es la búsqueda de información referente a la minería de datos y su
modo de aplicación en empresas del sector retail, las cuales pueden presentar una amplia
variación en cuanto a sus tamaños, productos ofertados, lugares de establecimiento, entre
otros. Es por ello que cada empresa aplica de modo diferente la herramienta mencionada
anteriormente, adaptándola a las necesidades que busca satisfacer. No hay dos aplicaciones
idénticas.
2. Descripción del tipo de investigación
Nuestro tipo de investigación es de tipo cualitativo, dado que el objetivo principal es
conocer la aplicación de la minería de datos en empresas del sector retail, esto significa
que el presente trabajo se basa en una búsqueda de información bibliográfica, la cual no
puede ser cuantificada.
3. Descripción detallada de los instrumentos de investigación
Como instrumento de investigación se realizó una revisión bibliográfica, para luego
proseguir con el fichaje correspondiente e ir recopilando la información que se considera
importante para la investigación de diferentes bases de datos como el Scholar Google,
Science Direct, IOP Science, Redalyc, Scielo y ACM Digital Library.
4. Descripción del paso a paso de cómo la investigación fue realizada
Para la investigación bibliográfica se planteó como primer tema a trabajar el “Big Data”;
dicho tema por poseer un campo de investigación muy amplio, se debía enfocar, llegando
27
finalmente a lo que se conoce como Minería de datos o Data mining, la cual está inmersa
dentro de lo que es Big Data, pero presenta un enfoque más centrado y específico.
Dado que ya se tenía una noción de lo que era el Big Data, se pudo entender con mayor
facilidad todo lo relacionado a Minería de datos, logrando así clasificar la información y
concluir con información de las aplicaciones de la herramienta como tal en empresas del
sector retail.
La investigación se realizó buscando en diferentes bases de datos con ayuda de palabras
claves que permitieron hacer un filtrado de la información que se requería.
Finalmente se concluyó con el análisis bibliométrico para describir las diferentes fuentes
de información que servirá de ayuda a los futuros investigadores.
5. Análisis de las ventajas, desventajas y limitaciones del método, así como las formas
de superar estas limitaciones.
Las ventajas del método es que nos permite recopilar bastante información de diferentes
fuentes, pudiendo contrastar una con otra para hacer de la investigación un proceso mucho
más rico en cuanto a la complementariedad de la información recopilada, además de que
permite actualizarse sobre un tema en específico, pudiendo consultar información antigua
para visualizar los cambios progresivos que ha sufrido la información con el paso del
tiempo.
La principal desventaja que se encontró es la falta de información relacionada al tema
en específico que se escogió, siendo este la aplicación de la minería de datos en diferentes
empresas del sector retail, lo cual fue una limitante de bastante peso para la investigación;
es decir, la información referente a la aplicación de la herramienta era general y no brindaba
mayores detalles.
La forma en la que se logró superar este limitante fue hacer una mayor búsqueda de
información consultando diferentes fuentes a las revisadas originalmente, además de
buscar información en otros idiomas, no solo en español, sino también en inglés o
portugués, esto permitió ampliar el campo de búsqueda y así encontrar mayor información
relevante a nuestro caso.
28
Cabe resaltar que a pesar de que la bibliometría muestra a la India como país con mayor
aporte en el tema, esta fuente no pudo ser explotada al máximo dado que no se contaba con
acceso a dicha información, adicionalmente la información que se lograba sacar de dicho
país no era de gran relevancia para el presente trabajo, por lo que no fue utilizada en gran
medida.
29
CAPÍTULO IV
ANÁLISIS BIBLIOMÉTRICO
Para realizar el siguiente análisis bibliométrico, en primer lugar, se hizo una búsqueda en las
diferentes páginas por palabras claves, las cuales cada vez fueron variando y mostrando resultados
diferentes, lo cual ayudo a una mejor filtración de información, esta búsqueda se realizó tanto en
español como en inglés para conseguir un mayor alcance.
Seguidamente se hizo un filtrado por año, dándole mayor énfasis a los últimos 5 años y también
por periodos de tiempo, lo cual permitió conocer en qué año o periodo fueron publicadas una
mayor cantidad de datos. Así también se pudo apreciar la evolución en cuanto al nivel de
publicaciones.
Estos dos tipos de análisis fueron realizados para cada una de las bases de datos.
Se continuó con el filtrado de las publicaciones por autor, esto solo se pudo realizar en la base
de datos conocida como IOP Science, lo cual permitió conocer a la persona que publicaba mayor
información referente al tema de búsqueda.
Finalmente, con los artículos revisados para el levantamiento de la información perteneciente
al marco teórico se realizó una recopilación de información referente a cada uno para dar a conocer
la cantidad que fue citado cada uno de ellos, la base de datos a la que pertenece, su año de
publicación y su país de origen.
30
1. Scholar Google
La base de datos de Google Académico, es la base de datos que mayor cantidad de
papers ha brindado a lo largo de la investigación. Siendo así, se decidió dividir esta
búsqueda por idiomas, por lo que se considera la investigación tanto en inglés como en
español.
La búsqueda ha tenido el mismo filtrado, pero en su idioma respectivo, y haciendo uso
de la herramienta de “Búsqueda avanzada”.
Para el caso en español. Se tienen los siguientes resultados
Tabla 2
Filtración de la base de datos “Scholar Google” en español
Palabra de
búsqueda
1900-
1950
1951-
2000
2001-
2014 2015 2016 2017 2018 2019 TOTAL
%
PARTICIPACIÓN
Minería de
datos + retail 0 0 2 0 2 0 0 0 4 0.28%
Minería de
datos + retail +
supermercados
0 0 0 0 0 0 0 0 0 0.00%
Minería de
datos +
supermercados
+ ventas
0 0 0 0 0 0 0 0 0 0.00%
Otros papers
referidos a
minería de
datos
0 19 892 126 118 133 123 20 1431 99.72%
Minería de
datos 0 19 894 126 120 133 123 20 1435 100.00%
Fuente: Elaboración propia
31
Ilustración 5: Gráfico de participación por filtrado de búsqueda en español de la base de datos
“Scholar Google” Fuente: Elaboración propia
Se realiza el mismo procedimiento, con el idioma inglés:
Tabla 3
Filtración de la base de datos “Scholar Google” en inglés
Palabra de
búsqueda
1900-
1950
1951-
2000
2001-
2014 2015 2016 2017 2018 2019 TOTAL
%
PARTICIPACIÓN
Data mining
+ retail 0 7 108 6 10 3 9 1 144 0.29%
Data mining
+ retail +
supermarkets
0 0 1 1 0 0 0 0 2 0.00%
Data mining
+
supermarket
+ sales
0 2 2 0 0 0 2 0 6 0.01%
Others
papers about
data mining
9 5391 24589 4633 4360 4587 4089 1349 49007 99.69%
Data mining 9 5400 24700 4640 4370 4590 4100 1350 49159 100.00%
Fuente: Elaboración propia
0.28% 0.00%0.00%
99.72%
% PARTICIPACIÓN POR FILTRADO DE BÚSQUEDA EN ESPAÑOL
Minería de datos + retail Minería de datos + retail + supermercados
Minería de datos + supermercados + ventas Otros papers referidos a minería de datos
32
Ilustración 6: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos
“Scholar Google” Fuente: Elaboración propia
A continuación, se muestra la participación de publicaciones con respecto al año de
publicación tanto en español como en inglés.
Tabla 4
Participación de publicaciones respecto al año de publicación de la base de datos “Scholar
Google”
Año Número de
papers
%
Participación
Año 1900-1950 9 0.02%
Año 1951-2000 5419 10.71%
Año 2001-2014 25594 50.59%
Año 2015 4766 9.42%
0.29%0.00% 0.01%
99.69%
% PARTICIPACIÓN POR FILTRADODE BÚSQUEDA EN INGLES
Data mining + retail Data mining + retail + supermarkets
Data mining + supermarket + sales Others papers about data mining
33
Año 2016 4490 8.87%
Año 2017 4723 9.34%
Año 2018 4223 8.35%
Año 2019 1370 2.71%
Fuente: Elaboración propia
Ilustración 7: Gráfico de participación por año de publicación de la base de datos “Scholar
Google”. Fuente: Elaboración propia
Como se puede ver en las tablas y gráficos anteriores, la mayor información proviene
de documentos en inglés; sin embargo, no se pudo encontrar en esta fuente mucha
información sobre el sector al cual se hace referencia, lo cual limitó la búsqueda.
Con respecto a la búsqueda por año, se puede ver que en el año 2017 se hicieron más
publicaciones referentes a “minería de datos”, mientras que, en inglés, el año donde se
hicieron más publicaciones referentes a “data mining” fue el año 2015 y en conjunto el año
2017 fue el año con mayor número de publicaciones referente a Minería de datos o Data
mining.
Para la presente base de datos no se realizó un filtrado por autores.
0.02%
10.71%
50.59%9.42%
8.87%
9.34%
8.35%
2.71%
% Participación por año de publicación
Año 1900-1950 Año 1951-2000 Año 2001-2014 Año 2015
Año 2016 Año 2017 Año 2018 Año 2019
34
2. IOP Science
Para la base de datos de IOP Science se siguió la misma metodología que en la base de
datos anterior, con la diferencia que esta base de datos no cuenta con búsqueda en español,
por lo que se delimitó a realizar una búsqueda netamente en el idioma inglés.
Es así, que se tienen los siguientes datos:
Tabla 5
Filtración de la base de datos “IOP Science” en inglés
Palabras de búsqueda 1950-2014 2014-2017 2018 2019 Todo % PARTCIPACIÓN
Data mining + retail 8 18 7 0 33 5%
Data mining + retail +
supermarkets 1 0 0 0 1 0%
Data mining +
supermarket + sales 0 1 0 0 1 0%
Others papers about data
mining 1 194 440 53 688 95%
Data mining 10 213 447 53 723 100%
Fuente: Elaboración propia
Ilustración 8: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos
“IOP Science” Fuente: Elaboración propia
5% 0% 0%
95%
% PARTCIPACIÓNPOR FILTRADO DE PALABRA DE BÚSQUEDA EN INGLES
Data mining + retail Data mining + retail + supermarkets
Data mining + supermarket + sales Others papers about data mining
35
Cabe resalta que la presente base de datos contaba con un sistema de filtrado limitado,
por lo que la filtración por años se realiza de manera diferente a la anterior base de datos,
sin embargo, cumple con su función de brindar información al lector.
Tabla 6
Participación de publicaciones respecto al año de publicación de la base de datos “IOP
Science”
Año Número de papers % Participación
Año 1950-2014 10 1.38%
Año 2014-2017 213 29.46%
Año 2018 447 61.83%
Año 2019 53 7.33%
Fuente: Elaboración propia
Ilustración 9: Gráfico de participación por año de publicación de la base de datos “IOP
Science”. Fuente: Elaboración propia
En la base de datos de IOP Science se encontró un mayor número de publicaciones en
el año 2018 a comparación con los otros años, lo cual brinda una cantidad de información
actualizada con respecto a otras bases de datos.
1.38%
29.46%
61.83%
7.33%
% Participación por año de publicación
Año 1950-2014 Año 2014-2017 Año 2018 Año 2019
36
Adicionalmente la base de datos de IOP Science permite realizar una filtración por
autores que hablan respecto al “Data Mining”, lo cual brinda la siguiente información:
Tabla 7
Número de publicaciones por autor de la base de datos “IOP Science”
Autores Número de
publicaciones
J.J. Beatty 40
M. Ahlers 35
J. G. Gonzalez 34
S. Sarkar 33
S. Westerhoff 33
A. Keivani 32
H. Dembinski 31
S. BenZvi 31
B. J. Whelan 30
S. Yoshida 30
A. Goldschmidt 29
A. Hallgren 29
A. Ishihara 29
A. Kappes 29
A. Karle 29
A. R. Fazely 29
C. Bohm 29
C. De Cleroq 29
Fuente: Elaboración propia
37
Ilustración 10: Gráfico de participación por número de publicaciones por autor de la
base de datos “IOP Science” Fuente: Elaboración propia
Como se puede apreciar, el número de publicaciones por autores, es similar. Con
excepción de J.J. Beathy, quien es el autor con mayor número de publicaciones referentes
a “Data mining” en la base de datos del IOP Science.
3. Science Direct
Se siguió con la metodología para la búsqueda en las bases de datos.
Dado que esta base de datos trabaja en ambos idiomas, tanto inglés como español, se
hizo en primera instancia el filtrado por palabras de búsqueda en inglés. Es así que se
obtuvo la siguiente información:
40
3534
33
33
32
31313030
29
29
29
29
2929
29
29
Número de artículos por autor
J.J. Beatty
M. Ahlers
J. G. Gonzalez
S. Sarkar
S. Westerhoff
A. Keivani
H. Dembinski
S. BenZvi
38
Tabla 8
Filtración de la base de datos Science Direct” en inglés
Palabras de
busqueda
1951-
2000
2001-
2014 2015 2016 2017 2018 2019 TOTAL
%
PARTCIPACIÓN
Data mining +
retail 0 8 1 3 1 5 3 21 3.24%
Data mining +
retail +
supermarkets
0 2 0 0 0 1 1 4 0.62%
Data mining +
supermarket +
sales
0 2 0 0 0 0 0 2 0.31%
Others papers
about data
mining
11 306 57 64 63 68 52 621 95.83%
Data mining 11 318 58 67 64 74 56 648 100.00%
Fuente: Elaboración propia
Ilustración 11: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos
“Science Direct” Fuente: Elaboración propia
3.24%0.62%
0.31%
95.83%
% PARTCIPACIÓN POR FILTRADO DE PALABRA DE BÚSQUEDA EN INGLES
Data mining + retail Data mining + retail + supermarkets
Data mining + supermarket + sales Others papers about data mining
39
Se continuó con el filtrado en español, para lo cual se obtuvo la siguiente información:
Tabla 9
Filtración de la base de datos “Science Direct” en español
Palabras de
búsqueda
1951-
2000
2001-
2014 2015 2016 2017 2018 2019 TOTAL
%
PARTCIPACIÓN
Minería de
datos + retail 0 0 0 0 0 0 0 0 0.00%
Minería de
datos + retail +
supermercados
0 0 0 0 0 0 0 0 0.00%
Minería de
datos +
supermercados
+ ventas
0 0 0 0 0 0 0 0 0.00%
Otros papers
referidos a
minería de datos
0 0 0 0 0 0 1 1 100.00%
Minería de datos 0 0 0 0 0 0 1 1 100.00%
Fuente: Elaboración propia
Ilustración 12: Gráfico de participación por filtrado de búsqueda en español de la base de
datos “Science Direct” Fuente: Elaboración propia
0.00%0.00% 0.00%
100.00%
% PARTCIPACIÓN POR FILTRADO DE PALABRA DE BÚSQUEDA EN ESPAÑOL
Minería de datos + retail Minería de datos + retail + supermercados
Minería de datos + supermercados + ventas Otros papers referidos a mineria de datos
40
En la base de datos de Science Direct se cuenta con una cantidad de información
importante para la investigación; sin embargo, como se puede apreciar, esta información
está en su mayoría, por no decir es su totalidad en inglés.
Se continuará presentando la información obtenida de la base de datos Science Direct
con respecto al número de publicaciones en los diferentes años, dicha información se
presenta a continuación:
Tabla 10
Participación de publicaciones respecto al año de publicación de la base de datos “Science
Direct”
Año Número
de papers
%
Participación
Año 1951-
2000 11 1.69%
Año 2001-
2014 318 49.00%
Año 2015 58 8.94%
Año 2016 67 10.32%
Año 2017 64 9.86%
Año 2018 74 11.40%
Año 2019 57 8.78%
Fuente: Elaboración propia
41
Ilustración 13: Gráfico de participación por año de publicación de la base de datos “Science
Direct” Fuente: Elaboración propia
Con la información mostrada se puede visualizar que el año en donde se dieron mayor
número de publicaciones fue el año 2018, por lo que la información obtenida de esta base
de datos, es actualizada.
1.69%
49.00%
8.94%
10.32%
9.86%
11.40%
8.78%
% Participación por año de publicación
Año 1951-2000 Año 2001-2014 Año 2015 Año 2016
Año 2017 Año 2018 Año 2019
42
4. Scielo
Al igual que las anteriores bases de datos, se ha filtrado en primer lugar por palabras de
búsqueda en español, dando como resultado:
Tabla 11
Filtración de la base de datos “Scielo” en español
Palabra de
búsqueda
1951-
2000
2001-
2014 2015 2016 2017 2018 2019 TOTAL
%
PARTCIPACIÓN
Minería de datos
+ técnicas 0 35 13 6 0 7 2 63 25%
Minería de datos
+ retail 0 0 0 0 0 0 0 0 0%
Minería de datos
+ retail +
supermercados
0 0 0 0 0 0 0 0 0%
Minería de datos
+ supermercados
+ ventas
0 0 0 0 0 0 0 0 0%
Otros papers
referidos a
minería de datos
5 88 16 20 37 14 5 185 75%
Minería de datos 5 123 29 26 37 21 7 248 100%
Fuente: Elaboración propia
43
Ilustración 14: Gráfico de participación por filtrado de búsqueda en español de la base de
datos “Scielo” Fuente: Elaboración propia
Se continuó con el filtrado de búsqueda en inglés
Tabla 12
Filtración de la base de datos “Scielo” en inglés
Palabra de
búsqueda 1995 2001 2015 2016 2017 2018 2019 TOTAL
%
PARTCIPACIÓN
Data mining +
retail 0 2 0 0 0 1 0 3 0%
Data mining +
retail +
supermarkets
0 0 0 0 0 0 0 0 0%
Data mining +
supermarket +
sales
0 2 0 0 0 1 0 3 0%
Others papers
about data
mining
11 605 90 96 27 89 48 966 99%
Data mining 11 609 90 96 27 91 48 972 100%
Fuente: Elaboración propia
25%
0%
0%
0%
75%
% PARTCIPACIÓN POR FILTRADO DE PALABRA DE BÚSQUEDA EN ESPAÑOL
Minería de datos + técnicas Minería de datos + retail
Minería de datos + retail + supermercados Minería de datos + supermercados + ventas
Otros papers referidos a minería de datos
44
Ilustración 15: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos
“Scielo” Fuente: Elaboración propia
Como se puede apreciar, al igual que en otras ocasiones, la información proviene más
por búsquedas en inglés que en español; sin embargo, es poca la información que se puede
obtener respecto al tema escogido.
Se continuo la filtración por años, para conocer el año en donde se hicieron mayores
publicaciones sobre Minería de datos o Data mining.
0%0% 0%
99%
% PARTCIPACIÓN POR FILTRADO DE PALABRA DE BÚSQUEDA EN INGLES
Data mining + retail Data mining + retail + supermarkets
Data mining + supermarket + sales Others papers about data mining
45
Tabla 13
Participación de publicaciones respecto al año de publicación de la base de datos “Scielo”
Año Número de papers % Participación
Año 1951-2000 16 1.31%
Año 2001-2014 732 60.00%
Año 2015 119 9.75%
Año 2016 122 10.00%
Año 2017 64 5.25%
Año 2018 112 9.18%
Año 2019 55 4.51%
Fuente: Elaboración propia
Ilustración 16: Gráfico de participación por año de publicación de la base de datos “Scielo”
Fuente: Elaboración propia
1.31%
60.00%9.75%
10.00%
5.25% 9.18%
4.51%
% Participación por año de publicación
Año 1951-2000 Año 2001-2014 Año 2015 Año 2016
Año 2017 Año 2018 Año 2019
46
Como se puede apreciar entre los últimos 5 años, el 2016 fue el año en donde se
realizaron más publicaciones referentes a Minería de datos o Data mining, se puede decir
que la información obtenida de esta base de datos, se mantiene actualizada con respecto al
tema.
5. Artículos revisados
A continuación, se muestran estadísticas sobre las publicaciones que se usaron para la
presente investigación, es así que en primera instancia se muestra una tabla con datos
referentes a cada una de las publicaciones mostradas como referencia al final del artículo.
Se tomó en cuenta el nombre del artículo, la cantidad de veces que fue citado por otras
personas, la base de datos de donde se sacó, la revista que publicó dicho artículo, su año
de publicación y finalmente el país de origen de la publicación
47
Tabla 14
Información referente a artículos revisados
Nombre del artículo
Veces
que fue
citado
Base de Datos Revista Año de
publicación
País de
origen
1
Benefits and Issues
Surrounding Data Mining and its
Application in the Retail
Industry
5 Google
Académico
International Journal of
Scientific and Research
Publication
2014 India
2
Minería de datos como
herramienta para el desarrollo de
estrategias de mercadeo B2B en
sectores productivos, afines a los
colombianos: Una revisión de
casos Sotavento MBA
4 Google
Académico Sotavento MBA 2013 Colombia
3 Secure Big Data using QKD
protocols. 0 Science Direct
Procedia Computer
Science 2019 USA
4 Applications of Data Mining
in Retail Business 136
Académico Computer Society 2018 USA
5
Enhanced Decsion Making
using Data Mining: Applications
for Retails.
15 Google
Académico
Journal of Textile and
Apparel, technology and
Management (JTATM)
2002 USA
48
6
Data mining techniques for
marketing, sales and customer
support
500 Google
Académico
USA: John Wiley and
Sons 1997 India
7
Data mining as a tool to
predict churn behavior of
customers
11 Google
Académico
International Journal of
Computer & Organization
Trends
2012 India
8 Potenciales Aplicaciones de la
Minería de Datos en Ecuador 6
Académico
Revisa Tecnológica
ESPOL-RTE 2016 Ecuador
9
A Study on the Applications
of Data Mining Techniques to
Enhance Customer Lifetime
Value
26 Google
Académico
Information science and
applications 2009 Taiwán
10
Implementation of Data
Mining on Online Shop in
Indonesia.
13 IOP Science
IOP Conference Series:
Materials Science and
Engineering
2018 Indonesia
11
Application of data mining
techniques in stock markets: A
survey
72 Google
Académico
Journal of Economics and
International Finance 2010 Iran
12 Aplicaciones de Minería de
datos en Marketing 6
Académico Revista Publicando 2016 Ecuador
13 Parallel Data Mining on
Graphics Processors 25
Académico Technical Report HKUST 2008 Japón
49
14 Minería de Datos: Conceptos
y Tendencias 85
Académico
Revista Iberoamericana de
Inteligencia Artificial 2006 España
15 Data Mining Standards
Initiatives 113
ACM Digital
Library
Communications Of The
Acm 2002 India
16
An introduction to data
mining and other techniques for
advanced analytics
29 Google
Académico
Journal of Direct, Data
and Digital Marketing
Practice
2010 Reino
Unido
17
Análisis de técnicas de Big
Data y su aprovechamiento
actual para la trangillsformación
digital de pymes
0 Google
Académico
Universidad de Castilla-
La Mancha 2018 España
18
Data mining techniques for
customer relationship
management
248 Science Direct Technology in Society 2014 Taiwán
19
Data mining y el
Descubrimiento del
conocimiento.
35 Redalyc
Revista de la Facultad de
Ingeniería Industrial de la
Universidad Nacional Mayor
de San Marcos
2014 Perú
20
Exchanging Data Mining
Models with the Predictive
Modelling Markup Language
28 Google
Académico
LIACC-University of
Porto 2001 Alemania
Fuente: Elaboración propia
50
6. Citaciones por artículo revisado
La tabla que sigue a continuación nuestra solo el número de veces que fue citada cada
uno de los artículos a los cuales se hizo referencia.
Tabla 15
Cantidad de citaciones por artículo revisado
Nombre del artículo
Veces
que fue
citado
1 Benefits and Issues Surrounding Data Mining and its Application in
the Retail Industry 5
2
Minería de datos como herramienta para el desarrollo de estrategias de
mercadeo B2B en sectores productivos, afines a los colombianos: Una
revisión de casos Sotavento MBA
4
3 Secure Big Data using QKD protocols. 0
4 Applications of Data Mining in Retail Business 136
5 Enhanced Decision Making using Data Mining: Applications for
Retails. 15
6 Data mining techniques for marketing, sales and customer support 500
7 Data mining as a tool to predict churn behavior of customers 11
8 Potenciales Aplicaciones de la Minería de Datos en Ecuador 6
9 A Study on the Applications of Data Mining Techniques to Enhance
Customer Lifetime Value 26
10 Implementation of Data Mining on Online Shop in Indonesia. 13
11 Application of data mining techniques in stock markets: A survey 72
12 Aplicaciones de Minería de datos en Marketing 6
13 Parallel Data Mining on Graphics Processors 25
14 Minería de Datos: Conceptos y Tendencias 85
15 Data Mining Standards Initiatives 113
51
16 An introduction to data mining and other techniques for advanced
analytics 29
17 Análisis de técnicas de Big Data y su aprovechamiento actual para la
transformación digital de pymes 0
18 Data mining techniques for customer relationship management 248
19 Data mining y el Descubrimiento del conocimiento. 35
20 Exchanging Data Mining Models with the Predictive Modelling
Markup Language 28
Fuente: Elaboración propia
Dada la información obtenida, se procede a mostrar la información antes dado de
manera textual, para que sea más sencillo entender y visualizar que artículos obtuvieron
mayor cantidad de citaciones, cuales tuvieron menos y cuales obtuvieron una cantidad de
citaciones considerable.
52
Ilustración 17: Gráfico de la cantidad de citaciones por cada artículo revisado. Fuente:
Elaboración propia
De este modo se puede apreciar que el artículo citado mayor cantidad de veces es el titulado
“Data mining techniques for marketing, sales and customer support”, el cual tiene 500 citaciones.
Muy por el contrario, la publicación titulada “Análisis de técnicas de Big Data y su
aprovechamiento actual para la transformación digital de pymes”, no cuenta con ninguna citación,
al igual que “Secure Big Data using QKD protocols.
Cabe resaltar que el número de citaciones brindadas por las bases de datos no son 100%
confiables, dado que para que la base de datos cuantifique una citación debe seguir su proceso
respectivo.
0 100 200 300 400 500 600
Benefits and Issues Surrounding Data Mining and its…
Minería de datos como herramienta para el desarrollo…
Secure Big Data using QKD protocols.
Applications of Data Mining in Retail Business
Enhanced Decsion Making using Data Mining:…
Data mining techniques for marketing, sales and…
Data mining as a tool to predict churn behavior of…
Potenciales Aplicaciones de la Minería de Datos en…
A Study on the Applications of Data Mining Techniques…
Implementation of Data Mining on Online Shop in…
Application of data mining techniques in stock markets:…
Aplicaciones de Minería de datos en Marketing
Parallel Data Mining on Graphics Processors
Minería de Datos: Conceptos y Tendencias
Data Mining Standards Initiatives
An introduction to data mining and other techniques…
Análisis de técnicas de Big Data y su aprovechamiento…
Data mining techniques for customer relationship…
Data mining y el Descubrimiento del conocimiento.
Exchanging Data Mining Models with the Predictive…
Número de veces que fue citado
No
mb
re d
el
art
ícu
lo
Veces que fue citado cada artículo
53
7. Artículos revisados por Base de datos
Para conocer la base de datos que nos ha brindado mayor cantidad de información se ha
agrupado nuestras referencias según su base de datos de origen, lo cual nos ha permitido
conocer, la base de datos que fue de mayor utilidad.
Siendo así se tiene la siguiente información organizada:
Tabla 16
Cantidad de artículos revisados por Base de Datos
Nombre de Base de
Datos
Cantidad de
artículos revisados
Scholar Google 15
IOP Science 1
ACM Digital
Library 1
Science Direct 2
Redalyc 1
Fuente: Elaboración propia
Ilustración 18: Gráfica de cantidad de artículos revisados por Base de Datos. Fuente: Elaboración
propia
15
1
1 2 1
Cantidad de artículos revisados por Base de Datos
Google Académico IOP Science ACM Digital Library
Science Direct Redalyc
54
La base de datos que colaboró con mayor cantidad de información es el “Scholar
Google”, esto se debe a la cantidad de publicaciones con las que cuenta y que además
permite hacer una filtración avanzada para no leer publicaciones que no sean útiles a la
investigación.
8. Año de publicación de los artículos revisados
Continuando con las clasificaciones, se muestra a continuación todas las referencias
bibliográficas en la investigación, lo cual nos permitirá conocer el año o los años que
representan mayor cantidad de información.
Tabla 17
Cantidad de artículos revisados por año de publicación
Año de publicación
de revista
Cantidad de artículos
revisados
1997 1
2001 1
2002 2
2006 1
2008 1
2009 1
2010 2
2012 1
2013 1
2014 3
2016 2
2018 3
2019 1
Fuente: Elaboración propia
55
Ilustración 19: Gráfico de cantidad de artículos revisados por año de publicación. Fuente:
Elaboración propia
Como se puede ver tanto en la tabla como en la gráfica, hay un creciente poco constante,
aun así, se puede ver la tendencia positiva de la cantidad de artículos publicados por año,
además con esta información se puede dar a conocer que los años consultados con mayor
frecuencia han sido el año 2014 y el año 2018, por lo que se puede decir que la información
está actualizada al mercado actual.
0
0.5
1
1.5
2
2.5
3
3.5
1997 2001 2002 2006 2008 2009 2010 2012 2013 2014 2016 2018 2019
Ca
nti
da
d d
e a
rtíc
ulo
s
Año de publicación
Cantidad de artículos revisados por año de
pubicación
56
9. Ubicación geográfica de países en los que se publicaron los artículos revisados
Ilustración 20: Ubicación geográfica de los países en los que se publicaron los artículos
revisados. Fuente: Elaboración propia
En lo mostrado anteriormente, se puede apreciar los países de donde viene la
información consultada, dándonos cuenta que el continente con mayor aporte al tema es el
asiático, mientras que no se ha hallado información relevante en continentes como África
y Oceanía.
57
10. Cantidad de artículos revisados por país
Tabla 18
Cantidad de artículos revisados por país de publicación
País de origen Cantidad de artículos
revisados
India 4
Colombia 1
USA 3
Ecuador 2
Taiwán 2
Indonesia 1
Irán 1
Japón 1
España 2
Reino Unido 1
Perú 1
Alemania 1
Fuente: Elaboración propia
58
Ilustración 21: Gráfico de la cantidad de artículos revisados por país de publicación. Fuente:
Elaboración propia
Con la información mostrada previamente se puede notar que la India es el país con
mayor número de artículos publicados, lo cual la hace una fuente de continua búsqueda de
información referente al tema planteado. Mientras que países como Ecuador, Indonesia,
Alemania, Reino Unido, entre otros no presentan el mismo compromiso con lo referente a
minería de datos, a pesar de ser un tema de gran importancia a las empresas.
0
1
2
3
4
5
Cantidad de artículos revisados
Cantidad de árticulos revisados por país de
publicación
India Colombia USA Ecuador
Taiwán Indonesia Iran Japón
España Reino Unido Perú Alemania
59
CAPÍTULO V
ANÁLISIS DE RESULTADOS
Como resultados de la investigación bibliográfica se obtuvo información sobre la minería de
datos su evolución, sus aplicaciones y métodos de aplicación mediante sus diversas técnicas que
posee entre las que tenemos a las redes neuronales, regresión lineal, árboles de decisión, reglas de
asociación, agrupamiento, análisis factorial, series de tiempo y pronósticos.
Se buscó información acerca del modo de aplicación de las diferentes técnicas de minería de
datos en empresas del sector retail, aun cuando no se pudo obtener la información de la aplicación
de técnicas específicas, se obtuvo la información referente a la aplicación de la minería de datos
en general en empresas del sector retail como: Master Card, Wal Mart, Burger King, Tesco, Papas
“Chips” y una tienda online en Indonesia. Siendo así se logró el objetivo general de conocer cómo
empresas aplican la minería de datos, ahora bien, cabe resaltar que esta aplicación varía según el
tamaño de la empresa, su estructura, sus objetivos propios, entre otros, es así que dos empresas
muy similares entre sí, pueden usar de manera diferente la minería de datos.
Finalmente, en la bibliometría se encontraron resultados cuantificados, a manera de tablas
estadísticas para mostrar a futuros investigadores las bases de datos con mayor información y que
podrían serle de utilidad a la hora de buscar información sobre la Minería de datos y el modo en
que empresas del sector retail la aplican, para lo cual se recomienda en gran medida comenzar por
una búsqueda en inglés, además se encontró que India era el país con mayor cantidad de artículos
publicados, por lo que para futuras investigaciones debe ser considerado como primera fuente de
información, al igual que el software de Scholar Google.
60
CAPÍTULO VI
CONCLUSIONES Y RECOMENDACIONES
- La minería de datos es una herramienta tecnológica que posee técnicas que le permiten extraer
información útil de la base de datos de la empresa, para poder usarla en la toma de decisiones
de cada organización.
- El concepto de minería de datos está inmerso dentro de lo que se conoce como Big Data, además
muchas veces el término Minería de datos es confundido con el término aplicado a KDD.
- Las técnicas de minería de datos usadas por las diferentes empresas son: redes neuronales,
regresión lineal, árboles de decisión, reglas de asociación, agrupamiento, análisis factorial,
series de tiempo y pronósticos.
- La minería de datos (Data mining) puede ser aplicada a empresas de todo tipo, y brindan grandes
ventajas competitivas a las pertenecientes al sector retail.
- La aplicación de la minería de datos en empresas del sector retail, va más allá de una simple
recopilación de información, ya que no toda la información es útil y hay que saber qué busca la
empresa, para poder definir cómo debe segmentar su información para hacer un uso adecuado
de la misma.
- La minería de datos es una herramienta que ayuda a mejorar la toma de decisiones en empresas
del sector retail, más no es una herramienta generadora de alternativas de solución a un
determinado problema que presente la empresa. Es por ello que es necesario un personal
encargado que analice los datos procesados por la herramienta, vea su proyecciones y los
posibles efectos en la empresa, después del análisis correspondiente, se puede tomar una
decisión que permitirá mejorar la empresa.
- Las decisiones tomadas por la minería de datos pueden tener desde resultados pequeños hasta
resultados significativos para la empresa del sector, tanto económicamente como en la
percepción que tiene el cliente de la empresa.
- Luego de realizada la bibliometría, se puede concluir que existe una mayor cantidad de
información en inglés que en español, por lo que es recomendable comenzar la búsqueda en
inglés para encontrar mayor información y saber filtrarla de acuerdo a lo que se está buscando,
dado que como minería de datos en general abarca muchos campos.
61
- Realizada la bibliometría se concluye que la base de datos con mayor información con respecto
a la minería de datos es “Scholar Google”, seguido de “Scielo” y finalmente de “IOP Science”,
las cuales se consideran como principales bases de datos para la búsqueda de información.
- Para tener información más actualizada se recomienda recopilar información de documentos
publicados en los últimos cinco años, ya que información pasada puede no ser válida al
momento de realizada la investigación, lo cual haría que se incurran en errores.
- Para empresas que sean nuevas en la aplicación de la minería de datos, se recomienda que
revisen información de empresas similares para conocer las diferentes alternativas que se tienen
a la hora de decidir aplicar la minería de datos.
62
REFERENCIAS
Agarwal, P. (2014). Benefits and Issues Surrounding Data Mining and its Application in the
Retail Industry. International Journal of Scientific and Research Publication, 2250-3153.
Altamiranda, L, et al. (2013) Minería de datos como herramienta para el desarrollo de estrategias
de mercadeo B2B en sectores productivos, afines a los colombianos: Una revisión de casos
Sotavento MBA, 22, 126-136
Amellal, H., et al (2019) Secure Big Data using QKD protocols. Procedia Computer Science
148, 21–29
Ahmed, S. R. (2018). Applications of Data Mining in Retail Business. Computer Society, 5.
Anderson, J. (2002). Enhanced Decision Making using Data Mining: Applications for Retails.
Journal of Textile and Apparel, technology and Management (JTATM), 14.
Berry, M. J. (1997). Data mining techniques for marketing, sales and customer support. USA:
John Wiley and Sons, 47-50
Bhambri, Vivek (2012). Data mining as a tool to predict churn behavior of customers.
International Journal of Computer & Organization Trends, 2 (3), 29 – 33.
Camana, R. (2016). Potenciales Aplicaciones de la Minería de Datos en Ecuador. ESPOL-RTE,
170-178.
Chia-Cheng Shen, H.-M. C. (2009). A Study on the Applications of Data Mining Techniques to
Enhance Customer Lifetime Value. Information science and applications, 319-328
Chouat O, Irawan AH (2018) Implementation of Data Mining on Online Shop in Indonesia. IOP
Conference Series: Materials Science and Engineering, 1-7
63
Davari-Ardakani H., Hajizadeh E., Shahrabi J. et al (2010). Application of data mining
techniques in stock markets: A survey. Journal of Economics and International Finance, 2
(7), 109-118
Escobar, et al. (2016). Aplicaciones de Minería de datos en Marketing. Revista Publicando, 3
(8), 503 – 512.
Fang W. et al. (2008). Parallel Data Mining on Graphics Processors. Technical Report HKUST-
CS08-07, 10.
Gilbert, Karina; et al. (2006). Minería de Datos: Conceptos y Tendencias. Revista
Iberoamericana de Inteligencia Artificial, 26, 11-18.
Grossman R., Hornick M, Meyer G. (2002). Data Mining Standards Initiatives. Communications
Of The Acm, 59-61.
Gutiérrez, Moreno, et al (2019). Uso de Sistemas Inteligentes para la detección de fraudes
financieros. Sinergia, 1, 1-25.
Leventhal, Barry (2010). An introduction to data mining and other techniques for advanced
analytics. Journal of Direct, Data and Digital Marketing Practice, 10, 137-153.
Murcia, S. y Quintero, S. (2017). Minería De Datos Aplicada Al Segmento Retail De Los Gases
Industriales (Trabajo para la especialización en gerencia de mercadeo estratégico).
Universidad Piloto, Bogota, Colombia.
Paz J. (2016). Cuadro de Mando Integral desarrollado para una empresa del Sector Retail
(Trabajo de Aplicativo final para Diplomado de Especialización Gerencial). Universidad
Peruana de Ciencias Aplicadas, Lima, Perú.
64
Polo, A. (2016). Minería de Datos, de Textos y Sentimientos (Trabajo de investigación). Instituto
Tecnológico de Orizaba, Veracruz, Mexico.
Requena Cabot María de Fátima (2018). Análisis de técnicas de Big Data y su aprovechamiento
actual para la trangillsformación digital de pymes. Universidad de Castilla- La Mancha, 13
Rygielski Chris, et al (2002). Data mining techniques for customer relationship management.
Technology in Society, 24, 483-502
Valcárcel, Violeta (2014). Data mining y el Descubrimiento del conocimiento. Revista de la
Facultad de Ingeniería Industrial de la Universidad Nacional Mayor de San Marcos, 7 (2),
83 – 86.
Wettschereck D., Muller S. (2001). Exchanging Data Mining Models with the Predictive
Modelling Markup Language. LIACC-University of Porto, 12.
Zuluaga, A. (2011). Importancia de la minería de datos en la construcción del Kapital Cliente
(Trabajo de grado). Colegio de Estudios Superiores de Administración, Colombia, Bogotá.
top related