intnegpf_final.pdf
TRANSCRIPT
-
Prediccin etiquetado y encorchado vino percha Felipe Blum, Toms Rojas, Felipe Torres, Pablo Torres
Facultad de Ingeniera y Ciencias, Univerisdad Adolfo Ibez
Para las empresas vincolas es muy importante, desarrollar un
sistema que permita entregar resultados sobre que es lo ms
conveniente producir. En este documento se estudiaron arboles de
decisin para la prediccin las caractersticas del producto que ms
se vender. La tcnica de arboles de decisin para la prediccin a
sido utilizada en muchos estudios, pero no en un caso como el
presentado en este documento. Para desarrollar este experimento se
ocupo una base de datos que representa las ventas del Grupo Beln,
empresa dedicada a la produccin de vino. Este experimento
entrego resultados alentadores, pero podran ser aun mejores si se
tuviera un set de datos ms grande y que incluyera datos ms
antiguos.
I. INTRODUCCIN
El auge creciente de la industria vincola chilena durante la
ltima dcada, ha impulsado a generar cada vez ms nuevas
ventajas comparativas para hacer frente a un agresivo mercado
internacional que da a da se vuelve ms exigente. Son
muchas las empresas de esta industria que optan por ofrecer
una gran flexibilidad en el tipo de etiquetado, contra
etiquetado y corcho a ser seleccionado por los clientes y/o
distribuidores mayoristas para su utilizacin sobre sus
productos.
Si bien esta estrategia ha ayudado a aumentar la cantidad de
contratos y ventas, muchas veces se ha transformado en una
problemtica para los departamento de produccin de dichas
empresas.
Cuando un pedido es ingresado, este es derivado al rea de
operaciones el cual en funcin de la cantidad, el ao de
cosecha, tipo y variedad del vino escogido por el cliente
selecciona la cava a ser vaciada. Las cavas deben ser vaciadas
completamente ya que de lo contrario el aire residual que
ingresara al interior de la misma lograra que el vino se pique,
fermentando en un corto periodo.
Siguiendo la lnea de operaciones, el vino es embotellado,
etiquetado, contra etiquetado y encorchado por sistemas
hidrulicos con matrices nicas para cada tamao y en muchos
casos diseos de estos elementos. Una vez que un tipo de vino
a embotellar se le modifica dichos atributos, se debe sustituir
la matriz por la de la caracterstica correspondiente lo que
detiene la lnea de produccin en 1 hora aproximada.
Finalmente, una vez finalizado el proceso de embotellado,
etiquetado y encorchado del vino del pedido, se procede con el
mismo proceso para el vino destinado a percha. Este vino
corresponde al material sobrante del vaciado de la cava del
pedido original. Es aqu donde surge el principal problema, y
es el de poder predecir que elementos del etiquetado y
encorchado asignarle a esta vino de tal forma de que el vino en
percha sea vendido rpidamente y no signifique un sobre stock
de produccin por un mal etiquetado que los clientes futuros
no prefieran.
En la actualidad, los departamentos de estas empresas se basan
en estimaciones de demanda donde muchas veces el
etiquetado y encorchado de percha corresponde a aquellas
etiquetas ms estndares de la industria. A su vez, muchas
otras optan por no etiquetar el vino en percha y solo encorchar
con corchos estndares, privilegiando la funcionalidad de
estos por sobre el diseo. En ambos casos, si ninguno de estos
vinos es seleccionado en un periodo determinado, el cual es
dependiente del tipo de vino ya que algunos de estos soportan
mayor longevidad, se debe proceder a romper la botella (ya
que una vez abierto el vino esta no es reutilizable) y utilizar
dicho vino como una base en la produccin de alguna variedad
de menor categora.
Se propone como una alternativa para mejorar los niveles de
prediccin los rboles de decisin bajo una metodologa
CART. La propuesta a utilizar buscar predecir los elementos
de etiqueta, contra etiqueta y corcho en funcin de lnea de
produccin, el ao de cosecha, variedad y grado alcohlico del
vino en produccin.
Para trabajar en esta propuesta, se trabajar con el registro de
SKU de los vinos vendidos por el grupo Beln entre la fecha
del 3 de septiembre de 2012 y 13 de septiembre del 2013.
Una vez modelado del problema, se buscar fabricar una
matriz de probabilidades de xito sobre el etiquetado y
encorchado para el departamento de produccin con el fin de
alcanzar mejores niveles de prediccin del proceso de
embotellado de vino destinado a percha.
II. LOS DATOS
A. Descripcin de los datos
Pre-procesamiento de la informacin
La primera dificultad a enfrentar al momento de realizar este
modelo fue la inconsistencia de la informacin. Muchas
-
variables se encontraban ya sea en formatos distintos (como el
grado alcohlico y ao de cosecha), inexistentes (como
etiquetas y contra etiquetas faltantes) y en algunos casos
incluso con errores de tabulacin. Debido a que el aprendizaje
mediante un rbol de decisin requiere justamente
consistencia en la informacin de entrada, se debi invertir
una gran cantidad de tiempo en la correccin de estos errores
y en su posterior comprobacin.
La segunda dificultad fue la cantidad de atributos a utilizar.
Existen un total de 486 etiquetas y 728 contra etiquetas
distintas, las que combinadas con el resto de los atributos
supusieron limitantes al momento de representar visualmente
los datos, como tambin limitantes de rendimiento en el
desarrollo computacional del problema. Para su solucin, se
procedi a la transformacin de todos los datos cualitativos a
datos cuantitativos a travs de un ID especifico.
B. Exploracin de los datos
Atributos a utilizar
Empresa Via de la cual proviene el producto, Ej.: Via
Morand
Lnea Tipo de producto, Ej.: House of Morand
Variedad Caracterstica del producto y su diversificacin,
Ej.: Cabernet Sauvignon
Cosecha Ao de cosecha, Ej.: 2012
Valle Lugar de origen de la produccin, Ej.: Casablanca
Vino base Cdigo del vino basal a ser usada en la
produccin
Variables a predecir
Etiqueta 486 variedades asignadas mediante un ID de 6
dgitos
Contra etiqueta 728 variedades asignadas mediante un ID
de 5 y 6 dgitos
Corcho 55 variedades asignados mediante un ID de 5
dgitos
III. DESCRIPCIN DE LAS TCNICAS UTILIZADAS
rbol de decisin
El modelamiento bajo rboles de decisin combina tcnicas de
minera de datos y estadstica para predecir atributos en
funcin de un aprendizaje supervisado, una forma de
entrenamiento que busca crear una funcin capaz de predecir
valores correspondientes a objetos de entrada despus de
haber analizado un conjunto de ejemplos (conjunto de datos
de entrenamiento).
En particular, la metodologa de rboles de decisin ejecuta su
funcionamiento mediante la creacin de ramas, nodos y hojas.
Los nodos corresponden a instancias de decisin, etapas que
se caracterizan por una aseveracin o decisin lgica que
derivan en N ramificaciones posibles. Para el desarrollo de
este problema trabajaremos con ramificaciones binarias
(si/no). Una vez culminadas las ramificaciones estas
desembocan lo que se llama una hoja, la que corresponde a la
prediccin o etiqueta que se le asignar a la instancia
evaluada.
Introduccin a su funcionamiento
El algoritmo de rboles de decisin aplicados a minera de
datos se rige por el siguiente algoritmo bsico:
1. La primera etapa corresponde a la etapa de particin y creacin del nodo raz, donde el algoritmo analiza
el conjunto total de datos y analiza cmo realizar las
ramificaciones. Para el desarrollo de este problema,
las ramificaciones se realizaran de forma binaria
utilizando un algoritmo CART. Este algoritmo se
caracteriza por tabular 2 atributos del set de datos
proporcionado en un grfico X/Y, trazando
virtualmente una lnea divisora paralela a alguno de
los 2 ejes. Una vez hecho esto, se agrupan los
atributos y se genera el nodo raz mediante una
decisin lgica (Ej. Valle < 96?). El nodo raz
corresponde simblicamente a la zona superior del
rbol de decisin y es aquel del cual nacen todas las
ramificaciones y sub. ramificaciones.
2. Posteriormente, si todas las instancias (tipos de SKU) pertenecen a la misma clase (mismo atributo) se
asigna dicho atributo a la instancia N y el algoritmo
finaliza.
3. En caso contrario, genera una nueva particin en funcin de un nuevo trazado virtual perpendicular al
trazado anterior, donde el nuevo sub. conjunto de
datos ser un subconjunto de la particin realizada en
la etapa anterior.
a. Para cada condicin establecida se aadir un nuevo nodo hijo y una nueva particin
4. El algoritmo vuelve a comenzar por la etapa 2
IV. DESARROLLO DEL TRABAJO
Objetivos
El objetivo de este modelo es poder clasificar con el mayor
grado de precisin posible el etiquetado (etiqueta y contra
etiqueta) y el corcho a utilizar, tomando como datos de
entrada la empresa, lnea, variedad, cosecha, valle, grado
alcohlico y la botella utilizada. Una vez que se comienza a
envasar el vino destinado a guarda, operaciones podr predecir
en funcin de la informacin vincola de la lnea de
produccin, el etiquetado y corcho a utilizar para dicha
produccin.
La lnea de produccin sigue una secuencia lgica donde al
sobrar vino sobre la produccin original, se busca etiquetar
manteniendo la botella de la lnea productiva. Es debido a esto
que la botella se incorpora como elemento fundamental para
realizar las predicciones.
Trabajo para el curso de Inteligencia de Negocios 2013 Profesor Gonzalo Ruz
-
Supuestos involucrados
El principal supuesto radica en que los datos de ventas y
beneficios obtenidos por cada instancia no son relevantes en la
clasificacin de los atributos. Puesto que el tipo de vino es
aquel que debiese incidir directamente en el valor del mismo,
al predecir un etiquetado en funcin de las distintas instancias
de SKU se hace evidente que el beneficio obtenido para una
misma lnea, variedad, y cosecha en distintas variantes de
etiquetado y corcho es mayormente el mismo.
Metodologa
Del total de datos proporcionados por el rea de
produccin, los que corresponden a 1002 instancias (el
abanico de SKU), se procedi a una divisin 4-1 donde el 80%
de los datos (seleccionados de forma aleatoria)
correspondieron al conjunto de entrenamiento.
Un conjunto de entrenamiento involucra a todo el universo
de datos que el algoritmo utilizar para el aprendizaje y su
posterior replicacin con datos entregados en el futuro. Como
en el presente problema contamos con un conjunto de
informacin acotado temporalmente, y no se genera nueva
informacin para validar el problema y revisar su
funcionamiento, el 20% restante correspondi al conjunto de
entrenamiento.
Este sub. conjunto representar y se comportar como si
fuese nueva informacin entrante, por lo que ser utilizado
para validar si nuestro modelo se encuentra clasificando
correctamente los atributos de etiquetado y corcho.
Esta metodologa se utilizar para la clasificacin
independiente de las variables de Etiqueta, Contra etiqueta y
corcho. Esto conlleva a crear un conjunto de entrenamiento y
prueba aleatorio diferente para cada una de estas 3 variables, y
aplicar el algoritmo CART a cada uno de estos especificando
la variable a predecir.
V. RESULTADOS
Los algoritmos de rboles de decisin aplicados a la
minera de datos se basan en modelos probabilsticos, donde
para cada ejecucin del mismo se obtiene potencialmente una
ramificacin diferente (recordar que el comienzo del
algoritmo se basa en una segregacin aleatoria de los datos).
Para sobrepasar esta situacin, se trabaj bajo una semilla, la
que corresponde a una instruccin a la secuencia del
generador de nmeros aleatorios del software utilizado (R+)
para obtener siempre los mismos resultados y que estos no
varen en cada ejecucin.
Dentro de las caractersticas de la librera RPART, existe la
configuracin para establecer la probabilidad de acierto de una
determinada etiqueta en un nodo hoja del rbol. Esta
informacin nos servir como medida de desempeo de la
precisin del algoritmo utilizado.
Etiqueta
En el grfico 1 se muestra el rbol de decisin almacenado
en nuestra semilla.
Ejecutando un anlisis de influencia de los atributos sobre
la variable etiqueta a predecir mediante la librera RPART se
obtuvo los siguientes resultados:
Botella Cosecha Variedad Lnea Grado Alcohol Valle Empresa
26% 22% 21% 10% 9% 8% 3%
Grfico 1
La empresa botella, cosecha y variedad son los atributos
ms relevantes al momento de predecir la etiqueta frontal de
una botella especifica de vino a ser derivada a guarda.
Se observa para esta muestra (semilla) que a medida que se
desciende en el rbol en direccin a las hojas basales, la
probabilidad predictiva es en muchos casos muy pequea.
Esta probabilidad es fue calculada mediante la probabilidad de
xito de nuestra semilla sobre el conjunto de prueba,
analizando la cantidad de xitos sobre la etiqueta escogida
sobre el subconjunto formado por la ramificacin.
Explicando como ejemplo, para un vino proveniente del
grupo de valles con ID inferior a 96, botella inferior a ID 4146
y cosecha inferior al ao 2010, la probabilidad de xito de la
etiqueta ID 734105 fue de 53%.
Concentracin probabilidades de xito por etiqueta
Realizando un grfico de anlisis de concentracin de datos
de probabilidades de acierto se observa que nuestra semilla
-
concentra su precisin en valores entre 0.01% y 0.2% lo que
da cuenta del alto error de prediccin del modelo frente a la
variable etiqueta.
Grfico 2: concentracin probabilidades vs ID Etiqueta
Corcho
Para la semilla utilizada en el anlisis de corcho, se puede
observar en el grfico 3 que las probabilidades de precisin
son muy altas.
Grfico 3
De un total de 100 semillas utilizadas para comprobar este
comportamiento, se observ que para 91 casos se reiter el
nivel de precisin, y en los casos siguientes en pocas hojas se
observ una precisin inferior al 40%.
Ejecutando un anlisis de influencia de los atributos sobre
la variable corcho, se obtuvieron los siguientes resultados:
Botella Cosecha Variedad Lnea Grado Alcohol EtiquetaValle Empresa
25% 6% 12% 25% 10% 8% 14%
Es importante observar como la prediccin de corcho es
influenciada de mayor manera ahora por la lnea y la empresa.
Este resultado se encuentra entrelazado y da cuenta de cmo
se comportan los corchos en la realidad, donde la lnea juega
un rol fundamental al momento de decisin por la
permeabilidad de corcho, como tambin el hecho de que hay
empresas que no seleccionan ciertos corchos a sus productos.
Concentracin probabilidades de xito por corcho
Revisando la concentracin de probabilidades, se puede
observar, en el grfico 6, como la precisin de la variable
corcho es muy alta, concentrado mayormente sus datos sobre
el 60%. Es importante hacer mencin que el rbol de decisin
mostrado en cualquiera de las semillas, solo informa una
prediccin para las ramificaciones que concentren la mayor
cantidad de instancias para una misma clase (paso 2 del
algoritmo), por lo que existen instancias no seleccionadas (en
una probabilidad muy baja) las que se ven representadas en el
grfico de probabilidad con valores pequeos de precisin
(entre 0.01% y 40%).
Grfico 4: concentracin probabilidades vs ID Corcho
Contra etiqueta
Para el caso de la variable contra etiqueta, el algoritmo
CART no pudo entregar un rbol de decisin debido a la gran
cantidad de variables para su prediccin (728 variedades).
Esto se debe a que la relacin entre instancias y cantidad de
elementos de la variable es muy pequea.
-
Sensibilidad del modelo
Se observa que en la relacin porcentual de aquellas
variables ms influyentes en la prediccin tambin recae el
nivel de sensibilidad del modelo. Una variacin en aquellos
atributos con un nivel porcentual elevado significar
automticamente un fuerte impacto sobre la variable a
analizar.
A modo de ejemplo, una decisin de reduccin sobre la
cantidad de botellas disminuir en mayor medida SKU no solo
por la misma reduccin, sino que implicar una sobre
reduccin de SKU por la variedad de corchos.
Se deja analizadas las relaciones donde el criterio final
deber ser ejecutado por la gerencia de operaciones.
Aplicacin del modelo
La aplicacin del modelo se realizar mediante una matriz
de probabilidades, la cual al asignar como datos de entrada los
atributos del problema, entregar como resultado al cliente las
variables a predecir con mayor probabilidad de xito
(basndose en el entrenamiento y validacin segn el conjunto
de entrenamiento)
Este procedimiento se desarrolla ejecutando internamente
una cantidad de iteraciones suficientemente alta del algoritmo
CART, de tal forma que la variacin por las ejecuciones y
ramificaciones debidas a factores aleatorios del algoritmo sea
reducida al mximo, obteniendo resultados consistentes y
evaluando todos los escenarios posibles de ramificacin.
Medidas de desempeo
Nivel de precisin en la prediccin de variables Cantidad de SKU disminuida en funcin del
beneficio
Para medir la efectividad de nuestro modelo, se revis
ambas medidas las que nos permitieron discriminar
alternativas.
Reduccin de SKU
Para poder eliminar los tipos de corcho, etiqueta y contra
etiqueta menos frecuentes de las ventas histricas entre
septiembre del 2012 a septiembre del 2013 (datos atpicos), se
utilizaron reglas de asociacin.
Las reglas de asociacin es un tipo de minera de datos que
funciona con variables categricas, en el cual se busca en la
matriz de datos relaciones entre los atributos en la que un
antecedente implique un consecuente, es decir, se espera llegar
a un resultado de tipo si tal atributo es A, entonces este otro atributo ser B (en una misma instancia).
Existen dos parmetros de reglas de asociacin que fueron
de gran importancia en este trabajo: soporte y confianza.
Soporte es la cantidad de veces que existe la regla (se cumple
antecedente y consecuente), dividido en la cantidad total de
instancias. Confianza es la cantidad de veces que se observa la
regla (antecedente y consecuente), dividido en la cantidad de
veces que se observa el antecedente sin importar el
consecuente.
A pesar de que este tipo de minera de datos busca entregar
relaciones frecuentes en los datos, se pudo invertir el objetivo
especificando un nivel de soporte 0.001 y un nivel confianza
0.001, de manera de encontrar los datos menos repetidos. Para
dar un enfoque exclusivo a los atributos mencionados, se cre
una nueva matriz en la que estos son las nicas tres columnas.
Para poder tener un ranking de datos atpicos, se ordenaron
los datos comenzando por el soporte ms bajo, y terminando
con el ms alto. Con estos parmetros se obtuvieron 1454
reglas de asociacin y se obtuvieron 146 atributos atpicos,
entre ellos corcho, etiqueta y contra etiqueta, que se repiten
solo dos veces en las 1002 instancias evaluadas.
VI. DISCUSIN
Se ha podido observar a lo largo de esta investigacin que las
predicciones mediante rboles de decisin han entregado
resultados aceptables. En la prediccin de encorchado se ha
observado una concentracin de probabilidades de xito del
orden del 60%, lo que significa un nivel de xito en las
predicciones muy superior a la estimaciones bajo anlisis de
demanda.
En la actualidad, las estimaciones de demanda conllevan a una
destruccin de vinos en percha del orden del 20%, pero
cuentan con la retraccin de que se concentran solo en
aquellos atributos ms estndares y no buscan inspeccionar
sobre mejores alternativas.
Los anlisis del etiquetado han entregado resultados
insatisfactorios. Para la etiqueta, las probabilidades de xito
concentran sus valores en no ms de un 20%. En el contra
etiquetado no fue posible generar un nodo raz al momento de
realizar el algoritmo CART. Ambos casos se atribuyen a un
nivel de cantidad de etiquetas y contra etiquetas muy cercana
al nivel de instancias. Esta variabilidad en la cantidad de
atributos condiciona a que el nivel de aprendizaje generado es
muy bajo o inexistente.
VII. CONCLUSIN
Si bien para este anlisis los resultados no han
entregado una matriz de prediccin para el cliente que sea efectiva a su utilizacin actual, ha entregado los cimientos para alimentar este algoritmo con datos de una longevidad ms amplia, lo que aumentar su rendimiento considerablemente y superando ampliamente los mtodos de prediccin actual bajo anlisis de demanda.
A su vez, dicho anlisis ha podido obtener anlisis de sensibilidad en las predicciones que no hubiesen sido posibles mediante la metodologa tradicional actual.
Finalmente aplicando reglas de asociacin hemos podido encontrar aquellos atributos que permitirn, en conjunto con una orientacin de las sensibilidades anteriores, orientar a los tomadores de decisin en su reduccin o eliminacin para una futura reduccin de SKU y mejor manipulacin y optimizacin de la cadena productiva.
-
REFERENCIAS
[1] Grupo Belen. (s.f.). Recuperado el 11 de Septiembre de 2013, de http://morande.cl/esp/distribucion.html
[2] Grupo Belen S.A. (s.f.). Recuperado el 11 de Septiembre de 2013, de http://www.morande.cl/esp/reporte_GB.pdf
[3] Introduction to Data Mining, de Pang-Ning Tan, Michigan State University,
[4] Michael Steinbach, University of Minnesota
Vipin Kumar, University of Minnesota