intnegpf_final.pdf

Prediccin etiquetado y encorchado vino percha Felipe Blum, Toms Rojas, Felipe Torres, Pablo Torres

Facultad de Ingeniera y Ciencias, Univerisdad Adolfo Ibez

Para las empresas vincolas es muy importante, desarrollar un

sistema que permita entregar resultados sobre que es lo ms

conveniente producir. En este documento se estudiaron arboles de

decisin para la prediccin las caractersticas del producto que ms

se vender. La tcnica de arboles de decisin para la prediccin a

sido utilizada en muchos estudios, pero no en un caso como el

presentado en este documento. Para desarrollar este experimento se

ocupo una base de datos que representa las ventas del Grupo Beln,

empresa dedicada a la produccin de vino. Este experimento

entrego resultados alentadores, pero podran ser aun mejores si se

tuviera un set de datos ms grande y que incluyera datos ms

antiguos.

I. INTRODUCCIN

El auge creciente de la industria vincola chilena durante la

ltima dcada, ha impulsado a generar cada vez ms nuevas

ventajas comparativas para hacer frente a un agresivo mercado

internacional que da a da se vuelve ms exigente. Son

muchas las empresas de esta industria que optan por ofrecer

una gran flexibilidad en el tipo de etiquetado, contra

etiquetado y corcho a ser seleccionado por los clientes y/o

distribuidores mayoristas para su utilizacin sobre sus

productos.

Si bien esta estrategia ha ayudado a aumentar la cantidad de

contratos y ventas, muchas veces se ha transformado en una

problemtica para los departamento de produccin de dichas

empresas.

Cuando un pedido es ingresado, este es derivado al rea de

operaciones el cual en funcin de la cantidad, el ao de

cosecha, tipo y variedad del vino escogido por el cliente

selecciona la cava a ser vaciada. Las cavas deben ser vaciadas

completamente ya que de lo contrario el aire residual que

ingresara al interior de la misma lograra que el vino se pique,

fermentando en un corto periodo.

Siguiendo la lnea de operaciones, el vino es embotellado,

etiquetado, contra etiquetado y encorchado por sistemas

hidrulicos con matrices nicas para cada tamao y en muchos

casos diseos de estos elementos. Una vez que un tipo de vino

a embotellar se le modifica dichos atributos, se debe sustituir

la matriz por la de la caracterstica correspondiente lo que

detiene la lnea de produccin en 1 hora aproximada.

Finalmente, una vez finalizado el proceso de embotellado,

etiquetado y encorchado del vino del pedido, se procede con el

mismo proceso para el vino destinado a percha. Este vino

corresponde al material sobrante del vaciado de la cava del

pedido original. Es aqu donde surge el principal problema, y

es el de poder predecir que elementos del etiquetado y

encorchado asignarle a esta vino de tal forma de que el vino en

percha sea vendido rpidamente y no signifique un sobre stock

de produccin por un mal etiquetado que los clientes futuros

no prefieran.

En la actualidad, los departamentos de estas empresas se basan

en estimaciones de demanda donde muchas veces el

etiquetado y encorchado de percha corresponde a aquellas

etiquetas ms estndares de la industria. A su vez, muchas

otras optan por no etiquetar el vino en percha y solo encorchar

con corchos estndares, privilegiando la funcionalidad de

estos por sobre el diseo. En ambos casos, si ninguno de estos

vinos es seleccionado en un periodo determinado, el cual es

dependiente del tipo de vino ya que algunos de estos soportan

mayor longevidad, se debe proceder a romper la botella (ya

que una vez abierto el vino esta no es reutilizable) y utilizar

dicho vino como una base en la produccin de alguna variedad

de menor categora.

Se propone como una alternativa para mejorar los niveles de

prediccin los rboles de decisin bajo una metodologa

CART. La propuesta a utilizar buscar predecir los elementos

de etiqueta, contra etiqueta y corcho en funcin de lnea de

produccin, el ao de cosecha, variedad y grado alcohlico del

vino en produccin.

Para trabajar en esta propuesta, se trabajar con el registro de

SKU de los vinos vendidos por el grupo Beln entre la fecha

del 3 de septiembre de 2012 y 13 de septiembre del 2013.

Una vez modelado del problema, se buscar fabricar una

matriz de probabilidades de xito sobre el etiquetado y

encorchado para el departamento de produccin con el fin de

alcanzar mejores niveles de prediccin del proceso de

embotellado de vino destinado a percha.

II. LOS DATOS

A. Descripcin de los datos

Pre-procesamiento de la informacin

La primera dificultad a enfrentar al momento de realizar este

modelo fue la inconsistencia de la informacin. Muchas

variables se encontraban ya sea en formatos distintos (como el

grado alcohlico y ao de cosecha), inexistentes (como

etiquetas y contra etiquetas faltantes) y en algunos casos

incluso con errores de tabulacin. Debido a que el aprendizaje

mediante un rbol de decisin requiere justamente

consistencia en la informacin de entrada, se debi invertir

una gran cantidad de tiempo en la correccin de estos errores

y en su posterior comprobacin.

La segunda dificultad fue la cantidad de atributos a utilizar.

Existen un total de 486 etiquetas y 728 contra etiquetas

distintas, las que combinadas con el resto de los atributos

supusieron limitantes al momento de representar visualmente

los datos, como tambin limitantes de rendimiento en el

desarrollo computacional del problema. Para su solucin, se

procedi a la transformacin de todos los datos cualitativos a

datos cuantitativos a travs de un ID especifico.

B. Exploracin de los datos

Atributos a utilizar

Empresa Via de la cual proviene el producto, Ej.: Via

Morand

Lnea Tipo de producto, Ej.: House of Morand

Variedad Caracterstica del producto y su diversificacin,

Ej.: Cabernet Sauvignon

Cosecha Ao de cosecha, Ej.: 2012

Valle Lugar de origen de la produccin, Ej.: Casablanca

Vino base Cdigo del vino basal a ser usada en la

produccin

Variables a predecir

Etiqueta 486 variedades asignadas mediante un ID de 6

dgitos

Contra etiqueta 728 variedades asignadas mediante un ID

de 5 y 6 dgitos

Corcho 55 variedades asignados mediante un ID de 5

dgitos

III. DESCRIPCIN DE LAS TCNICAS UTILIZADAS

rbol de decisin

El modelamiento bajo rboles de decisin combina tcnicas de

minera de datos y estadstica para predecir atributos en

funcin de un aprendizaje supervisado, una forma de

entrenamiento que busca crear una funcin capaz de predecir

valores correspondientes a objetos de entrada despus de

haber analizado un conjunto de ejemplos (conjunto de datos

de entrenamiento).

En particular, la metodologa de rboles de decisin ejecuta su

funcionamiento mediante la creacin de ramas, nodos y hojas.

Los nodos corresponden a instancias de decisin, etapas que

se caracterizan por una aseveracin o decisin lgica que

derivan en N ramificaciones posibles. Para el desarrollo de

este problema trabajaremos con ramificaciones binarias

(si/no). Una vez culminadas las ramificaciones estas

desembocan lo que se llama una hoja, la que corresponde a la

prediccin o etiqueta que se le asignar a la instancia

evaluada.

Introduccin a su funcionamiento

El algoritmo de rboles de decisin aplicados a minera de

datos se rige por el siguiente algoritmo bsico:

1. La primera etapa corresponde a la etapa de particin y creacin del nodo raz, donde el algoritmo analiza

el conjunto total de datos y analiza cmo realizar las

ramificaciones. Para el desarrollo de este problema,

las ramificaciones se realizaran de forma binaria

utilizando un algoritmo CART. Este algoritmo se

caracteriza por tabular 2 atributos del set de datos

proporcionado en un grfico X/Y, trazando

virtualmente una lnea divisora paralela a alguno de

los 2 ejes. Una vez hecho esto, se agrupan los

atributos y se genera el nodo raz mediante una

decisin lgica (Ej. Valle < 96?). El nodo raz

corresponde simblicamente a la zona superior del

rbol de decisin y es aquel del cual nacen todas las

ramificaciones y sub. ramificaciones.

2. Posteriormente, si todas las instancias (tipos de SKU) pertenecen a la misma clase (mismo atributo) se

asigna dicho atributo a la instancia N y el algoritmo

finaliza.

3. En caso contrario, genera una nueva particin en funcin de un nuevo trazado virtual perpendicular al

trazado anterior, donde el nuevo sub. conjunto de

datos ser un subconjunto de la particin realizada en

la etapa anterior.

a. Para cada condicin establecida se aadir un nuevo nodo hijo y una nueva particin

4. El algoritmo vuelve a comenzar por la etapa 2

IV. DESARROLLO DEL TRABAJO

Objetivos

El objetivo de este modelo es poder clasificar con el mayor

grado de precisin posible el etiquetado (etiqueta y contra

etiqueta) y el corcho a utilizar, tomando como datos de

entrada la empresa, lnea, variedad, cosecha, valle, grado

alcohlico y la botella utilizada. Una vez que se comienza a

envasar el vino destinado a guarda, operaciones podr predecir

en funcin de la informacin vincola de la lnea de

produccin, el etiquetado y corcho a utilizar para dicha

produccin.

La lnea de produccin sigue una secuencia lgica donde al

sobrar vino sobre la produccin original, se busca etiquetar

manteniendo la botella de la lnea productiva. Es debido a esto

que la botella se incorpora como elemento fundamental para

realizar las predicciones.

Trabajo para el curso de Inteligencia de Negocios 2013 Profesor Gonzalo Ruz

Supuestos involucrados

El principal supuesto radica en que los datos de ventas y

beneficios obtenidos por cada instancia no son relevantes en la

clasificacin de los atributos. Puesto que el tipo de vino es

aquel que debiese incidir directamente en el valor del mismo,

al predecir un etiquetado en funcin de las distintas instancias

de SKU se hace evidente que el beneficio obtenido para una

misma lnea, variedad, y cosecha en distintas variantes de

etiquetado y corcho es mayormente el mismo.

Metodologa

Del total de datos proporcionados por el rea de

produccin, los que corresponden a 1002 instancias (el

abanico de SKU), se procedi a una divisin 4-1 donde el 80%

de los datos (seleccionados de forma aleatoria)

correspondieron al conjunto de entrenamiento.

Un conjunto de entrenamiento involucra a todo el universo

de datos que el algoritmo utilizar para el aprendizaje y su

posterior replicacin con datos entregados en el futuro. Como

en el presente problema contamos con un conjunto de

informacin acotado temporalmente, y no se genera nueva

informacin para validar el problema y revisar su

funcionamiento, el 20% restante correspondi al conjunto de

entrenamiento.

Este sub. conjunto representar y se comportar como si

fuese nueva informacin entrante, por lo que ser utilizado

para validar si nuestro modelo se encuentra clasificando

correctamente los atributos de etiquetado y corcho.

Esta metodologa se utilizar para la clasificacin

independiente de las variables de Etiqueta, Contra etiqueta y

corcho. Esto conlleva a crear un conjunto de entrenamiento y

prueba aleatorio diferente para cada una de estas 3 variables, y

aplicar el algoritmo CART a cada uno de estos especificando

la variable a predecir.

V. RESULTADOS

Los algoritmos de rboles de decisin aplicados a la

minera de datos se basan en modelos probabilsticos, donde

para cada ejecucin del mismo se obtiene potencialmente una

ramificacin diferente (recordar que el comienzo del

algoritmo se basa en una segregacin aleatoria de los datos).

Para sobrepasar esta situacin, se trabaj bajo una semilla, la

que corresponde a una instruccin a la secuencia del

generador de nmeros aleatorios del software utilizado (R+)

para obtener siempre los mismos resultados y que estos no

varen en cada ejecucin.

Dentro de las caractersticas de la librera RPART, existe la

configuracin para establecer la probabilidad de acierto de una

determinada etiqueta en un nodo hoja del rbol. Esta

informacin nos servir como medida de desempeo de la

precisin del algoritmo utilizado.

Etiqueta

En el grfico 1 se muestra el rbol de decisin almacenado

en nuestra semilla.

Ejecutando un anlisis de influencia de los atributos sobre

la variable etiqueta a predecir mediante la librera RPART se

obtuvo los siguientes resultados:

Botella Cosecha Variedad Lnea Grado Alcohol Valle Empresa

26% 22% 21% 10% 9% 8% 3%

Grfico 1

La empresa botella, cosecha y variedad son los atributos

ms relevantes al momento de predecir la etiqueta frontal de

una botella especifica de vino a ser derivada a guarda.

Se observa para esta muestra (semilla) que a medida que se

desciende en el rbol en direccin a las hojas basales, la

probabilidad predictiva es en muchos casos muy pequea.

Esta probabilidad es fue calculada mediante la probabilidad de

xito de nuestra semilla sobre el conjunto de prueba,

analizando la cantidad de xitos sobre la etiqueta escogida

sobre el subconjunto formado por la ramificacin.

Explicando como ejemplo, para un vino proveniente del

grupo de valles con ID inferior a 96, botella inferior a ID 4146

y cosecha inferior al ao 2010, la probabilidad de xito de la

etiqueta ID 734105 fue de 53%.

Concentracin probabilidades de xito por etiqueta

Realizando un grfico de anlisis de concentracin de datos

de probabilidades de acierto se observa que nuestra semilla

concentra su precisin en valores entre 0.01% y 0.2% lo que

da cuenta del alto error de prediccin del modelo frente a la

variable etiqueta.

Grfico 2: concentracin probabilidades vs ID Etiqueta

Corcho

Para la semilla utilizada en el anlisis de corcho, se puede

observar en el grfico 3 que las probabilidades de precisin

son muy altas.

Grfico 3

De un total de 100 semillas utilizadas para comprobar este

comportamiento, se observ que para 91 casos se reiter el

nivel de precisin, y en los casos siguientes en pocas hojas se

observ una precisin inferior al 40%.

Ejecutando un anlisis de influencia de los atributos sobre

la variable corcho, se obtuvieron los siguientes resultados:

Botella Cosecha Variedad Lnea Grado Alcohol EtiquetaValle Empresa

25% 6% 12% 25% 10% 8% 14%

Es importante observar como la prediccin de corcho es

influenciada de mayor manera ahora por la lnea y la empresa.

Este resultado se encuentra entrelazado y da cuenta de cmo

se comportan los corchos en la realidad, donde la lnea juega

un rol fundamental al momento de decisin por la

permeabilidad de corcho, como tambin el hecho de que hay

empresas que no seleccionan ciertos corchos a sus productos.

Concentracin probabilidades de xito por corcho

Revisando la concentracin de probabilidades, se puede

observar, en el grfico 6, como la precisin de la variable

corcho es muy alta, concentrado mayormente sus datos sobre

el 60%. Es importante hacer mencin que el rbol de decisin

mostrado en cualquiera de las semillas, solo informa una

prediccin para las ramificaciones que concentren la mayor

cantidad de instancias para una misma clase (paso 2 del

algoritmo), por lo que existen instancias no seleccionadas (en

una probabilidad muy baja) las que se ven representadas en el

grfico de probabilidad con valores pequeos de precisin

(entre 0.01% y 40%).

Grfico 4: concentracin probabilidades vs ID Corcho

Contra etiqueta

Para el caso de la variable contra etiqueta, el algoritmo

CART no pudo entregar un rbol de decisin debido a la gran

cantidad de variables para su prediccin (728 variedades).

Esto se debe a que la relacin entre instancias y cantidad de

elementos de la variable es muy pequea.

Sensibilidad del modelo

Se observa que en la relacin porcentual de aquellas

variables ms influyentes en la prediccin tambin recae el

nivel de sensibilidad del modelo. Una variacin en aquellos

atributos con un nivel porcentual elevado significar

automticamente un fuerte impacto sobre la variable a

analizar.

A modo de ejemplo, una decisin de reduccin sobre la

cantidad de botellas disminuir en mayor medida SKU no solo

por la misma reduccin, sino que implicar una sobre

reduccin de SKU por la variedad de corchos.

Se deja analizadas las relaciones donde el criterio final

deber ser ejecutado por la gerencia de operaciones.

Aplicacin del modelo

La aplicacin del modelo se realizar mediante una matriz

de probabilidades, la cual al asignar como datos de entrada los

atributos del problema, entregar como resultado al cliente las

variables a predecir con mayor probabilidad de xito

(basndose en el entrenamiento y validacin segn el conjunto

de entrenamiento)

Este procedimiento se desarrolla ejecutando internamente

una cantidad de iteraciones suficientemente alta del algoritmo

CART, de tal forma que la variacin por las ejecuciones y

ramificaciones debidas a factores aleatorios del algoritmo sea

reducida al mximo, obteniendo resultados consistentes y

evaluando todos los escenarios posibles de ramificacin.

Medidas de desempeo

Nivel de precisin en la prediccin de variables Cantidad de SKU disminuida en funcin del

beneficio

Para medir la efectividad de nuestro modelo, se revis

ambas medidas las que nos permitieron discriminar

alternativas.

Reduccin de SKU

Para poder eliminar los tipos de corcho, etiqueta y contra

etiqueta menos frecuentes de las ventas histricas entre

septiembre del 2012 a septiembre del 2013 (datos atpicos), se

utilizaron reglas de asociacin.

Las reglas de asociacin es un tipo de minera de datos que

funciona con variables categricas, en el cual se busca en la

matriz de datos relaciones entre los atributos en la que un

antecedente implique un consecuente, es decir, se espera llegar

a un resultado de tipo si tal atributo es A, entonces este otro atributo ser B (en una misma instancia).

Existen dos parmetros de reglas de asociacin que fueron

de gran importancia en este trabajo: soporte y confianza.

Soporte es la cantidad de veces que existe la regla (se cumple

antecedente y consecuente), dividido en la cantidad total de

instancias. Confianza es la cantidad de veces que se observa la

regla (antecedente y consecuente), dividido en la cantidad de

veces que se observa el antecedente sin importar el

consecuente.

A pesar de que este tipo de minera de datos busca entregar

relaciones frecuentes en los datos, se pudo invertir el objetivo

especificando un nivel de soporte 0.001 y un nivel confianza

0.001, de manera de encontrar los datos menos repetidos. Para

dar un enfoque exclusivo a los atributos mencionados, se cre

una nueva matriz en la que estos son las nicas tres columnas.

Para poder tener un ranking de datos atpicos, se ordenaron

los datos comenzando por el soporte ms bajo, y terminando

con el ms alto. Con estos parmetros se obtuvieron 1454

reglas de asociacin y se obtuvieron 146 atributos atpicos,

entre ellos corcho, etiqueta y contra etiqueta, que se repiten

solo dos veces en las 1002 instancias evaluadas.

VI. DISCUSIN

Se ha podido observar a lo largo de esta investigacin que las

predicciones mediante rboles de decisin han entregado

resultados aceptables. En la prediccin de encorchado se ha

observado una concentracin de probabilidades de xito del

orden del 60%, lo que significa un nivel de xito en las

predicciones muy superior a la estimaciones bajo anlisis de

demanda.

En la actualidad, las estimaciones de demanda conllevan a una

destruccin de vinos en percha del orden del 20%, pero

cuentan con la retraccin de que se concentran solo en

aquellos atributos ms estndares y no buscan inspeccionar

sobre mejores alternativas.

Los anlisis del etiquetado han entregado resultados

insatisfactorios. Para la etiqueta, las probabilidades de xito

concentran sus valores en no ms de un 20%. En el contra

etiquetado no fue posible generar un nodo raz al momento de

realizar el algoritmo CART. Ambos casos se atribuyen a un

nivel de cantidad de etiquetas y contra etiquetas muy cercana

al nivel de instancias. Esta variabilidad en la cantidad de

atributos condiciona a que el nivel de aprendizaje generado es

muy bajo o inexistente.

VII. CONCLUSIN

Si bien para este anlisis los resultados no han

entregado una matriz de prediccin para el cliente que sea efectiva a su utilizacin actual, ha entregado los cimientos para alimentar este algoritmo con datos de una longevidad ms amplia, lo que aumentar su rendimiento considerablemente y superando ampliamente los mtodos de prediccin actual bajo anlisis de demanda.

A su vez, dicho anlisis ha podido obtener anlisis de sensibilidad en las predicciones que no hubiesen sido posibles mediante la metodologa tradicional actual.

Finalmente aplicando reglas de asociacin hemos podido encontrar aquellos atributos que permitirn, en conjunto con una orientacin de las sensibilidades anteriores, orientar a los tomadores de decisin en su reduccin o eliminacin para una futura reduccin de SKU y mejor manipulacin y optimizacin de la cadena productiva.

REFERENCIAS

[1] Grupo Belen. (s.f.). Recuperado el 11 de Septiembre de 2013, de http://morande.cl/esp/distribucion.html

[2] Grupo Belen S.A. (s.f.). Recuperado el 11 de Septiembre de 2013, de http://www.morande.cl/esp/reporte_GB.pdf

[3] Introduction to Data Mining, de Pang-Ning Tan, Michigan State University,

[4] Michael Steinbach, University of Minnesota

Vipin Kumar, University of Minnesota

intnegpf_final.pdf

Documents