intnegpf_final.pdf

Upload: pablo-torres

Post on 10-Oct-2015

11 views

Category:

Documents


0 download

TRANSCRIPT

  • Prediccin etiquetado y encorchado vino percha Felipe Blum, Toms Rojas, Felipe Torres, Pablo Torres

    Facultad de Ingeniera y Ciencias, Univerisdad Adolfo Ibez

    Para las empresas vincolas es muy importante, desarrollar un

    sistema que permita entregar resultados sobre que es lo ms

    conveniente producir. En este documento se estudiaron arboles de

    decisin para la prediccin las caractersticas del producto que ms

    se vender. La tcnica de arboles de decisin para la prediccin a

    sido utilizada en muchos estudios, pero no en un caso como el

    presentado en este documento. Para desarrollar este experimento se

    ocupo una base de datos que representa las ventas del Grupo Beln,

    empresa dedicada a la produccin de vino. Este experimento

    entrego resultados alentadores, pero podran ser aun mejores si se

    tuviera un set de datos ms grande y que incluyera datos ms

    antiguos.

    I. INTRODUCCIN

    El auge creciente de la industria vincola chilena durante la

    ltima dcada, ha impulsado a generar cada vez ms nuevas

    ventajas comparativas para hacer frente a un agresivo mercado

    internacional que da a da se vuelve ms exigente. Son

    muchas las empresas de esta industria que optan por ofrecer

    una gran flexibilidad en el tipo de etiquetado, contra

    etiquetado y corcho a ser seleccionado por los clientes y/o

    distribuidores mayoristas para su utilizacin sobre sus

    productos.

    Si bien esta estrategia ha ayudado a aumentar la cantidad de

    contratos y ventas, muchas veces se ha transformado en una

    problemtica para los departamento de produccin de dichas

    empresas.

    Cuando un pedido es ingresado, este es derivado al rea de

    operaciones el cual en funcin de la cantidad, el ao de

    cosecha, tipo y variedad del vino escogido por el cliente

    selecciona la cava a ser vaciada. Las cavas deben ser vaciadas

    completamente ya que de lo contrario el aire residual que

    ingresara al interior de la misma lograra que el vino se pique,

    fermentando en un corto periodo.

    Siguiendo la lnea de operaciones, el vino es embotellado,

    etiquetado, contra etiquetado y encorchado por sistemas

    hidrulicos con matrices nicas para cada tamao y en muchos

    casos diseos de estos elementos. Una vez que un tipo de vino

    a embotellar se le modifica dichos atributos, se debe sustituir

    la matriz por la de la caracterstica correspondiente lo que

    detiene la lnea de produccin en 1 hora aproximada.

    Finalmente, una vez finalizado el proceso de embotellado,

    etiquetado y encorchado del vino del pedido, se procede con el

    mismo proceso para el vino destinado a percha. Este vino

    corresponde al material sobrante del vaciado de la cava del

    pedido original. Es aqu donde surge el principal problema, y

    es el de poder predecir que elementos del etiquetado y

    encorchado asignarle a esta vino de tal forma de que el vino en

    percha sea vendido rpidamente y no signifique un sobre stock

    de produccin por un mal etiquetado que los clientes futuros

    no prefieran.

    En la actualidad, los departamentos de estas empresas se basan

    en estimaciones de demanda donde muchas veces el

    etiquetado y encorchado de percha corresponde a aquellas

    etiquetas ms estndares de la industria. A su vez, muchas

    otras optan por no etiquetar el vino en percha y solo encorchar

    con corchos estndares, privilegiando la funcionalidad de

    estos por sobre el diseo. En ambos casos, si ninguno de estos

    vinos es seleccionado en un periodo determinado, el cual es

    dependiente del tipo de vino ya que algunos de estos soportan

    mayor longevidad, se debe proceder a romper la botella (ya

    que una vez abierto el vino esta no es reutilizable) y utilizar

    dicho vino como una base en la produccin de alguna variedad

    de menor categora.

    Se propone como una alternativa para mejorar los niveles de

    prediccin los rboles de decisin bajo una metodologa

    CART. La propuesta a utilizar buscar predecir los elementos

    de etiqueta, contra etiqueta y corcho en funcin de lnea de

    produccin, el ao de cosecha, variedad y grado alcohlico del

    vino en produccin.

    Para trabajar en esta propuesta, se trabajar con el registro de

    SKU de los vinos vendidos por el grupo Beln entre la fecha

    del 3 de septiembre de 2012 y 13 de septiembre del 2013.

    Una vez modelado del problema, se buscar fabricar una

    matriz de probabilidades de xito sobre el etiquetado y

    encorchado para el departamento de produccin con el fin de

    alcanzar mejores niveles de prediccin del proceso de

    embotellado de vino destinado a percha.

    II. LOS DATOS

    A. Descripcin de los datos

    Pre-procesamiento de la informacin

    La primera dificultad a enfrentar al momento de realizar este

    modelo fue la inconsistencia de la informacin. Muchas

  • variables se encontraban ya sea en formatos distintos (como el

    grado alcohlico y ao de cosecha), inexistentes (como

    etiquetas y contra etiquetas faltantes) y en algunos casos

    incluso con errores de tabulacin. Debido a que el aprendizaje

    mediante un rbol de decisin requiere justamente

    consistencia en la informacin de entrada, se debi invertir

    una gran cantidad de tiempo en la correccin de estos errores

    y en su posterior comprobacin.

    La segunda dificultad fue la cantidad de atributos a utilizar.

    Existen un total de 486 etiquetas y 728 contra etiquetas

    distintas, las que combinadas con el resto de los atributos

    supusieron limitantes al momento de representar visualmente

    los datos, como tambin limitantes de rendimiento en el

    desarrollo computacional del problema. Para su solucin, se

    procedi a la transformacin de todos los datos cualitativos a

    datos cuantitativos a travs de un ID especifico.

    B. Exploracin de los datos

    Atributos a utilizar

    Empresa Via de la cual proviene el producto, Ej.: Via

    Morand

    Lnea Tipo de producto, Ej.: House of Morand

    Variedad Caracterstica del producto y su diversificacin,

    Ej.: Cabernet Sauvignon

    Cosecha Ao de cosecha, Ej.: 2012

    Valle Lugar de origen de la produccin, Ej.: Casablanca

    Vino base Cdigo del vino basal a ser usada en la

    produccin

    Variables a predecir

    Etiqueta 486 variedades asignadas mediante un ID de 6

    dgitos

    Contra etiqueta 728 variedades asignadas mediante un ID

    de 5 y 6 dgitos

    Corcho 55 variedades asignados mediante un ID de 5

    dgitos

    III. DESCRIPCIN DE LAS TCNICAS UTILIZADAS

    rbol de decisin

    El modelamiento bajo rboles de decisin combina tcnicas de

    minera de datos y estadstica para predecir atributos en

    funcin de un aprendizaje supervisado, una forma de

    entrenamiento que busca crear una funcin capaz de predecir

    valores correspondientes a objetos de entrada despus de

    haber analizado un conjunto de ejemplos (conjunto de datos

    de entrenamiento).

    En particular, la metodologa de rboles de decisin ejecuta su

    funcionamiento mediante la creacin de ramas, nodos y hojas.

    Los nodos corresponden a instancias de decisin, etapas que

    se caracterizan por una aseveracin o decisin lgica que

    derivan en N ramificaciones posibles. Para el desarrollo de

    este problema trabajaremos con ramificaciones binarias

    (si/no). Una vez culminadas las ramificaciones estas

    desembocan lo que se llama una hoja, la que corresponde a la

    prediccin o etiqueta que se le asignar a la instancia

    evaluada.

    Introduccin a su funcionamiento

    El algoritmo de rboles de decisin aplicados a minera de

    datos se rige por el siguiente algoritmo bsico:

    1. La primera etapa corresponde a la etapa de particin y creacin del nodo raz, donde el algoritmo analiza

    el conjunto total de datos y analiza cmo realizar las

    ramificaciones. Para el desarrollo de este problema,

    las ramificaciones se realizaran de forma binaria

    utilizando un algoritmo CART. Este algoritmo se

    caracteriza por tabular 2 atributos del set de datos

    proporcionado en un grfico X/Y, trazando

    virtualmente una lnea divisora paralela a alguno de

    los 2 ejes. Una vez hecho esto, se agrupan los

    atributos y se genera el nodo raz mediante una

    decisin lgica (Ej. Valle < 96?). El nodo raz

    corresponde simblicamente a la zona superior del

    rbol de decisin y es aquel del cual nacen todas las

    ramificaciones y sub. ramificaciones.

    2. Posteriormente, si todas las instancias (tipos de SKU) pertenecen a la misma clase (mismo atributo) se

    asigna dicho atributo a la instancia N y el algoritmo

    finaliza.

    3. En caso contrario, genera una nueva particin en funcin de un nuevo trazado virtual perpendicular al

    trazado anterior, donde el nuevo sub. conjunto de

    datos ser un subconjunto de la particin realizada en

    la etapa anterior.

    a. Para cada condicin establecida se aadir un nuevo nodo hijo y una nueva particin

    4. El algoritmo vuelve a comenzar por la etapa 2

    IV. DESARROLLO DEL TRABAJO

    Objetivos

    El objetivo de este modelo es poder clasificar con el mayor

    grado de precisin posible el etiquetado (etiqueta y contra

    etiqueta) y el corcho a utilizar, tomando como datos de

    entrada la empresa, lnea, variedad, cosecha, valle, grado

    alcohlico y la botella utilizada. Una vez que se comienza a

    envasar el vino destinado a guarda, operaciones podr predecir

    en funcin de la informacin vincola de la lnea de

    produccin, el etiquetado y corcho a utilizar para dicha

    produccin.

    La lnea de produccin sigue una secuencia lgica donde al

    sobrar vino sobre la produccin original, se busca etiquetar

    manteniendo la botella de la lnea productiva. Es debido a esto

    que la botella se incorpora como elemento fundamental para

    realizar las predicciones.

    Trabajo para el curso de Inteligencia de Negocios 2013 Profesor Gonzalo Ruz

  • Supuestos involucrados

    El principal supuesto radica en que los datos de ventas y

    beneficios obtenidos por cada instancia no son relevantes en la

    clasificacin de los atributos. Puesto que el tipo de vino es

    aquel que debiese incidir directamente en el valor del mismo,

    al predecir un etiquetado en funcin de las distintas instancias

    de SKU se hace evidente que el beneficio obtenido para una

    misma lnea, variedad, y cosecha en distintas variantes de

    etiquetado y corcho es mayormente el mismo.

    Metodologa

    Del total de datos proporcionados por el rea de

    produccin, los que corresponden a 1002 instancias (el

    abanico de SKU), se procedi a una divisin 4-1 donde el 80%

    de los datos (seleccionados de forma aleatoria)

    correspondieron al conjunto de entrenamiento.

    Un conjunto de entrenamiento involucra a todo el universo

    de datos que el algoritmo utilizar para el aprendizaje y su

    posterior replicacin con datos entregados en el futuro. Como

    en el presente problema contamos con un conjunto de

    informacin acotado temporalmente, y no se genera nueva

    informacin para validar el problema y revisar su

    funcionamiento, el 20% restante correspondi al conjunto de

    entrenamiento.

    Este sub. conjunto representar y se comportar como si

    fuese nueva informacin entrante, por lo que ser utilizado

    para validar si nuestro modelo se encuentra clasificando

    correctamente los atributos de etiquetado y corcho.

    Esta metodologa se utilizar para la clasificacin

    independiente de las variables de Etiqueta, Contra etiqueta y

    corcho. Esto conlleva a crear un conjunto de entrenamiento y

    prueba aleatorio diferente para cada una de estas 3 variables, y

    aplicar el algoritmo CART a cada uno de estos especificando

    la variable a predecir.

    V. RESULTADOS

    Los algoritmos de rboles de decisin aplicados a la

    minera de datos se basan en modelos probabilsticos, donde

    para cada ejecucin del mismo se obtiene potencialmente una

    ramificacin diferente (recordar que el comienzo del

    algoritmo se basa en una segregacin aleatoria de los datos).

    Para sobrepasar esta situacin, se trabaj bajo una semilla, la

    que corresponde a una instruccin a la secuencia del

    generador de nmeros aleatorios del software utilizado (R+)

    para obtener siempre los mismos resultados y que estos no

    varen en cada ejecucin.

    Dentro de las caractersticas de la librera RPART, existe la

    configuracin para establecer la probabilidad de acierto de una

    determinada etiqueta en un nodo hoja del rbol. Esta

    informacin nos servir como medida de desempeo de la

    precisin del algoritmo utilizado.

    Etiqueta

    En el grfico 1 se muestra el rbol de decisin almacenado

    en nuestra semilla.

    Ejecutando un anlisis de influencia de los atributos sobre

    la variable etiqueta a predecir mediante la librera RPART se

    obtuvo los siguientes resultados:

    Botella Cosecha Variedad Lnea Grado Alcohol Valle Empresa

    26% 22% 21% 10% 9% 8% 3%

    Grfico 1

    La empresa botella, cosecha y variedad son los atributos

    ms relevantes al momento de predecir la etiqueta frontal de

    una botella especifica de vino a ser derivada a guarda.

    Se observa para esta muestra (semilla) que a medida que se

    desciende en el rbol en direccin a las hojas basales, la

    probabilidad predictiva es en muchos casos muy pequea.

    Esta probabilidad es fue calculada mediante la probabilidad de

    xito de nuestra semilla sobre el conjunto de prueba,

    analizando la cantidad de xitos sobre la etiqueta escogida

    sobre el subconjunto formado por la ramificacin.

    Explicando como ejemplo, para un vino proveniente del

    grupo de valles con ID inferior a 96, botella inferior a ID 4146

    y cosecha inferior al ao 2010, la probabilidad de xito de la

    etiqueta ID 734105 fue de 53%.

    Concentracin probabilidades de xito por etiqueta

    Realizando un grfico de anlisis de concentracin de datos

    de probabilidades de acierto se observa que nuestra semilla

  • concentra su precisin en valores entre 0.01% y 0.2% lo que

    da cuenta del alto error de prediccin del modelo frente a la

    variable etiqueta.

    Grfico 2: concentracin probabilidades vs ID Etiqueta

    Corcho

    Para la semilla utilizada en el anlisis de corcho, se puede

    observar en el grfico 3 que las probabilidades de precisin

    son muy altas.

    Grfico 3

    De un total de 100 semillas utilizadas para comprobar este

    comportamiento, se observ que para 91 casos se reiter el

    nivel de precisin, y en los casos siguientes en pocas hojas se

    observ una precisin inferior al 40%.

    Ejecutando un anlisis de influencia de los atributos sobre

    la variable corcho, se obtuvieron los siguientes resultados:

    Botella Cosecha Variedad Lnea Grado Alcohol EtiquetaValle Empresa

    25% 6% 12% 25% 10% 8% 14%

    Es importante observar como la prediccin de corcho es

    influenciada de mayor manera ahora por la lnea y la empresa.

    Este resultado se encuentra entrelazado y da cuenta de cmo

    se comportan los corchos en la realidad, donde la lnea juega

    un rol fundamental al momento de decisin por la

    permeabilidad de corcho, como tambin el hecho de que hay

    empresas que no seleccionan ciertos corchos a sus productos.

    Concentracin probabilidades de xito por corcho

    Revisando la concentracin de probabilidades, se puede

    observar, en el grfico 6, como la precisin de la variable

    corcho es muy alta, concentrado mayormente sus datos sobre

    el 60%. Es importante hacer mencin que el rbol de decisin

    mostrado en cualquiera de las semillas, solo informa una

    prediccin para las ramificaciones que concentren la mayor

    cantidad de instancias para una misma clase (paso 2 del

    algoritmo), por lo que existen instancias no seleccionadas (en

    una probabilidad muy baja) las que se ven representadas en el

    grfico de probabilidad con valores pequeos de precisin

    (entre 0.01% y 40%).

    Grfico 4: concentracin probabilidades vs ID Corcho

    Contra etiqueta

    Para el caso de la variable contra etiqueta, el algoritmo

    CART no pudo entregar un rbol de decisin debido a la gran

    cantidad de variables para su prediccin (728 variedades).

    Esto se debe a que la relacin entre instancias y cantidad de

    elementos de la variable es muy pequea.

  • Sensibilidad del modelo

    Se observa que en la relacin porcentual de aquellas

    variables ms influyentes en la prediccin tambin recae el

    nivel de sensibilidad del modelo. Una variacin en aquellos

    atributos con un nivel porcentual elevado significar

    automticamente un fuerte impacto sobre la variable a

    analizar.

    A modo de ejemplo, una decisin de reduccin sobre la

    cantidad de botellas disminuir en mayor medida SKU no solo

    por la misma reduccin, sino que implicar una sobre

    reduccin de SKU por la variedad de corchos.

    Se deja analizadas las relaciones donde el criterio final

    deber ser ejecutado por la gerencia de operaciones.

    Aplicacin del modelo

    La aplicacin del modelo se realizar mediante una matriz

    de probabilidades, la cual al asignar como datos de entrada los

    atributos del problema, entregar como resultado al cliente las

    variables a predecir con mayor probabilidad de xito

    (basndose en el entrenamiento y validacin segn el conjunto

    de entrenamiento)

    Este procedimiento se desarrolla ejecutando internamente

    una cantidad de iteraciones suficientemente alta del algoritmo

    CART, de tal forma que la variacin por las ejecuciones y

    ramificaciones debidas a factores aleatorios del algoritmo sea

    reducida al mximo, obteniendo resultados consistentes y

    evaluando todos los escenarios posibles de ramificacin.

    Medidas de desempeo

    Nivel de precisin en la prediccin de variables Cantidad de SKU disminuida en funcin del

    beneficio

    Para medir la efectividad de nuestro modelo, se revis

    ambas medidas las que nos permitieron discriminar

    alternativas.

    Reduccin de SKU

    Para poder eliminar los tipos de corcho, etiqueta y contra

    etiqueta menos frecuentes de las ventas histricas entre

    septiembre del 2012 a septiembre del 2013 (datos atpicos), se

    utilizaron reglas de asociacin.

    Las reglas de asociacin es un tipo de minera de datos que

    funciona con variables categricas, en el cual se busca en la

    matriz de datos relaciones entre los atributos en la que un

    antecedente implique un consecuente, es decir, se espera llegar

    a un resultado de tipo si tal atributo es A, entonces este otro atributo ser B (en una misma instancia).

    Existen dos parmetros de reglas de asociacin que fueron

    de gran importancia en este trabajo: soporte y confianza.

    Soporte es la cantidad de veces que existe la regla (se cumple

    antecedente y consecuente), dividido en la cantidad total de

    instancias. Confianza es la cantidad de veces que se observa la

    regla (antecedente y consecuente), dividido en la cantidad de

    veces que se observa el antecedente sin importar el

    consecuente.

    A pesar de que este tipo de minera de datos busca entregar

    relaciones frecuentes en los datos, se pudo invertir el objetivo

    especificando un nivel de soporte 0.001 y un nivel confianza

    0.001, de manera de encontrar los datos menos repetidos. Para

    dar un enfoque exclusivo a los atributos mencionados, se cre

    una nueva matriz en la que estos son las nicas tres columnas.

    Para poder tener un ranking de datos atpicos, se ordenaron

    los datos comenzando por el soporte ms bajo, y terminando

    con el ms alto. Con estos parmetros se obtuvieron 1454

    reglas de asociacin y se obtuvieron 146 atributos atpicos,

    entre ellos corcho, etiqueta y contra etiqueta, que se repiten

    solo dos veces en las 1002 instancias evaluadas.

    VI. DISCUSIN

    Se ha podido observar a lo largo de esta investigacin que las

    predicciones mediante rboles de decisin han entregado

    resultados aceptables. En la prediccin de encorchado se ha

    observado una concentracin de probabilidades de xito del

    orden del 60%, lo que significa un nivel de xito en las

    predicciones muy superior a la estimaciones bajo anlisis de

    demanda.

    En la actualidad, las estimaciones de demanda conllevan a una

    destruccin de vinos en percha del orden del 20%, pero

    cuentan con la retraccin de que se concentran solo en

    aquellos atributos ms estndares y no buscan inspeccionar

    sobre mejores alternativas.

    Los anlisis del etiquetado han entregado resultados

    insatisfactorios. Para la etiqueta, las probabilidades de xito

    concentran sus valores en no ms de un 20%. En el contra

    etiquetado no fue posible generar un nodo raz al momento de

    realizar el algoritmo CART. Ambos casos se atribuyen a un

    nivel de cantidad de etiquetas y contra etiquetas muy cercana

    al nivel de instancias. Esta variabilidad en la cantidad de

    atributos condiciona a que el nivel de aprendizaje generado es

    muy bajo o inexistente.

    VII. CONCLUSIN

    Si bien para este anlisis los resultados no han

    entregado una matriz de prediccin para el cliente que sea efectiva a su utilizacin actual, ha entregado los cimientos para alimentar este algoritmo con datos de una longevidad ms amplia, lo que aumentar su rendimiento considerablemente y superando ampliamente los mtodos de prediccin actual bajo anlisis de demanda.

    A su vez, dicho anlisis ha podido obtener anlisis de sensibilidad en las predicciones que no hubiesen sido posibles mediante la metodologa tradicional actual.

    Finalmente aplicando reglas de asociacin hemos podido encontrar aquellos atributos que permitirn, en conjunto con una orientacin de las sensibilidades anteriores, orientar a los tomadores de decisin en su reduccin o eliminacin para una futura reduccin de SKU y mejor manipulacin y optimizacin de la cadena productiva.

  • REFERENCIAS

    [1] Grupo Belen. (s.f.). Recuperado el 11 de Septiembre de 2013, de http://morande.cl/esp/distribucion.html

    [2] Grupo Belen S.A. (s.f.). Recuperado el 11 de Septiembre de 2013, de http://www.morande.cl/esp/reporte_GB.pdf

    [3] Introduction to Data Mining, de Pang-Ning Tan, Michigan State University,

    [4] Michael Steinbach, University of Minnesota

    Vipin Kumar, University of Minnesota