trabajo mineria de datos

Post on 12-Dec-2015

225 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Trabajo Formato paper sobre la mineria de datos en las empresas . Relacion con el curso de base de datos

TRANSCRIPT

MINERIA DE DATOS APLICADO A LA VENTAS DE DIFERENTES PRODUCTOS EN DISTINTAS BOLETAS DEL CENTRO COMERCIAL

KINKANA

Ruiz Alba, Piere Andre

Rodríguez Paredes, Zack Frank

UNIVERSIDAD NACIONAL DE TRUJILLO

1. Definición del Problema.

1.1 Descripción de la Aplicación (BD).

La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial. La base de datos en la que nos basaremos será la BD de un Centro Comercial la cual contienes las siguientes tablas: Vendedor, Usuarios, Categoría, Proveedor, Productos, Farmacia, Ventas, Promociones, Tiempo.

Imagen Base de datos en texto plano.

1.2 Objetivos

Determinar qué productos son más rentables para los clientes.

Identificar los patrones más significativos y relevantes en ventas.

Determinar que cliente compra con más frecuencia para así darle promociones.

1.3 Identificar tipo de Minería. (Justificar).

Utilizaremos Regresión (función que convierte datos en valores de una función de predicción porque es más rápida y eficaz).

1.4 Restricciones.

En esta investigación será analizada solo la base de datos del área de ventas del Centro Comercial la Kinkana.

Se descubrió que existían cuatro variables que determinaban la adecuada realización de una venta, que son citadas de acuerdo con su importancia: Cliente, Venta, Tiempo, Detalle Venta. La empresa tendrá que hacer un estudio socioeconómico sobre los clientes, que pertenezcan a clases económicas bajas para dar posibles soluciones.

2. Preparación de Datos.

2.1. Integración de datos.

Para este caso la variable a predecir son las ventas con mayor frecuencia anuales y

presenta como variables de entrada (input) a la condición el total del consumo, fecha,

cliente, la edad, la línea de crédito.

2.2. Selección de tablas. (Significado y Justificación)

Cliente: contiene los datos del cliente, esta tabla contiene la información del cliente para poder enviarle promociones.

Venta: esta tabla contiene información del monto de la venta la cual ayudara a saber las cantidades más grandes de acuerdo a la fecha que requiramos.

Tiempo: contiene fechas desde el 2010 hasta el 2014 la cual nos ayudara a realizar un proceso de selección por día, semana, mes, bimestre, trimestre año,

Detalle venta: esta tabla contiene lo relacionado a la venta la cual nos ayudara a saber que productos son los más comprados.

2.3. Selección de atributos. (Significado y Justificación)

Cliente: Nombre este atributo ayuda identificar al cliente.

Venta:Número el cual representa el número de la factura

Tiempo:Año, trimestre, semestre, mes, semana, día.

Detalle_venta:Código el cual representa el código del producto.Nombre el cual representa el nombre del producto.

2.4. Transformación de variables. (Qué tipo de transformación)

Nominal a numérica

3. Exploración de Datos.

FIGURA BD EN EXCEL

3.1. Hacer la transformación.

En este caso usaremos el número de factura y código de producto

Código de producto tiene un valor binario (0 o 1) el cual se representa si se compró dicho producto en dicha factura, siendo 1 comprado y 0 no comprado.

Una vista del resultado de la matriz es la siguiente:

Figura Realizando la Transformación

3.2. Evaluación de la cantidad de datos. (Por cada variable - comentario)Para hacer una evaluación de datos accederemos al Mysql en el cual haremos una serie de consultas:

Select * fron porFactura order by articuloFacura desc, numeroFactura asc;Consulta para conocer cuántos artículos se compraron en cada factura.

Select articulosFactura, count(*) from itemsPorFactura group by articulosFactura;Consulta para conocer cuántas veces se compró la misma cantidad de productos.

Select count(distinct numero) from Factura;Total de facturas en la base de datos.

Select count(distinct codigo) from FacturaTotal de artículos en la base de datos.

Select codigo as codigo, count(codigo) as cantidad from Factura group by codigo order by cantidad desc;Cuantas veces se compró determinado artículo en total.

3.3. Evaluación de la calidad de datos. (Por cada variable - comentario) Mínimos.

Total de artículos: 1.481Total de facturas: 23.890Número de artículos comprados en determinada factura: 1

Compra determinado artículo en específico: 198Veces se compró la misma cantidad de productos: 27

Máximos.Total de artículos: 5.768Total de facturas: 76.571Número de artículos comprados en determinada factura: 30Compra determinado artículo en específico: 1.265Veces se compró la misma cantidad de productos: 181

Consistencia.Número de productos comprados en una determinada factura: 0

Coherencia.

Se tienen incoherencias en cuanto al nombre del producto, nombre de la clasificación 1, código de la clasificación 1, nombre de la clasificación 2 y código de la clasificación 2; de donde en total se eliminaron los siguientes artículos.

Códigos sin nombre (\N o …. = 17):

Tabla. Códigos de producto eliminados por incoherencias.

codigo nombre nclasifica1 clasifica1 nclasifica2 c993 ....... QUALA 280 CREMAS DENTALES 1805430 \N \N \N \N \N4911 \N \N \N \N \N7540 \N \N \N \N \N3074 \N \N \N \N \N5271 \N \N \N \N \N3292 \N \N \N \N \N2814 \N \N \N \N \N4026 \N \N \N \N \N9146 \N \N \N \N \N9429 \N \N \N \N \N2950 \N \N \N \N \N4244 \N \N \N \N \N8094 \N \N \N \N \N4698 \N \N \N \N \N521 \N \N \N \N \N7239 \N \N \N \N \N

3.4. Limpieza de datos. (Por qué criterios)

Limpieza de datos por Valore Perdidos ya que no todos los registros no contienen todos los valores para las variables por lo tanto habrá que inferirlos o ignorarlos.

Y también se hace una limpieza de datos (Ruido) la cual elimina las inconsistencias que tenemos en nuestros registros.

1.5 Generación de Modelos.

Selección del modelo:

De acuerdo a los puntos anteriores, el modelo seleccionado fue el siguiente:

•Las columnas seleccionadas para el análisis de la base de datos las cuales fueron: Número de Factura y Código de Producto.

•Se seleccionaron los algoritmos FP-Growth y AssociationRules para obtener resultados.

•Se tienen en cuenta el soporte y la confianza como parámetros que indican a los algoritmos cómo procesar los datos.

Imagen Prueba Manual (Soporte = 50% y Confianza =100%)

4.1. División del archivo de datos (Segmentos).

Usamos Segmentación en código de Producto y Factura.

4.2. Análisis de frecuencias.

Observamos el grafico de barras:

4.3. Gráfico de correlaciones.

4.4. Análisis de correlaciones.

El grafico muestra una correlación positiva: A un crecimiento de X (causa) corresponde un crecimiento de Y (efecto).

4.5. Regresión Lineal.

Y = b + aX

Posteriormente realizando los cálculos, resulta que:

b= 77786231040 -10(9)(8) = 17366874.37 5289 – 10(9)2

a= 8- 17366874.37 (9) = - 156301861.4

Y = b + aX => y= 17366874.37 - 156301861.4 X

top related