otoño 2009. cada vez es más frecuente el almacén de información en bases de datos como en: ...

35
Otoño 2009

Upload: milagros-montero-acosta

Post on 23-Jan-2016

216 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Otoño 2009

Page 2: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Cada vez es más frecuente el almacén de información en bases de datos como en:

Data Warehouse Empresas de Marketing Escuelas Gobierno

Esto dificulta la realización de análisis de aspectos relevantes.

Otoño 2009MC Beatriz Beltrán Martínez 2

Page 3: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

La búsqueda tradicional de datos se realiza mediante análisis estadísticos.

A finales de los 80’s la estadística se amplió a técnicas como lógica difusa, razonamiento heurístico y redes neuronales.

Actualmente, las técnicas anteriores se aprovechan para generar conocimiento.

Otoño 2009MC Beatriz Beltrán Martínez 3

Page 4: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

La Minería de Datos es la extracción automática de información predictiva escondida desde bases de datos.

La Minería de Datos estudia métodos y algoritmos que permiten la extracción automática de información sintetizada que permite caracterizar las relaciones escondidas.

Otoño 2009MC Beatriz Beltrán Martínez 4

Page 5: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

En las aplicaciones de la Minería de Datos se hace sobre datos previamente recolectados.

Los datos no cambian mientras están siendo analizados.

Por lo que los datos generados son confiables y consistentes para éstos datos.

Otoño 2009MC Beatriz Beltrán Martínez 5

Page 6: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

La Minería de Datos y las Bases de Datos comerciales están disponibles para resolver problemas de decisión de negocios.

La Minería de Datos es una tecnología que ayuda a enfocarse en la información más importante en los almacenes de datos.

Otoño 2009MC Beatriz Beltrán Martínez 6

Page 7: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Minería de Datos:

› No es una solución a negocios.

› Es sólo tecnología.› Encuentra las

“gemas pérdidas” en montañas de información.

Bases de Datos Comerciales:

› Involucra decisiones de información.

› Da decisiones de negocios.

Otoño 2009MC Beatriz Beltrán Martínez 7

Page 8: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Las Herramientas de la Minería de Datos:› Predicen tendencias futuras y

comportamientos.› Pueden responder a preguntas que

consumarían demasiado tiempo para resolverlas.

La automatización, provee herramientas típicas de soporte de decisión.

Otoño 2009MC Beatriz Beltrán Martínez 8

Page 9: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Las Herramientas obtienen de las bases de datos patrones escondidos.

Las Técnicas de la Minería de Datos pueden ser implementadas rápidamente en software y en las plataformas de hardware existente.

Las Herramientas de Minería de Datos pueden ser implementadas en plataformas cliente-servidor o computadoras de procesamiento paralelo.

Otoño 2009MC Beatriz Beltrán Martínez 9

Page 10: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Las Técnicas de la Minería de Datos son el resultado de un largo proceso de investigación y desarrollo de productos.

La Minería de Datos esta soportada por tres tecnologías que son lo suficientemente maduras:

Colección masiva de datos.Computadoras con

multiprocesamiento.Algoritmos de minería de datos.

Otoño 2009MC Beatriz Beltrán Martínez 10

Page 11: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

En la siguiente tabla se muestra la evolución del tipo de consultas.

Otoño 2009MC Beatriz Beltrán Martínez 11

Evolución Preguntas de Negocios Tecnologías permitidas

Características

Colección de datos (Años 60)

Cuales fueron los ingresos en los últimos 5 años?

Computadoras, cintas y discos.

Liberación de datos estáticos retrospectiva.

Acceso a datos.(Años 80)

Que rebajas se tuvieron en Nueva Inglaterra en marzo?

Bases de datos relacionales y lenguajes de consulta estructurados (SQL)

Nivel de registro en liberación de datos dinámicos retrospectiva.

Data Warehouse y soporte a la toma de decisiones.(Años 90)

Que rebajas se tuvieron en Nueva Inglaterra en marzo? Repetir para Boston.

(Procesamiento analítico en línea, bases de datos multidimensionales y almacenes de datos.

Niveles múltiples en liberación de datos dinámicos retrospectiva.

Data Mining (1995)

Que es lo más probable que pase con las rebajas en Boston el próximo mes?

Algoritmos avanzados, computadoras con multiprocesador y bases de datos masivas.

Liberación de información proactiva prospectiva

Page 12: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

El componente principal en la Tecnología de la Minería de Datos ha sido desarrollado en:

EstadísticaInteligencia ArtificialMáquinas de Aprendizaje

Actualmente, existe gran relevancia en:Ambientes de negocios Las descripciones básicas de las

arquitecturas de almacenes de datos.

Otoño 2009MC Beatriz Beltrán Martínez 12

Page 13: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Las técnicas para la Minería de Datos son:

Redes Neuronales Artificiales.Árboles de Decisión.Algoritmos Genéticos.Modelos Lineales.Vecino más Cercano.

Otoño 2009MC Beatriz Beltrán Martínez 13

Page 14: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

La Minería de Datos ha surgido del potencial del análisis de grandes volúmenes de información.

Su fin es obtener resúmenes y conocimiento para la toma de decisiones.

Además se pretende construir experiencia a partir de millones de transacciones.

Otoño 2009MC Beatriz Beltrán Martínez 14

Page 15: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

El conjunto de datos de donde la minería intenta extraer conocimiento se le llama conjunto de entrenamiento.

La meta de la Minería es obtener conocimiento válido no solo para la base de datos considerada sino para una muy similar.

El conocimiento puede ser probado con otro conjunto de entrenamiento.

Otoño 2009MC Beatriz Beltrán Martínez 15

Page 16: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Algunas de las aplicaciones de la Minería de Datos son:› Compañias Farmaceuticas.› Compañias de crédito.› Compañias de transporte.› Compañias de consumo.› Reacciones químicas.› Comercio, monitoreo.

Otoño 2009MC Beatriz Beltrán Martínez 16

Page 17: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Facilidad con que se puede caer en una falsa interpretación.

Es fácil equivocarse.

Tiempo y espacio.

Privacidad

Otoño 2009MC Beatriz Beltrán Martínez 17

Page 18: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Otoño 2009MC Beatriz Beltrán Martínez 18

BD Datos

Selección PreprocesadoSelección de

característicasExtracción de conocimiento Evaluación

Modeloclasificador

Conocimiento

Page 19: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Algoritmos de aprendizaje: Mediante una técnica de Minería de

Datos, se obtiene un modelo de conocimiento.

El modelo representa patrones de comportamiento observados en los valores de las variables o relaciones de asociación.

También pueden usarse técnicas para generar distintos modelos.

Otoño 2009MC Beatriz Beltrán Martínez 19

Page 20: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Los métodos no supervisados, descubren:patrones y tendencias en los datos actuales.

El descubrimiento de esa información sirve para llevar a cabo acciones y obtener un beneficio de ellas.

Otoño 2009MC Beatriz Beltrán Martínez 20

Page 21: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Otoño 2009MC Beatriz Beltrán Martínez 21

Data Mining

Verification Driven DM Discovery Driven DM

SQL SQL Generator Description Prediction

Query Tools

OLAP

Visualization

Clustering

Association

Secuential AssociationDistillation

Clasification StatisticalRegression

Decision Tree Rule Induction

Neural Network

Page 22: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Agrupamiento.› También se llama segmentación.› Identifica tipologías de grupos, donde se

guarda similitud.› Se requiere información sobre el colectivo

a segmentar.› La información corresponde a valores

concretos.› Se basan en herramientas de carácter

estadísticos, generación de reglas, redes neuronales,etc.

Otoño 2009MC Beatriz Beltrán Martínez 22

Page 23: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Métodos estadísticos.› Técnica tradicional en el tratamiento de

grandes volúmenes de datos.› Existen varios modelos:

ANOVA (Análisis de Varianza). Contrasta con variables continuas.

Ji cuadrado. Contrasta con la independencia de variables.

Componentes principales. Permite reducir el número de variables.

Otoño 2009MC Beatriz Beltrán Martínez 23

Page 24: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Métodos estadísticos.Análisis de clústers. Permite clasificar

poblaciones.Análisis de discrimante. Permite encontrar

reglas de clasificación de elementos en grupos.

Regresión lineal. Se identifica una variable dependiente de las independientes, con una relación lineal.

Regresión logística. Trabaja con variables discretas, se requiere que las variables sean lineales.

Otoño 2009MC Beatriz Beltrán Martínez 24

Page 25: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Árboles de decisión.› Herramientas analíticas empleadas para el

descubrimiento de reglas y relaciones.› Se construye partiendo el conjuntos de dos

(CART) o más (CHAID).› Cada subconjunto a su vez es particionado.› Se continua hasta no encontrar diferencias

significativas de influencia.

Otoño 2009MC Beatriz Beltrán Martínez 25

Page 26: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Reglas de asociación.› Derivan de un tipo de análisis que extrae

información por coincidencias.› Permite descubrir correlaciones o co-

ocurrencias en los sucesos de la base de datos.

› Se formaliza la obtención de reglas del tipo SI... ENTONCES.

Otoño 2009MC Beatriz Beltrán Martínez 26

Page 27: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Redes neuronales.› Son capaces de detectar y aprender

patrones y características de los datos.› Una vez adiestradas las redes pueden

hacer previsiones, clasificaciones y segmentación.

› Esto se realiza estructurando nivels o capas.

› Se tienen dos tipos de aprendizaje: supervisado y no supervisado.

Otoño 2009MC Beatriz Beltrán Martínez 27

Page 28: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Algorítmos genéticos.› Hacen uso de técnicas de reproducción

(mutación y cruce) para ser utilizadas para búsqueda y optimización.

› Se parte de una población inicial, y se altera optimizándola.

› Esta herramienta se usa en las primeras fases de la minería y después se aplica redes neuronales o regresión logística.

Otoño 2009MC Beatriz Beltrán Martínez 28

Page 29: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Lógica difusa.› Surge de la necesidad de modelar la

realidad de forma mas exacta, evitando el determinismo y exactitud.

› Permite el tratamiento probabilístico de categorización colectiva.

› Trata la existencia de barreras difusas o suaves entre grupos.

Otoño 2009MC Beatriz Beltrán Martínez 29

Page 30: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Series temporales.› Consisten en el estudio de una variable a

través del tiempo para que partiendo de ese conocimiento y con el supuesto de no cambios poder realizar predicciones.

› Se basan en ciclos, tendencias y estaciones.

› Se puede aplicar enfoques híbridos entre métodos anteriores, o con otro tipo de variables.

Otoño 2009MC Beatriz Beltrán Martínez 30

Page 31: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Redes bayesianas.› Son una alternativa para la minería.› Se tiene las ventajas:

Permiten aprender sobre relaciones de dependencia y causalidad.

Permiten combinar conocimiento de datos.Evitan el sobre-ajuste de datos.Permiten el manejo de bases de datos

incompletas.

Otoño 2009MC Beatriz Beltrán Martínez 31

Page 32: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Inducción de reglas.› Como información de entrada, se tiene un

conjunto de casos donde se ha asociado una clasificación o evaluación.

› Con tal información se obtiene un árbol de decisión, que soportan la evaluación o clasificación.

› En caso de que la entrada tenga ruido, esta técnica se puede habilitar con métodos estadísticos.

Otoño 2009MC Beatriz Beltrán Martínez 32

Page 33: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Sistemas basados en conocimiento y sistemas expertos.› Permiten la formalización de árboles y

reglas de decisión, extraídas del conocimiento de expertos.

› Poseen motores de inferencia, que gestionan las preguntas.

› De esta forma el proceso de decisión es eficiente y rápido.

Otoño 2009MC Beatriz Beltrán Martínez 33

Page 34: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Selección de técnicas adecuadas.El mínimo aceptable para elegir una

tecnología de MD y un producto depende de qué tanto el producto beneficia al negocio:Ingresos.Costos disminuidos.Rendimiento de inversiones.

Para desarrollar con éxito un negocio, el MD debe buscar algo más que patrones deseados.

Otoño 2009MC Beatriz Beltrán Martínez 34

Page 35: Otoño 2009.  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno

Se tienen tres medidas claves, para una evaluación de las herramientas.Precisión: Se deben modelos precisos,

pero reconociendo pequeñas diferencias en las técnicas.

Explicación: Las herramientas deben explicar al usuario final de manera clara como funciona el modelo.

Integración: Las herramientas deben integrarse en el proceso real del negocio, flujos de datos e información de la empresa.

Otoño 2009MC Beatriz Beltrán Martínez 35