dr. francisco j. mata 1 relaciones y diferencias entre minería de datos y estadística tema 2

14
Dr. Francisco J. Mata Dr. Francisco J. Mata 1 Relaciones y Relaciones y diferencias entre diferencias entre minería de datos y minería de datos y estadística estadística Tema 2 Tema 2

Upload: plinio-belmonte

Post on 19-Feb-2015

9 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. MataDr. Francisco J. Mata 11

Relaciones y diferencias Relaciones y diferencias entre minería de datos y entre minería de datos y

estadísticaestadística

Tema 2Tema 2

Page 2: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 2

Estadística, aprendizaje Estadística, aprendizaje mecánico y minería de datosmecánico y minería de datos► Estadística: Estadística:

Basada en la teoríaBasada en la teoría Enfocada en la prueba de hipótesisEnfocada en la prueba de hipótesis

► Aprendizaje mecánico:Aprendizaje mecánico: HeurísticoHeurístico Enfocado en mejorar el rendimiento de un agente que Enfocado en mejorar el rendimiento de un agente que

aprendeaprende Relacionado con aprendizaje en tiempo real y robótica – Relacionado con aprendizaje en tiempo real y robótica –

áreas que no son parte de la minería de datosáreas que no son parte de la minería de datos► Minería de datosMinería de datos

Integra teoría y heurísticaIntegra teoría y heurística Enfocada en todo el proceso de descubrimiento de Enfocada en todo el proceso de descubrimiento de

conocimiento, incluyendo limpieza de datos y visualización conocimiento, incluyendo limpieza de datos y visualización de resultadosde resultados

► Diferencias no son clarasDiferencias no son claras

Page 3: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 3

EstadísticaEstadística

►Arte y ciencia de la colección, Arte y ciencia de la colección, interpretación y análisis de datos y la interpretación y análisis de datos y la habilidad de obtener generalidades habilidad de obtener generalidades lógicas relacionadas con un fenómeno lógicas relacionadas con un fenómeno bajo investigaciónbajo investigación

Page 4: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 4

EstadísticaEstadística

►Relacionada con el método científicoRelacionada con el método científico Especificación de objetivosEspecificación de objetivos Recolección de informaciónRecolección de información Análisis de los datosAnálisis de los datos Obtención de conclusionesObtención de conclusiones

Page 5: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 5

EstadísticaEstadística

►Dos categorías principalesDos categorías principales Estadística descriptivaEstadística descriptiva

►Métodos descriptivos para sumarizar y describir Métodos descriptivos para sumarizar y describir las características prominentes en los datoslas características prominentes en los datos

Estadística inferencialEstadística inferencial►Métodos que proveen las bases de Métodos que proveen las bases de

razonamiento para interpretar lógicamente razonamiento para interpretar lógicamente hechos observados, determinar el rango en el hechos observados, determinar el rango en el cual estos hechos apoyan o contradicen un cual estos hechos apoyan o contradicen un modelo postuladomodelo postulado

Page 6: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 6

Estadística descriptivaEstadística descriptiva

►Parámetros de una poblaciónParámetros de una población Media o promedioMedia o promedio Varianza o desviación estándarVarianza o desviación estándar

►Distribuciones de frecuenciaDistribuciones de frecuencia

Page 7: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 7

Estadística inferencialEstadística inferencial

►MuestreoMuestreo►Prueba de hipótesisPrueba de hipótesis

Page 8: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 8

Relaciones entre estadística y Relaciones entre estadística y minería de datosminería de datos

►Métodos de minería de datos pueden Métodos de minería de datos pueden utilizar conceptos estadísticosutilizar conceptos estadísticos Ejemplo: Ejemplo: segmentaciónsegmentación

►Métodos estadísticos pueden Métodos estadísticos pueden combinarse con técnicas de minería de combinarse con técnicas de minería de datos datos Transformación de datosTransformación de datos Reducción de datosReducción de datos

Page 9: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 9

Diferencias entre estadística y Diferencias entre estadística y minería de datosminería de datos

►Dos tipos de minería de datosDos tipos de minería de datos Prueba de hipótesisPrueba de hipótesis

►Métodos estadísticos inferencialesMétodos estadísticos inferenciales

Descubrimiento de conocimiento Descubrimiento de conocimiento heurísticoheurístico

►Métodos propiamente de minería de datosMétodos propiamente de minería de datos Dos tiposDos tipos

► Descubrimiento directoDescubrimiento directo► Descubrimiento indirectoDescubrimiento indirecto

Page 10: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 10

Pasos en los tres tipos de Pasos en los tres tipos de métodos de minería de datosmétodos de minería de datos

Prueba de hipótesisPrueba de hipótesis Descubrimiento Descubrimiento directodirecto

Descubrimiento Descubrimiento indirectoindirecto

1. Generar hipótesis1. Generar hipótesis 1. Identificar fuentes 1. Identificar fuentes de datos de datos preclasificadospreclasificados

1.Identificar fuentes de 1.Identificar fuentes de datosdatos

2. Determinar datos 2. Determinar datos para probar hipótesispara probar hipótesis

2. Preparar datos2. Preparar datos 2. Preparar datos para 2. Preparar datos para análisisanálisis

3. Recolectar datos3. Recolectar datos 3. Construir y entrenar 3. Construir y entrenar modelo computacionalmodelo computacional

3. Construir y entrenar 3. Construir y entrenar modelo computacionalmodelo computacional

4. Preparar datos4. Preparar datos 4. Evaluar la 4. Evaluar la efectividad del modeloefectividad del modelo

4. Evaluar la 4. Evaluar la efectividad del modeloefectividad del modelo

5. Procesar datos 5. Procesar datos mediante métodos mediante métodos estadísticos estadísticos inferencialesinferenciales

5 Aplicar el modelo a 5 Aplicar el modelo a nuevos datosnuevos datos

6. Confirmar o 6. Confirmar o rechazar hipótesisrechazar hipótesis

Page 11: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 11

Ejemplos de aplicación de Ejemplos de aplicación de prueba de hipótesisprueba de hipótesis

► Objetivo: Evaluar la efectividad de una campaña Objetivo: Evaluar la efectividad de una campaña publicitariapublicitaria

► Hipótesis: Clientes expuestos a la campaña Hipótesis: Clientes expuestos a la campaña publicitaria compran más del producto publicitado publicitaria compran más del producto publicitado que aquellos no expuestos a esta campañaque aquellos no expuestos a esta campaña

► Dos poblaciones:Dos poblaciones: Clientes expuestos a la campaña publicitariaClientes expuestos a la campaña publicitaria Clientes no expuestos a dicha campañaClientes no expuestos a dicha campaña Selección de dos muestras aleatorias para cada poblaciónSelección de dos muestras aleatorias para cada población

► Datos:Datos: Medir la cantidad de producto comprado para cada Medir la cantidad de producto comprado para cada

muestramuestra

Page 12: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 12

Ejemplos de aplicación de Ejemplos de aplicación de prueba de hipótesisprueba de hipótesis

► Análisis:Análisis: Comparar los promedios de la cantidad de producto Comparar los promedios de la cantidad de producto

comprado para ambas poblaciones mediante método comprado para ambas poblaciones mediante método estadístico de análisis de varianza (prueba T)estadístico de análisis de varianza (prueba T)

► Conclusiones:Conclusiones: Si el promedio de los que estuvieron expuestos a la Si el promedio de los que estuvieron expuestos a la

campaña publicitaria es estadísticamente superior al de los campaña publicitaria es estadísticamente superior al de los que no lo estuvieron se confirma la hipótesis, en caso que no lo estuvieron se confirma la hipótesis, en caso contrario se rechazacontrario se rechaza

Page 13: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 13

Ejemplo de descubrimiento de Ejemplo de descubrimiento de conocimiento directoconocimiento directo

► Objetivo: Determinar qué tipo de clientes son Objetivo: Determinar qué tipo de clientes son rentables para una compañía de tarjetas de rentables para una compañía de tarjetas de créditocrédito

► Fuentes de datos: estado de cuentas e Fuentes de datos: estado de cuentas e información personal de los clientesinformación personal de los clientes Generación de variable de rentabilidad (sí o no)Generación de variable de rentabilidad (sí o no)

► Volumen de comprasVolumen de compras► Ganancia por intereses en saldosGanancia por intereses en saldos

► Análisis: uso de árboles de decisiónAnálisis: uso de árboles de decisión► Conclusiones: características de los clientes y Conclusiones: características de los clientes y

de sus transacciones que dividen a los de sus transacciones que dividen a los clientes rentables de los no rentables (reglas clientes rentables de los no rentables (reglas de decisión)de decisión)

Page 14: Dr. Francisco J. Mata 1 Relaciones y diferencias entre minería de datos y estadística Tema 2

Dr. Francisco J. Mata 14

Ejemplo de descubrimiento Ejemplo de descubrimiento indirecto de conocimientoindirecto de conocimiento

►Objetivo: Agrupar clientes de acuerdo Objetivo: Agrupar clientes de acuerdo con características socieconómicas con características socieconómicas

►Fuentes de datos: registros sobre Fuentes de datos: registros sobre características socieconómicascaracterísticas socieconómicas

►Análisis: detección de gruposAnálisis: detección de grupos►Conclusión: división de clientes en Conclusión: división de clientes en

subgrupos con características subgrupos con características homogéneashomogéneas