sesión 1 [modo de...

17
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 1 - Juan Alfonso Lara Torralbo 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. 1

Upload: others

Post on 30-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

Fundamentos y Aplicaciones Prácticas

del Descubrimiento de Conocimiento

en Bases de Datos

- Sesión 1 -

Juan Alfonso Lara Torralbo 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

1

Page 2: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

Índice de contenidos

• Presentación del docente

• Presentación de los estudiantes

• Guía docente

• Actividad. Evaluación inicial

• El proceso de KDD

• Visión de conjunto

2

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 3: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

Presentación del docente

3

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 4: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

Presentación de losestudiantes

4

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 5: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

Guía docente

5

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 6: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

Actividad – Evaluación inicial• Trabajo en grupo, sin Internet, para intentar definir los

siguientes términos:

• Data Mining

• Proceso de KDD (Knowledge Discovery in Databases)

• Data Warehouse

• Clustering

• Árbol de decisión

• Atípico

• Big Data, Open Data, Linked Data

Puesta en común6

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 7: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (I)

• Knowledge Discovery in Databases

• Proceso extracción automatizada de conocimiento a partir de grandes volúmenes de datos

• Es un término más general que Data Mining

• Entonces, ¿por qué “nos suena” más Data Mining que KDD?

7

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 8: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (II)

• ¿Cualquier tipo de conocimiento?

• NO.

• Características:• No trivial

• Implícito

• Previamente desconocido

• Útil8

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 9: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (III)• Se encuentra oculto en los datos.

• De nada sirve extraer conocimiento que carezca de importancia.

• El conocimiento extraído deber servir para algo, de lo contrario no tiene ningún sentido invertir esfuerzos en extraerlo

• Nada nuevo se aporta si el conocimiento extraído ya había sido descubierto anteriormente.

• ¿Con qué características se relaciona cada definición anterior?

• No trivial

• Implícito

• Previamente desconocido

• Útil 9

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 10: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (IV) - Fases

1.Recopilación de datos.

2.Selección, limpieza y transformación de Datos.

3.Data Mining.

4.Interpretación y evaluación de modelos.

10

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 11: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (V) - Fases

11

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 12: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (VI) - Fases

• Naturaleza secuencial e iterativa

12

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 13: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (VII) - Fases

• Recopilación de Datos

• DW no sólo usado para DM. También para DSS, OLAP, Reporting

13

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 14: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (VIII) - Fases• Selección, limpieza y transformación

• ¿Qué datos necesito?

• ¿Hay algo extraño en ellos que tenga que ser reparado?

• ¿El formato se adapta a lo que exigen los algoritmos posteriores? 14

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 15: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (IX) - Fases• DATA MINING

• ¿Por qué se generaliza el término?

• Tareas predictivas � predecir el valor desconocido de uno o varios atributos.

• Tareas descriptivas � modelos que, de alguna forma, describen los datos. 15

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 16: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

El proceso de KDD (X) - Fases

• Interpretación y evaluación

• ¿Valen todos los modelos?

• NO � Deben ser Precisos, interesantes, comprensibles, … 16

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 17: Sesión 1 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/2/Sesión_01.pdf · resolver tipos de problemas tareas • El resultado de resolver una tarea es

Visión de conjunto• Data Mining : etapa de un proceso más general

• KDD: Proceso general de extracción de conocimiento

• Compuesto por fases

• En cada fase se aplican técnicas

• En la fase de DM se aplican técnicas para resolver tipos de problemas � tareas

• El resultado de resolver una tarea es un modelode data mining 17

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.