tecnologÍas inteligentes para explotaciÓn de...
TRANSCRIPT
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
TECNOLOGÍAS INTELIGENTESPARA EXPLOTACIÓN DE INFORMACIÓN
FUNDAMENTOS
Dr. Ramón García-MartínezCURSO DE DOCTORADO
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
La explotación de información basada en tecnologias de sistemas inteligentes se refiere a la aplicación de métodos de sistemas inteligentes, para descubrir y enumerar patrones de conocimientopresentes en la información.
La inteligencia de negocio propone un abordaje interdisciplinario que tomando:
La explotación de Información es la sub-disciplina Informática que aporta a la Inteligencia de Negocio las herramientas (procesos y tecnologías) para la transformación de información en conocimiento
CONTEXTO
todos los recursos de información disponibles
se centra en generar a partir de estos, conocimiento que contribuya con la toma de decisiones de gestión y generación de planes estratégicos en las organizaciones.
el uso de herramientas analíticas y de síntesis con capacidad de transformar la información en conocimiento
*
*
*
++
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO?
INFORMACION
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Marco Conceptual
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Patrón a priori 1
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Patrón a priori 2
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO? EXPLOTACION DE INFORMACION
(sin patrón a priori)
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
PROCESOS UNITARIOS:
PROCESOS DE EXPLOTACION DE INFORMACION
*
PROCESOS COMBINADOS:*
Predicción+Agrupamiento+
+Ponderación+Inducción
Agrupamiento + Inducción+
Inducción + Ponderación++ Agrupamiento + Ponderación
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
TECNOLOGIAS DE SISTEMAS INTELIGENTESCONSIDERADAS
*
*
REDES BP
REDES SOM
ALGORITMOS TDIDT
REDES BAYESIANAS
**
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
PROCESOS
CORRESPONDENCIA ENTRE PROCESOS DE EXPLOTACION DE INFORMACION Y TECNOLOGIAS INTELIGENTES
PredicciónAgrupamiento
PonderaciónInducción
Agrupamiento + InducciónInducción + PonderaciónAgrupamiento + Ponderación
Redes BPRedes SOM
Redes BayesianasAlgoritmos TDIDT
SOM + TDIDTTDIDT + Redes BayesianasSOM + Redes Bayesianas
TECNOLOGIAS
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
INFORMACION
EXPLOTACION DE INFORMACION VS ESTADISTICAVisión Complementaria
ESTADISTICA
PATRONES
CONFIRMA / REFUTA /AJUSTA PATRONES
SUPUESTOS
EXPLOTACIONDE INFORMACION
PROCESOS
PATRONES
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
Neurona biológica Neurona artificial
REVISION REDES NEURONALES
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BPArquitectura Básica
NEURONAS DE ENTRADA
NEURONASDE SALIDA
NEURONASOCULTAS
CONEXIONES ENTRENEURONAS
PATRON DEENTRADA
PATRON DESALIDA
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BPPresentación intuitiva del proceso de entrenamiento
Patrones de Entrenamiento
0 0 0 1 1 1 10 1 0 1 1 1 0
Patrones de Salida
0 1 1 0 0.86 0.11
0
1
0
1
1
1
0
0
0
0
1
1
1
1
0
0
0
1
1
Patrones de Consulta Entrada
1 1 0 1 1
1
1
0
1
1
0.86
0.
11
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BPPresentación intuitiva del proceso de entrenamiento
fSuponemos que existe una función entre X e Y
f Sabemos que (patrones de entrenamiento): f(X1,...,Xn) = (Y1,...,Ym)
f(X1,...,Xn) = (Y1,...,Ym)
Con la BP entrenada podremos saber (para patrones de entrada desconocidos):
f(X1,...,Xn) = (Y1,...,Ym) f(X1,...,Xn) = (Y1,...,Ym)
relación conocida
relación desconocida
REVISION REDES SOMFundamentos
• Este modelo trata de establecer una correspondencia entre los datos de entrada y un espacio bidimensional, creando mapas topológicos, de manera que datos similares activen neuronas en zonas próximas.
• Produce una partición (clasificación) de un conjunto de registros ingresados (partición desconocida “apriori”) en subconjuntos de registros con caracteristicas similares (clusters).
• Cada vez que se presenta una registro de entrada, las neuronas “compiten” y una se define como la ganadora (Best Matching Unit).
• Los pesos de la BMU se actualizan y también los de las neuronas vecinas de manera más atenuada a través de una función de “vecindario” o “Kernel”.
• Los registros deben tener un grado de redundancia elevado para que la SOM pueda realizar su clasificación.
• Cada una de las N neuronas de entrada se conecta a las M de salida a través de conexiones hacia adelante (feedfoward).
• Entre las neuronas de la capa de salida, existen conexiones laterales de inhibición (peso negativo) implícitas
• Aunque no estén conectadas cada una de las neuronas va a tener cierta influencia sobre sus vecinas.
• El valor que se asigne a los pesos de las conexiones hacia adelante entre las capas de entrada y salida durante el proceso de aprendizaje de la red va a depender precisamente de esta interacción lateral.
REVISION REDES SOMArquitectura Básica
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES SOMPresentación intuitiva del proceso de agrupamiento
SOM
REVISION REDES SOMPresentación intuitiva del proceso de agrupamiento
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
Atributo 1
Atributo 3
Atributo 4Atributo2
Atributo 2Clase2
Clase3
Clase1
Clase1
Clase2
Clase4
Clase1
Valor a Valor c
Valor xValor y
Valor m Valor n
Valor z Valor kValor l
Clase1
Valor xValor y
Valor z
La familia TDIDT (Top Down InductionTrees) pertenece a los métodos inductivos del Aprendizaje Automático que aprenden a partir de ejemplos preclasificados.
Dado un conjunto que contiene ejemplos pertenecientes a distintas clases, se realiza una prueba sobre los distintos atributos y se realiza una partición según el “mejor” atributo. Para encontrar el “mejor” atributo, se utiliza la teoría de la información, determinando que atributo aporta mayor ganacia (o menor perdida de informacion) al tomar un determinado valor.
ALGORITMOS TDIDTFundamentos
SiNegativoMás de 1 mesMenos de 30’Con esfuerzoNoTípico
…..…..…..…..…..…..…..
NoNegativoRecienteMenos de 30’En reposoNoTípico
NoPositivoMás de 1 mesMás de 30’En reposoSiTípico
SiPositivoRecienteMás de 30’Con esfuerzoSiAusente
NoNegativoRecienteMenos de 30’En reposoNoTípico
NoNegativoMás de 1 mesMenos de 30’En reposoSiAusente
NoPositivoMás de 1 mesMás de 30’En reposoNoTípico
SiNegativoRecienteMenos de 30’Con esfuerzoNoAtípico
SiNegativoRecienteMenos de 30’Con esfuerzoNoTípico
NoNegativoRecienteMás de 30’En reposoSiAtípico
NoPositivoRecienteMás de 30’Con esfuerzoNoTípico
NoNegativoMás de 1 mesMenos de 30’En reposoNoTípico
SiPositivoRecienteMenos de 30’En reposoNoAtípico
NoNegativoMás de 1 mesMenos de 30’En reposoNoAusente
NoNegativoMás de 1 mesMás de 30’En reposoNoAtípico
SiPositivoRecienteMenos de 30’Con esfuerzoSiTípico
Infarto agudo de miocardio
Respuesta vasodilatadora
Antigüedad del angor
Duración del angor
Angor en relación
Irradiación del angor
Dolor de pecho de angor
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDTPresentación intuitiva del proceso de inducción
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDTPresentación intuitiva del proceso de inducción
Dolor de pecho de angor
Duración del angor
No (Infarto de miocardio)
Más de 30’ Menos de 30’
Típico Ausente Atípico
No (Infarto de miocardio)
Si (Infarto de miocardio)
Respuesta vasodilatadora
Negativo Positivo
Si (Infarto de miocardio)
Irradiación del angor
Si No
No (Infarto de miocardio)
Si (Infarto de miocardio)
Angor en relación
Antigüedad del angor
SiCantidad de calorías = AltaY estoy a dieta = Sí
EntoncesNo comerlo
Si
Cantidad de calorías = Alta
Y estoy a dieta = No
Y estoy yendo al gimnasio = No
Entonces
Comerlo la mitad
Si
Cantidad de calorías = Alta
Y estoy a dieta = No
Y estoy yendo al gimnasio = Sí
Entonces
Comerlo
Si
Cantidad de calorías = Baja
Entonces
Comerlo
Reglas
Cantidad de calorías
¿Estoy a dieta?
¿Estoy yendo al gimnasio?
Acción
Alta Sí Sí No comerlo
Alta Sí No No comerlo
Alta No Sí Comerlo
Alta No No Comer la mitad
Baja Sí Sí Comerlo
Baja Sí No Comerlo
Baja No Sí Comerlo
Baja No No Comerlo
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDTConstrucción de reglas
Si Cantidad de calorías = AltaY estoy a dieta = Sí
EntoncesNo comerlo
Si Cantidad de calorías = AltaY estoy a dieta = NoY estoy yendo al gimnasio = No
EntoncesComerlo la mitad
Si Cantidad de calorías = AltaY estoy a dieta = NoY estoy yendo al gimnasio = Sí
EntoncesComerlo
Si Cantidad de calorías = BajaEntonces
Comerlo
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDTConstrucción de reglas
Una red bayesiana es:– Grafo acíclico dirigido– Nodos representan variables– Arcos representan dependencias probabilísticas
• Causa – Efecto• Probabilidad condicional
70%30%
NoSi
Ladrón
Ladrón
Terremoto
Alarma
90%10%
NoSi
Terremoto85%15%NoNo
24%76%SiNo
9%91%NoSi
1%99%SiSi
NoSi
AlarmaTerremotoLadrón
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANASFundamentos Gentileza: Ing. Pablo Felgaer
Aprendizaje estructural– Relaciones de dependencia e independencia
Aprendizaje paramétrico– Probabilidad a priori y condicionales
Proceso de inferencia– Predicciones a partir de observaciones
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANASGeneración Gentileza: Ing. Pablo Felgaer
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANASAprendizaje estructural Gentileza: Ing. Pablo Felgaer
Visitó Asia
Radiografías Disnea
Fumador
Tuberculosis Cáncer de pulmón Bronquitis
Tuberculosis o Cáncer
90%10%AusenteFalso
20%80%PresenteFalso
30%70%AusenteVerdadero
10%90%PresenteVerdadero
AusentePresente
DisneaBronquitisTuberculosis o
Cáncer
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANASAprendizaje paramétrico Gentileza: Ing. Pablo Felgaer
Visitó Asia
Radiografías Disnea
Fumador
Tuberculosis Cáncer de pulmón Bronquitis
Tuberculosis o Cáncer
Visitó Asia
Radiografías Disnea
Fumador
Tuberculosis Cáncer de pulmón Bronquitis
Tuberculosis o Cáncer
Visitó Asia
Visitó 1,0%
No visitó 99,0%
Fumador
Fumador 50,0%
No fumador 50,0%
Tuberculosis
Presente 1,0%
Ausente 99,0%
Cáncer de pulmón
Presente 5,5%
Ausente 94,5%
Bronquitis
Presente 45,0%
Ausente 55,0%
Tuberculosis o Cáncer de pulmón
Verdadero 6,5%
Falso 93,5%
Radiografías
Anormal 11,0%
Normal 89,0%
Disnea
Presente 43,5%
Ausente 56,5%
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANASProceso de inferencia Gentileza: Ing. Pablo Felgaer
Visitó Asia
Radiografías Disnea
Fumador
Tuberculosis Cáncer de pulmón Bronquitis
Tuberculosis o Cáncer
Visitó Asia
Visitó 1,0%
No visitó 99,0%
Fumador
Fumador 50,0%
No fumador 50,0%
Tuberculosis
Presente 1,0%
Ausente 99,0%
Cáncer de pulmón
Presente 5,5%
Ausente 94,5%
Bronquitis
Presente 45,0%
Ausente 55,0%
Tuberculosis o Cáncer de pulmón
Verdadero 6,5%
Falso 93,5%
Radiografías
Anormal 11,0%
Normal 89,0%
Disnea
Presente 43,5%
Ausente 56,5%
Visitó Asia
Visitó 100%
No visitó 0%
Tuberculosis
Presente 5,0%
Ausente 95,0%
Tuberculosis o Cáncer de pulmón
Verdadero 10,2%
Falso 89,8%
Radiografías
Anormal 14,5%
Normal 85,5%
Disnea
Presente 45,0%
Ausente 55,0%
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANASProceso de inferencia Gentileza: Ing. Pablo Felgaer
Visitó Asia
Visitó 100%
No visitó 0%
Fumador
Fumador 50,0%
No fumador 50,0%
Tuberculosis
Presente 5,0%
Ausente 95,0%
Cáncer de pulmón
Presente 5,5%
Ausente 94,5%
Bronquitis
Presente 45,0%
Ausente 55,0%
Tuberculosis o Cáncer de pulmón
Verdadero 10,2%
Falso 89,8%
Radiografías
Anormal 14,5%
Normal 85,5%
Disnea
Presente 45,0%
Ausente 55,0%
Fumador
Fumador 100%
No fumador 0%
Cáncer de pulmón
Presente 10,0%
Ausente 90,0%
Bronquitis
Presente 60,0%
Ausente 40,0%
Tuberculosis o Cáncer de pulmón
Verdadero 14,5%
Falso 85,5%
Radiografías
Anormal 18,5%
Normal 81,5%
Disnea
Presente 56,4%
Ausente 43,6%
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANASProceso de inferencia Gentileza: Ing. Pablo Felgaer
Visitó Asia
Visitó 100%
No visitó 0%
Fumador
Fumador 100%
No fumador 0%
Tuberculosis
Presente 5,0%
Ausente 95,0%
Cáncer de pulmón
Presente 10,0%
Ausente 90,0%
Bronquitis
Presente 60,0%
Ausente 40,0%
Tuberculosis o Cáncer de pulmón
Verdadero 14,5%
Falso 85,5%
Radiografías
Anormal 18,5%
Normal 81,5%
Disnea
Presente 56,4%
Ausente 43,6%
Tuberculosis
Presente 0,1%
Ausente 99,9%
Cáncer de pulmón
Presente 0,2%
Ausente 99,8%
Tuberculosis o Cáncer de pulmón
Verdadero 0,4%
Falso 99,6%
Radiografías
Anormal 0%
Normal 100%
Disnea
Presente 52,1%
Ausente 47,9%
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANASProceso de inferencia Gentileza: Ing. Pablo Felgaer
Visitó Asia
Visitó 100%
No visitó 0%
Fumador
Fumador 100%
No fumador 0%
Tuberculosis
Presente 0,1%
Ausente 99,9%
Cáncer de pulmón
Presente 0,2%
Ausente 99,8%
Bronquitis
Presente 60,0%
Ausente 40,0%
Tuberculosis o Cáncer de pulmón
Verdadero 0,4%
Falso 99,6%
Radiografías
Anormal 0%
Normal 100%
Disnea
Presente 52,1%
Ausente 47,9%
Bronquitis
Presente 92,2%
Ausente 7,8%
Disnea
Presente 100%
Ausente 0%
Tuberculosis o Cáncer de pulmón
Verdadero 0,6%
Falso 99,4%
Tuberculosis
Presente 0,2%
Ausente 99,8%
Cáncer de pulmón
Presente 0,4%
Ausente 99,6%
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANASProceso de inferencia Gentileza: Ing. Pablo Felgaer