-radius ivrl : paradigma de integracion de aprendizaje por refuerzo...

169
δ -radius IVRL : Paradigma de Integraci´on de Aprendizaje por Refuerzo en Sistemas Multi-Agente Jes´ us Alejandro Camargo Monroy Orientador: Dr. Dennis Barrios Aranibar Jurado: Dr. Luiz Marcos Garc´ ıa – Universidade Federal do Rio Grande do Norte – Brasil Dra. Karina Valdivia – Universidade de Sao Paulo – Brasil Dr. Yv´ an T´ upac Valdivia – Universidad Cat´ olica San Pablo – Per´ u Dr. Alex Cuadros – Universidad Cat´ olica San Pablo – Per´ u Tesis presentada al Centro de Investigaci´ on e Innovaci´ on en Ciencia de la Computaci´ on (RICS) como parte de los requisitos para obtener el grado de Maestro en Ciencia de la Computaci´ on. Universidad Cat´olica San Pablo – UCSP Noviembre 2016 – Arequipa – Per´ u

Upload: others

Post on 07-Jun-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

δ-radius IVRL : Paradigma de Integracion de

Aprendizaje por Refuerzo en Sistemas

Multi-Agente

Jesus Alejandro Camargo Monroy

Orientador: Dr. Dennis Barrios Aranibar

Jurado:Dr. Luiz Marcos Garcıa – Universidade Federal do Rio Grande do Norte – Brasil

Dra. Karina Valdivia – Universidade de Sao Paulo – BrasilDr. Yvan Tupac Valdivia – Universidad Catolica San Pablo – Peru

Dr. Alex Cuadros – Universidad Catolica San Pablo – Peru

Tesis presentada alCentro de Investigacion e Innovacion en Ciencia de la Computacion (RICS)

como parte de los requisitos para obtener el grado deMaestro en Ciencia de la Computacion.

Universidad Catolica San Pablo – UCSPNoviembre 2016 – Arequipa – Peru

Page 2: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

II Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 3: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Le dedico este trabajo a todos aquellosque estuvieron conmigo y evitaron quedesistiera de esta lucha. Mil gracias.

Page 4: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

IV Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 5: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Abreviaturas

MAS Multi-Agent System o Sistemas Multi-Agente

IL Independent Learning

IVRL Influence Value Reinforcement Learning

MDP Markov Decision Process

Dec-POMDP Decentralized Partial Observable Markov Decision Process

POMDP Partial Observable Markov Decision Process

δ-radius IVRL δ-radius Influence Value Reinforcement Learning

δ-radius CM δ-radius Communication Model

JAL Joint Action Learning

RL Reinforcement Learning

V

Page 6: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

VI Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 7: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Agradecimientos

Deseo agradecer de corazon:A mis padres por creer que puedo lograrlo todo.A mi hermano por mantener siempre una sonrisa, aun cuando los tiempo son difıciles.A mis maestros, especialmente a mi asesor por la paciencia y la fe depositada en mi.A mis amigos por caminar siempre a mi lado y nunca abandonarme.

Es tambien importante agradecer a quienes me dieron esta oportunidad, por ello agra-decer de manera especial al Consejo Nacional de Ciencia, Tecnologıa e InnovacionTecnologica (CONCYTEC) y al Fondo Nacional de Desarrollo Cientıfico, Tecnologi-co e Innovacion Tecnologica (FONDECYT-CIENCIACTIVA), que mediante Conveniode Gestion UCSP-FONDECYT No 011-2013, han permitido la subvencion y financia-miento de mis estudios de Maestrıa en Ciencia de la Computacion en la UniversidadCatolica San Pablo (UCSP).

Page 8: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

VIII Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 9: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Abstract

Multi-agent systems have shown that by their own nature, they allowsolving problems that require coordination and/or cooperation, by allowinga natural representation of such situations. However, there are some pro-blems regarding their formal representation and consequently their applica-tion.

By the study of the current formal models some shortcomings havebeen explosed about representation and application; with a failure in thecommunication system as the most common shortcoming. Being aware ofthis problem, we propose δ-radius Communication Model, a formal repre-sentation of the communication for multi-agent systems.

The dominant learning paradigms in the area are Independent Lear-ning and Influence Value Reinforcement Learning. Opposite poles aboutthe influence of the agents about their mates. Independent Learning seeksto establish a system free of influence; meanwhile, Influence Value Reinfor-cement Learning presents a scenario in which agents are influenced by alltheir counterparts in a shared environment. Based on both ends, a unifiedview of both paradigms is defined: δ -radius Influence Value ReinforcementLearning.

Page 10: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

The unified view allows the development of intermediate systems, inwhich the explicit limitations of the communication could be defined th-rough a notion of distance between agents and δ, a variable that determinesthe maximum distance under which is possible to establish communicationbetween two agents. Moreover, the results of the experiments developed ha-ve shown that the intermediate systems have to have a lower algorithmiccomplexity and a better capacity of convergence.

Keywords: Multi-Agent System, Communication Model, Reinforcement Learning,Independent Learning, Influence Value Reinforcement Learning.

X Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 11: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resumen

Los sistemas multi-agente han mostrado, por su propia naturaleza,permitir resolver problemas que requieren coordinacion y/o cooperacion,ello por cuanto permiten representar de forma natural dichas situaciones.Sin embargo, existen algunos problemas relacionados a su representacionformal y en consecuencia a su aplicacion.

El estudio de los modelos formales actuales ha dejado al descubier-to algunas de las falencias respecto a su representacion y aplicacion; conun fallido sistema de comunicacion como el problema mayor comunmen-te encontrado. Estando al tanto de este problema proponemos : δ-radiusCommunication Model, una representacion formal para la comunicacion ensistemas multi-agente.

Los paradigmas dominantes de aprendizaje en el area son Indepen-dent Learning e Influence Value Reinforcement Learning. Polos opuestosen relacion a la influencia de los agentes respecto a sus companeros. Inde-pendent Learning busca establecer un sistema libre de influencia; mientrastanto, Influence Value Reinforcement Learning presenta un escenario en elcual los agentes son influenciados por todos sus companeros en un entornocompartido. Basandonos en ambos extremos, una vista unificada de ambosparadigmas es definida: δ-radius Influence Value Reinforcement Learnig.

La vision unificada ha de permitir el desarrollo de sistemas interme-dios, en los cuales se pueda definir limitaciones explıcitas a la comunicacionmediante una nocion de distancia entre los agentes y teniendo como limi-tante a δ, una variable que determinara la distancia maxima bajo la cuales posible establecer comunicacion entre dos agentes. Mas aun, los resul-tados de los experimentos desarrollados han demostrado que los sistemasintermedios han de tener una menor complejidad algorıtmica y una mejorcapacidad de convergencia.

Palabras Clave: Sistema Multi-Agente, Communication Model, ReinforcementLearning, Independent Learning, Influence Value Reinforcement Learning.

Page 12: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

XII Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 13: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Indice general

Indice de tablas XVII

Indice de figuras XXIV

1. Introduccion 1

1.1. Motivacion y Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. El Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4. Objetivo y Aportes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5. Publicaciones y Contribuciones al Estado del Arte . . . . . . . . . . . . 6

1.6. Organizacion de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Marco Teorico 9

2.1. Concepto de Inteligencia Artificial, breve discusion sobre su correctoenfoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2. Concepto de Agente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1. Instrumentos Sensoriales . . . . . . . . . . . . . . . . . . . . . . 11

2.2.2. Actuadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.3. Nucleo Logico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3. Concepto de entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . 15

XIII

Page 14: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

INDICE GENERAL

3. Esquemas Taxonomicos para MAS 17

3.1. Enfoques de Clasificacion para Sistemas Multi-Agente . . . . . . . . . . 18

3.2. Clasificacion por el Tipo Aprendizaje . . . . . . . . . . . . . . . . . . . 20

3.2.1. Equipo Basado en un Unico Motor de Aprendizaje . . . . . . . 20

3.2.2. Equipo Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.3. Clasificacion por Asignacion de Credito . . . . . . . . . . . . . . . . . . 21

3.3.1. Estrategia de Recompensa Global . . . . . . . . . . . . . . . . . 22

3.3.2. Estrategia de Recompensa Local . . . . . . . . . . . . . . . . . . 22

3.4. Clasificacion por el Tipo de Escenario Modelado . . . . . . . . . . . . . 23

3.4.1. Escenarios Cooperativos . . . . . . . . . . . . . . . . . . . . . . 23

3.4.2. Escenarios Competitivos . . . . . . . . . . . . . . . . . . . . . . 23

3.5. Por la Estructura del Sistema de Comunicacion en MAS . . . . . . . . 24

3.5.1. Sistemas No Topologicos . . . . . . . . . . . . . . . . . . . . . . 24

3.5.2. Sistemas Topologicos . . . . . . . . . . . . . . . . . . . . . . . . 25

3.6. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4. Estado del Arte 27

4.1. Modelos Formales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.1.1. Modelo de Decision de Markov . . . . . . . . . . . . . . . . . . 28

4.1.2. Modelo Parcialmente Observable de Markov . . . . . . . . . . . 29

4.1.3. Modelo Descentralizado de Control Parcialmente Observado deMarkov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.2. Paradigmas de Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . 31

4.2.1. Independent Learning . . . . . . . . . . . . . . . . . . . . . . . 31

4.2.2. Influence Value Reinforcement Learning . . . . . . . . . . . . . 32

4.3. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5. Propuesta: δ-radius Influence Value Reinforcement Learning 37

XIV Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 15: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

INDICE GENERAL

5.1. Modelo de Comunicacion para MAS . . . . . . . . . . . . . . . . . . . . 37

5.2. Dec-POMDP y δ-radius CM, Un Modelo Formal Completo para MAS . 39

5.3. Modelos de Comunicacion aplicados a Paradigmas de Aprendizaje Clasicos 40

5.3.1. Modelo de Comunicacion para Independent Learning . . . . . . 41

5.3.2. Modelo de Comunicacion para Influence Value ReinforcementLearning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.4. Propuesta: δ-radius Influence Value Reinforcement Learning . . . . . . 42

5.5. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6. Problemas Propuestos 47

6.1. Problema de Convergencia Multiple Coordinada . . . . . . . . . . . . . 48

6.2. Dilema de los Prisioneros . . . . . . . . . . . . . . . . . . . . . . . . . . 50

7. Implementacion: δ-radius Influence Value Reinforcement Learning 53

7.1. Adaptacion de Q-learning para IVRL . . . . . . . . . . . . . . . . . . . 53

7.1.1. Polıticas de Seleccion . . . . . . . . . . . . . . . . . . . . . . . . 54

7.2. Adaptacion de Q-learning para δ-radius IVRL . . . . . . . . . . . . . . 56

7.3. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . 58

8. Resultados Finales 59

8.1. Configuracion de las Pruebas . . . . . . . . . . . . . . . . . . . . . . . . 59

8.1.1. Distribucion de los Agentes y la Aplicacion de δ-radius CM . . . 60

8.2. Problema de Opcion Multiple Coordinada . . . . . . . . . . . . . . . . 61

8.2.1. Analisis de los Resultados . . . . . . . . . . . . . . . . . . . . . 63

8.3. Dilema de los Prisioneros . . . . . . . . . . . . . . . . . . . . . . . . . . 73

8.3.1. Analisis de los Resultados . . . . . . . . . . . . . . . . . . . . . 75

9. Conclusiones y Trabajos Futuros 85

Programa de Maestrıa en Ciencia de la Computacion - UCSP XV

Page 16: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

INDICE GENERAL

Bibliografıa 94

XVI Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 17: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Indice de cuadros

6.1. Anos en Prision por Opciones . . . . . . . . . . . . . . . . . . . . . . . 52

8.1. Valores seleccionados para las pruebas . . . . . . . . . . . . . . . . . . 60

8.2. Cuadro de Valores Asignados al Ejemplo . . . . . . . . . . . . . . . . . 63

8.3. Anos en Prision por Opciones . . . . . . . . . . . . . . . . . . . . . . . 74

XVII

Page 18: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

INDICE DE CUADROS

XVIII Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 19: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Indice de figuras

4.1. Modelo Grafico de Interaccion Agentes-Mundo (Barrios Aranibar y Go-ncalves, 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.1. Paso de Independent Learning a Influence Value Reinforcement Learning- Modelo Unificado δ-Radius Influence Value Reinforcement Learning . 43

6.1. Probabilidad de convergencia para el problema de Convergencia MultipleCoordinada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6.2. Problema de Convergencia Multiple Coordinada . . . . . . . . . . . . 50

6.3. Adaptacion del Problema de Convergencia Multiple Coordinada . . . . 51

7.1. Comparacion entre la probabilidad original (f(n) = n/10) y la dada porSoftmax en base a f(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

7.2. Comparacion entre la probabilidad original (f(n) = en/10) y la dada porSoftmax en base a f(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

8.1. Incremento de δ y su Impacto en la Comunicacion . . . . . . . . . . . . 62

8.2. Grafica de Tendencia a la Convergencia - Ejemplo . . . . . . . . . . . . 62

8.3. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.5 Softmax Value = 0.0 . . . . . . . . . . . . . . . . . 64

8.4. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.75 Softmax Value = 0.0 . . . . . . . . . . . . . . . . 65

8.5. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.75 ß = 0.5 Softmax Value = 0.0 . . . . . . . . . . . . . . . . 65

8.6. Problema de Seleccion Multiple Coordinada,Multiple Coordinada, Con-figuracion : Reward Rate = 0.75 ß = 0.75 Softmax Value = 0.0 . . . . 66

XIX

Page 20: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

INDICE DE FIGURAS

8.7. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.5 Softmax Value = 0.2 . . . . . . . . . . . . . . . . . 67

8.8. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.5 Softmax Value = 0.4 . . . . . . . . . . . . . . . . . 67

8.9. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.5 Softmax Value = 0.6 . . . . . . . . . . . . . . . . . 68

8.10. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.5 Softmax Value = 0.8 . . . . . . . . . . . . . . . . . 68

8.11. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.5 Softmax Value = 1.0 . . . . . . . . . . . . . . . . . 69

8.12. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.75 Softmax Value = 1.0 . . . . . . . . . . . . . . . . 70

8.13. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.75 ß = 0.5 Softmax Value = 1.0 . . . . . . . . . . . . . . . . 70

8.14. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.75 ß = 0.75 Softmax Value = 1.0 . . . . . . . . . . . . . . . 71

8.15. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.75 ß = 0.75 Softmax Value = 0.6 . . . . . . . . . . . . . . . 71

8.16. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.75 Softmax Value = 0.6 . . . . . . . . . . . . . . . . 72

8.17. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.5 ß = 0.75 Softmax Value = 0.8 . . . . . . . . . . . . . . . . 72

8.18. Problema de Seleccion Multiple Coordinada, Configuracion : RewardRate = 0.75 ß = 0.75 Softmax Value = 0.8 . . . . . . . . . . . . . . . 73

8.19. Curvas de recompensa para Dilema del Prisionero . . . . . . . . . . . . 74

8.20. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.5Softmax Value = 0.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

8.21. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 ß = 0.5Softmax Value = 0.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

8.22. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.75Softmax Value = 0.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

8.23. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 ß = 0.75Softmax Value = 0.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

XX Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 21: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

INDICE DE FIGURAS

8.24. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.5Softmax Value = 0.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

8.25. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.5Softmax Value = 0.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

8.26. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.5Softmax Value = 0.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

8.27. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.5Softmax Value = 0.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

8.28. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.5Softmax Value = 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

8.29. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.75Softmax Value = 0.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

8.30. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.75Softmax Value = 0.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

8.31. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.75Softmax Value = 0.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

8.32. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.75Softmax Value = 0.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

8.33. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 ß = 0.75Softmax Value = 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

9.1. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.5Softmax Value = 0.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

9.2. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.5Softmax Value = 0.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

9.3. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.5Softmax Value = 0.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

9.4. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.5Softmax Value = 0.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

9.5. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.5Softmax Value = 0.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

9.6. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.5Softmax Value = 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Programa de Maestrıa en Ciencia de la Computacion - UCSP XXI

Page 22: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

INDICE DE FIGURAS

9.7. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.75Softmax Value = 0.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

9.8. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.75Softmax Value = 0.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

9.9. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.75Softmax Value = 0.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

9.10. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.75Softmax Value = 0.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

9.11. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.75Softmax Value = 0.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

9.12. Dilema de los Prisioneros Configuracion : Reward Rate = 0.5 β = 0.75Softmax Value = 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

9.13. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.5Softmax Value = 0.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

9.14. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.5Softmax Value = 0.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

9.15. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.5Softmax Value = 0.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

9.16. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.5Softmax Value = 0.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

9.17. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.5Softmax Value = 0.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

9.18. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.5Softmax Value = 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

9.19. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.75Softmax Value = 0.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

9.20. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.75Softmax Value = 0.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

9.21. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.75Softmax Value = 0.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

9.22. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.75Softmax Value = 0.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

9.23. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.75Softmax Value = 0.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

XXII Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 23: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

INDICE DE FIGURAS

9.24. Dilema de los Prisioneros Configuracion : Reward Rate = 0.75 β = 0.75Softmax Value = 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

9.25. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.5 Softmax Value = 0.0 . . . . . . . . . . . . . . . . . . 122

9.26. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.5 Softmax Value = 0.2 . . . . . . . . . . . . . . . . . . 123

9.27. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.5 Softmax Value = 0.4 . . . . . . . . . . . . . . . . . . 124

9.28. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.5 Softmax Value = 0.6 . . . . . . . . . . . . . . . . . . 125

9.29. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.5 Softmax Value = 0.8 . . . . . . . . . . . . . . . . . . 126

9.30. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.5 Softmax Value = 1.0 . . . . . . . . . . . . . . . . . . 127

9.31. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.75 Softmax Value = 0.0 . . . . . . . . . . . . . . . . . 128

9.32. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.75 Softmax Value = 0.2 . . . . . . . . . . . . . . . . . 129

9.33. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.75 Softmax Value = 0.4 . . . . . . . . . . . . . . . . . 130

9.34. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.75 Softmax Value = 0.6 . . . . . . . . . . . . . . . . . 131

9.35. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.75 Softmax Value = 0.8 . . . . . . . . . . . . . . . . . 132

9.36. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.5 β = 0.75 Softmax Value = 1.0 . . . . . . . . . . . . . . . . . 133

9.37. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.5 Softmax Value = 0.0 . . . . . . . . . . . . . . . . . 134

9.38. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.5 Softmax Value = 0.2 . . . . . . . . . . . . . . . . . 135

9.39. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.5 Softmax Value = 0.4 . . . . . . . . . . . . . . . . . 136

9.40. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.5 Softmax Value = 0.6 . . . . . . . . . . . . . . . . . 137

Programa de Maestrıa en Ciencia de la Computacion - UCSP XXIII

Page 24: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

INDICE DE FIGURAS

9.41. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.5 Softmax Value = 0.8 . . . . . . . . . . . . . . . . . 138

9.42. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.5 Softmax Value = 1.0 . . . . . . . . . . . . . . . . . 139

9.43. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.75 Softmax Value = 0.0 . . . . . . . . . . . . . . . . . 140

9.44. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.75 Softmax Value = 0.2 . . . . . . . . . . . . . . . . . 141

9.45. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.75 Softmax Value = 0.4 . . . . . . . . . . . . . . . . . 142

9.46. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.75 Softmax Value = 0.6 . . . . . . . . . . . . . . . . . 143

9.47. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.75 Softmax Value = 0.8 . . . . . . . . . . . . . . . . . 144

9.48. Problema de Seleccion Multiple Coordinada Configuracion : Reward Ra-te = 0.75 β = 0.75 Softmax Value = 1.0 . . . . . . . . . . . . . . . . . 145

XXIV Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 25: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Capıtulo 1

Introduccion

Los Multi-Agent System o Sistemas Multi-Agente (MAS), como sistemas colec-tivos autonomos, han visto su aplicacion directa en diversas areas de la investigacion,teniendo como foco el estudio de los fenomenos de cooperacion, coordinacion y compe-tencia (Whitehead, 1991) (Yoav Shohan, 2007) (Barrios-Aranibar y Goncalves, 2007)(Panait y Luke, 2005). Sin embargo, su aplicacion se ha visto restringida por diversosfactores; siendo uno de los principales los costos de comunicacion.

En la actualidad el framework que prima el trabajo con MAS es el basado en elDecentralized Partial Observable Markov Decision Process (Dec-POMDP) (Bernsteinet al., 2002) (Amato et al., 2013) . Este framework postula un modelo de comunica-cion global, en el cual todos los agentes tienen una relacion directa e intrınseca consus semejantes. Esto ocurre en diferentes casos de la literatura; tanto en paradigmascomo algoritmos puntualmente propuestos (Junmin y Jinsha, 2014) (Peng et al., 2014)(Barrios-Aranibar y Goncalves, 2007) (Pini et al., 2013) .

En muchos casos, aun cuando no es mencionado, se ha de sobre entender que eluso de comunicacion entre agentes es generalizado o global. Es esta brillante solucion,la que ha permitido la masificacion de aplicaciones. Sin embargo, acarrea tambien unproblema de concepcion y genera la gran pregunta: ¿Deberıan todos los agentes podercomunicarse?

En base a esta pregunta se postula en el presente documento un nuevo paradigmade comunicacion para MAS: δ-radius IVRL : Paradigma de Integracion de Aprendizajepor Refuerzo en Sistemas Multi-Agente. La presente propuesta postula un modelo decomunicacion δ-radius Communication Model (δ-radius CM), el cual permite establecerformalmente las restricciones de la comunicacion entre agentes.

1

Page 26: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

1.1. Motivacion y Contexto

1.1. Motivacion y Contexto

Desde su concepcion, los MAS han visto su foco de investigacion en la pruebade convergencia hacia soluciones optimas; es ası que durante los ultimos anos se handesarrollado diferentes propuestas para diversos casos especıficos (Li et al., 2015) (Fenget al., 2015) (Wen et al., 2016) (Hu y Wellman, 2003) (Quinonez et al., 2012) (Junminy Jinsha, 2014) (Ma et al., 2015) (Panait y Luke, 2005) (Littman, 1994). En cada unode los cuales se ha demostrado la capacidad de los MAS para establecer puntos deconvergencia bajo diferentes enfoques como Pareto Optimalidad, Equilibrio de Nasho esquemas de equilibrio sub-optimas,etc. (Neumann y Morgenstern, 1944) (Wang ySandholm, 2002).

Sin embargo, la garantıa de convergencia esta sujeta a condicionamientos y/orestricciones de los modelos usados (Panait y Luke, 2005); por lo cual existe tambienuna necesidad por establecer las bases o buenas practicas para el modelamiento de losMAS (Yoav Shohan, 2007) (Gordon, 2007). Estas buenas practicas permiten determinarque modelos y/o tecnicas deben ser empleadas para dar solucion al problema conun modelo basado en MAS. En estos casos es generalmente requerido el uso de lacomunicacion entre agentes para modelar sistemas coordinados. Es en el desarrollo desistemas coordinados donde se ha de focalizar la presente investigacion.

Por medio del modelamiento formal de los MAS surge la nocion de comunica-cion. Inmediatamente, la necesidad de establecer un modelo de comunicacion surge dela naturaleza de acciones especıficas que requieran coordinacion, ello a fin de lograrun objetivo comun para los agentes involucrados; en general se puede entender porcomunicacion en MAS a:

“La capacidad de los agentes de transmitir y recibir informacion de otros agentes queinvolucre parte o el total de la informacion de sus estados internos que son relevantes

para tomar una decision coordinada”.

El problema de comunicacion como tal surge al enfrentar las necesidades de ex-ploracion del estado interno de cada agente en el sistema por parte de sus semejantes.Ası que ante cada iteracion del sistema, sea de entrenamiento o de consulta al sistema,los agentes deberan explorar a sus semejante a fin de obtener la informacion que lespermita coordinar. Una operacion que en si misma conlleva a un costo computacionalde orden nn, bajo los sistemas actuales.

Ante esta problematica, la naturaleza exponencial de la comunicacion, surgenmetodos basados en esquemas topologicos de comunicacion (Bernstein et al., 2002)(Quinonez et al., 2012) (Abdallah y Lesser, 2007). Los modelos topologicos han derestringir el espacio de comunicacion de cada agente a un entorno especıfico y limitado;por ejemplo, sus adyacentes directos; ello bajo la nocion de un entorno geografico orelaciones por afinidad. En consecuencia se ha de conseguir la reduccion del espacio decomunicaciones.

2 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 27: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 1. Introduccion

Aun cuando el uso de modelos topologicos ha servido para realizar trabajos espe-cıficos no se ha conseguido unificar su desarrollo bajo un mismo modelo o paradigma.La presente investigacion busca unificar los modelos de comunicacion mediante el usode una notacion consistente y flexible a la definicion de diferentes problemas. Del mismomodo se ha logrado unificar bajo un mismo paradigma las dos vertientes existentes en elactual estado del arte: Independet Learning (Russell y Norvig, 2009) (Barrios-Aranibary Goncalves, 2007) e Influence Value Reinforcement Learning (IVRL) (Barrios Arani-bar y Goncalves, 2009).

1.2. El Problema

Con base a la descripcion del panorama actual de MAS, se puede establecer queel problema de complejidad hace referencia a la complejidad de interconexion o relacionentre los agentes. Un problema planteado en la propia naturaleza de MAS, haciendoreferencia directa a multi en MAS (Panait y Luke, 2005). Un problema que se puedetornar insostenible conforme el numero de agentes aumenta y se requiere respuestaen tiempo real (Peng et al., 2014) (Steeb et al., 1988) (Royer y Toh, 2002) (Boyan yLittman, 1994) (Weihmayer y Brandau, 1990).

Respecto a este punto es necesario resaltar que en MAS existen dos niveles decomplejidad algorıtmica. El primero esta referido a la complejidad del algoritmo deaprendizaje utilizado para entrenar cada agente y el segundo se refiere a la complejidaddel sistema de comunicacion y/o coordinacion entre los agentes. Siendo este ultimo elpunto clave en el cual la naturaleza exponencial del problema se torna insostenible.

El problema de comunicacion descrito se torna notable en el estado del arte atravez de las diferentes implementaciones que existen a algoritmos propuestos; en loscuales se ha aceptado el coste total de comunicacion como parte natural de la solucion.Estas propuestas suelen estar agrupadas como sistemas topologicos, se ha de extendersu discusion en el capıtulo 3.

Existen tambien algunas propuestas originales que se enfocan en la comunica-cion; sin embargo, estas propuestas suelen estar orientadas a la solucion de problemasespecıficos. Una vista amplia del problema nos ha de permitir bosquejar las diversasfalencias de las propuestas actuales.

Joint Action Learning (JAL) (Banerjee y Sen, 2007) (De Hauwere et al., 2010);es un algoritmo comunmente usado en sistemas que requieren de coordinacion. Ello sedebe a que JAL propone que cada agente en el sistema debe tener un modelo internode creencias referente al comportamiento de los otros agentes en el sistema.

Aun cuando JAL es una propuesta aplicada en MAS, esta atenta directamentecontra uno de los fundamentos de los MAS; un MAS es no determinista. El uso de unarepresentacion interna de los estados internos ajenos busca establecer una proximidadcon los modelos deterministas. Si bien esto no ha de ser posible con el solo uso de JAL,

Programa de Maestrıa en Ciencia de la Computacion - UCSP 3

Page 28: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

1.2. El Problema

ha logrado desvirtuar la naturaleza propia del problema.

Por otro lado tenemos la presencia de propuestas basadas en la adaptacion oacondicionamiento del comportamiento propio. Estas propuestas suelen estar enfocadasen el comportamiento de la comunidad de agentes como un todo; una caracterısticaque debe resaltar en todo modelo o algoritmo para MAS. Sin embargo, muchas de estaspropuestas son expuestas como modelos semejantes a enjambres (Pini et al., 2013) (Liet al., 2004) o estan relacionadas al uso de un guıa (Junmin y Jinsha, 2014). Estecaso especial no ha de desvirtuar directamente la naturaleza de los MAS, pero si hade condicionar y restringir el abanico de posibles comportamientos que los agentespodrıan llegar a desarrollar. Debido a esto, estas propuestas han sido dejadas de ladoen la presente propuesta.

IVRL es una propuesta basada en la comunicacion global de los agentes, es decir,cualquier accion tomada por un agente ha de ser comunicada a sus semejantes. Estapropuesta representa, en cuanto a comunicacion, el panorama general de la globali-zacion o apertura total de comunicacion. Puntualmente IVRL define una variable deopinion la cual busca contabilizar las acciones ejecutadas por los agentes. La opinion hade permitir la convergencia del sistema por una auto-regulacion interna de los agentes,ya que son los propios agentes los que generan esta variable.

IVRL trata de manera original el sistema de comunicacion en cuanto al conteni-do del mensaje transmitido. Generalmente en MAS, se suele comunicar el estado delmundo descubierto por los agentes; ello con la finalidad de enriquecer el conocimientode los semejantes en cuanto a aquello que podrıan aun no conocer. Una caracterısticaque resalta en frameworks como Dec-POMDP (Guestrin et al., 2002) (Amato et al.,2013); sin embargo, IVRL ha de cambiar esta perspectiva, permitiendo que cada agentedescubra por si mismo el mundo. Este aporte permite consolidar la independencia delos agentes.

Una propuesta contraria a las expuestas hasta el momento es Independent Lear-ning (IL) (Busoniu et al., 2008) (Barrios-Aranibar y Goncalves, 2007). Esta propuestarechaza la interaccion directa entre agentes en un medio compartido; creando una ba-rrera e imposibilitando cualquier definicion de comunicacion. Aun cuando la propuestaes contraria a las demas, no ha de representar directamente ninguna contradiccion oincompatibilidad con los MAS.

Finalmente, tras analizar el conjunto de propuestas existentes en el actual estadodel arte, se ha decidido trabajar con IL e IVRL como bases para el modelamientode un sistema de comunicacion variable. Y se ha de rescatar el modelo formalizado deinteraccion mundo-agente propuesto por Dec-POMDP. Ello se debe a que Dec-POMDPtiene la representacion formal para MAS mas completa actualmente. Esto ha de serdetallado a profundidad en el capıtulo 4.

4 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 29: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 1. Introduccion

1.3. Propuesta

El tratamiento de la presente propuesta se ha de ver enfocado inicialmente endiferenciar dos posturas opuestas en MAS, cada una representada por un paradigmade aprendizaje para MAS diferente.

IL plantea una independizacion total de la influencia de los agentes en el mediopara con sus semejantes; es decir, ignorar la consecuencia de sus actos y ha de tratarloscomo eventos fortuitos del ambiente. Una realidad que ha de ser detallada en el capıtulo5.

De forma contraria a IL, IVRL expone un sistema de comunicacion global, bajo elcual, cada agente en el sistema se ha de ver influenciado por cada uno de sus semejantes.Una propuesta ambiciosa que busca describir y englobar el actual estado del arte. Sinembargo y como ya fue mencionado, ello ha de conllevar un alto costo computacionalque limita su uso a entornos de baja escala.

Es ası que el paradigma propuesto ha de integrar IL e IVRL, con la finalidad demantener caracterısticas deseables de cada paradigma y establecer modelos intermediosque puedan satisfacer las necesidades de convergencia de diferentes problemas.

1.4. Objetivo y Aportes

En base a la descripcion previa se establece como puntos clave para la presentetesis el desarrollo de los objetivos principales y en consecuencia de los mismos lascontribuciones secundarias.

Objetivo Principal

Planteamiento y desarrollo de δ-radius CM. Un modelo integrado de comunica-cion que permita la regulacion y acondicionamiento de comunicacion a los reque-rimientos del problema.

Aportes Secundarios

La Integracion del modelo de comunicacion propuesto, δ-radius CM a los modelosactuales del mundo-agentes, Dec-POMDP. En consecuencia se ha de tener unmodelo completo que represente tanto el entorno de los agentes como su sistemade interrelacion.

Con base en δ-radius CM desarrollar el paradigma unificado de aprendizaje porrefuerzo para MAS basado en la comunicacion adaptable entre agentes.

Mostrar la influencia directa que ejerce la comunicacion en la capacidad de con-vergencia de los MAS.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 5

Page 30: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

1.5. Publicaciones y Contribuciones al Estado del Arte

Desarrollo de un esquema taxonomico para MAS.

Desarrollo de los modelos actuales de MAS y su analisis en cuanto a la relacionexisten entre la definicion del mundo( problema planteado ) y los agentes en el.

Analisis y adaptacion de problemas de coordinacion a un entorno MAS.

Adaptacion de Q-Learning al paradigma integrado δ-radius Influence Value Rein-forcement Learning (δ-radius IVRL).

1.5. Publicaciones y Contribuciones al Estado del

Arte

Producto del desarrollo de la presente se ha conseguido aportar al estado del artecon la publicacion de:

δ-Radius Unified Influence Value Reinforcement Learning (Camargo Monroy, J.Alejandro and Barrios-Aranibar, Dennis, 2016) como parte de la Distributed Com-puting and Artificial Intelligence, 13th International Conference.

Este trabajo muestra el desarrollo inicial del modelo para el sistema de comuni-cacion, propuesto como δ-radius CM, y su integracion a Dec-POMDP.

En el, tambien se desarrolla la implementacion del paradigma propuesto en latesis como el algoritmo unificado δ-radius IVRL, una propuesta que resulta serel caso especıfico usado para las pruebas del paradigma.

Finalmente, se da un primer analisis del Dilema del Prisionero, con una configu-racion diferente a la usada en la tesis; por cuanto se tomaron en cuenta diferentesfactores como las curvas de recompensa y la configuracion de las tasas de explo-racion y aprendizaje usadas. Ello se debe a que en principio, este analisis buscabaresaltar la capacidad de la comunicacion para influenciar en la convergencia delsistema; dejando como factores secundarios la tasa de aprendizaje y la aleatorie-dad de la polıtica de seleccion en la etapa de aprendizaje.

En esta publicacion se exponen los resultados experimentales iniciales, en conse-cuencia de dichas pruebas se demostraria la variacion del comportamiento en MAS concomunicacion , ello serviria de base para el desarrollo de la propuesta final de la tesis.

1.6. Organizacion de la Tesis

Los siguientes capıtulos han de desarrollar factores diferentes y bien diferenciados,que en conjunto han de componer la propuesta final de tesis. Es por ello que se ha demencionar el aporte principal de cada uno de los capıtulos:

6 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 31: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 1. Introduccion

En el capıtulo 2, se ha de desarrollar el marco teorico referido a nociones basicasen teorıa de agentes. Ello con un enfoque restringido a la definicion de un unicoagente en un entorno o sistema mono agente. Se detalla la definicion de entornoy su relacion con el agente.

El capıtulo 3 ha de completar la descripcion realizada en el capıtulo 2 con eldesarrollo de los esquemas taxonomicos para MAS o clasificacion de MAS bajodiferentes enfoques. Esto ha de permitir entender cual es la diferencia entre lasdistintas propuestas actuales sin necesidad de puntualizar casos especıficos.

El capıtulo 4 se divide en 2 secciones bien diferenciadas, la primera muestralas diferentes representaciones que se han dado para MAS a partir del MarkovDecision Process (MDP). Mediante este marco teorico se puede establecer ladiferencia entre un MAS real y una simulacion de MAS; teniendo como principaldiferencia el respeto por la independencia de los agentes y el uso de una definicionformal de un entorno no determinista.

La segunda seccion se enfoca en desarrollo de los paradigmas de aprendizaje paraMAS: IL y IVRL, ambos representan propuestas opuestas en el desarrollo delaprendizaje por refuerzo para MAS con base en la influencia de los agentes conlos que se comparte el entorno.

El capıtulo 5 ha de desarrollar la propuesta de la presente tesis: El Paradigmade Integracion de Aprendizaje por Refuerzo en Sistemas Multi-Agente: δ-radiusIVRL.

Este nuevo paradigma de aprendizaje para MAS ha de permitir la variacion yacondicionamiento de la comunicacion para mejorar el desempeno de los MASacorde a las necesidades de los problemas planteados.

Se han propuesto los problemas: Problema de Seleccion Multiple Coordinada yDilema del Prisionero como parte del capıtulo 6. Estos problemas representan 2problematicas basicas que deben ser resueltas por MAS. El desarrollo innato deuna capacidad de coordinacion y la posibilidad de condicionar el comportamientoindependiente de los agentes en beneficio de sistema en total. Este ultimo puntoha de dar origen a una de las caracterısticas mas resultantes de la propuesta: lacapacidad de alterar el comportamiento independiente entre 2 puntos diferentesde convergencia opuestos.

El capıtulo 7 desarrolla la implementacion de la propuesta y su puesta en escenapara desarrollar los problemas propuestos, esta se ha de basar en la adaptacionde Q-Learning.

Finalmente se han de presentar los resultados y el trabajo a futuro en el capıtulo8. Se puede adelantar que los resultados se han de dar en consecuencia de 2 puntosclave; el primero relacionado al desarrollo de los modelos formales descritos en elcapıtulo 4 y la puesta en escena del paradigma propuesto.

Los resultados relacionados directamente al paradigma presentado se han de basaren los resultados de los experimentos expuestos tambien en este capıtulo.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 7

Page 32: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

1.6. Organizacion de la Tesis

8 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 33: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Capıtulo 2

Marco Teorico

A fin de tener un fundamento teorico sobre el cual basar el desarrollo del contenidode las bases y contenido propio de la propuesta; se ha dispuesto el desarrollo del presentecapıtulo para permitir extender una discusion inicial sobre algunos conceptos basicosdel area. De esta forma, previo al desarrollo de la presente investigacion se ha de realizarla definicion de algunos terminos, los cuales han de ser usados a futuro como base parala definicion formal de los modelos formales para MAS, capıtulo 4, y la propuesta,capıtulo 5.

Los terminos destacados para ser desarrollados en el presente capıtulo son:

Concepto de Inteligencia Artificial (IA)

Concepto de Agente

Concepto de Entorno

Hay que tener a consideracion que cada uno de estos puntos han de ser desarro-llados con un enfoque especıfico a la presente investigacion.

2.1. Concepto de Inteligencia Artificial, breve dis-

cusion sobre su correcto enfoque

En el estado del arte existen diferentes enfoques para definir la Inteligencia Artifi-cial, sin embargo se ha decidido seguir la propuesta dada por Russell y Norving (Russelly Norvig, 2009). Este propuesta busca explicar el concepto de IA desde 4 corrientes depensamiento:

1. Sistemas que piensan como humanos:

9

Page 34: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

2.1. Concepto de Inteligencia Artificial, breve discusion sobre su correcto enfoque

“El nuevo y excitante esfuerzo de hacer que los computadores piensen . . .maquinas con mentes, en el mas amplio sentido literal” (Haugeland, 1985)

“[La autorizacion de] actividades que vinculamos con procesos de pensamien-to humano, actividades como la toma de decisiones, resolucion de problemas,aprendizaje. . . ” (Bellman, 1978)

2. Sistemas que piensan racionalmente

“El estudio de las facultades mentales mediante el uso de modelos compu-tacionales” (Charniak y McDermott, 1985)

“El estudio de los calculos que hacen posible percibir, razonar y actuar”(Winston, 1992)

3. Sistemas que actuan como humanos

“El arte de desarrollar maquinas con capacidad para realizar funciones quecuando son realizadas por personas requieren de inteligencia” (Kurzweil,1990)

“El estudio de como lograr que los computadores realicen tareas que, por elmomento, los humanos hacemos mejor” (Elaine Rich y Nair, 2009)

4. Sistemas que actuan racionalmente

“La IA es el estudio del diseno de agentes inteligentes” (David Poole y Goe-bel, 1998)

“IA . . . esta relacionada con conductas inteligentes en artefactos” (Nilsson,1998)

“El campo de estudio que busca explicar y emular el comportamiento inte-ligente en terminos de procesamiento computacional” (Schalkoff, 1990)

“El area de la ciencia de la computacion a la cual le concierne la automati-zacion del comportamiento inteligente” (Luger y Stubblefield, 1993)

Finalmente se tiene tambien la definicion descrita por la prueba de Turing (Oppyy Dowe, 2016), esta fue disenada para proveer un concepto operacional de IA tal que:

“El comportamiento inteligente (en la IA) es aquella habilidad, que reside anivel de comportamiento humano, en toda tarea cognitiva para enganar a un interro-gador(humano)”

Es posible extender la discusion sobre la concepcion de IA y cual es el enfoquemas adecuado para tratar con ella en todas las areas, sin embargo, para la presenteinvestigacion se ha de optar unicamente por el enfoque centrado en actuar racional-mente. A fin de no ahondar en discusion se han de detallar brevemente los motivos porlos cuales se toma este enfoque.

Es posible descartar los enfoques que hacen referencia al pensamiento y actuarhumano, por cuanto muchas tecnicas actualmente consideradas en la rama de IA no

10 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 35: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 2. Marco Teorico

buscan o tienen relacion alguna con esto. Es claro el ejemplo de algoritmos de enjambres,en los cuales se busca representar el comportamiento inteligente de una comunidad deinsectos; un factor desvinculante suficiente para descartar ambos enfoques de IA. Enconsecuencia, los unicos enfoques posibles a ser tomados son el pensar racionalmente oactuar racionalmente.

En cuanto al “pensar racionalmente” podrıa ser algo que encaje mejor en lo quese busca definir; sin embargo, el pensamiento es un concepto muy elevado para la pobreimitacion que actualmente se concibe en el marco de la IA. Si bien se puede simularun comportamiento inteligente, de ningun modo se puede afirmar que ello tenga unproceso de razonamiento real como trasfondo.

Es claro que el comportamiento“inteligente”en IA es el resultado de procedimien-tos secuenciales, una simulacion del pensamiento, sin pensar realmente. Ası, finalmen-te, el actuar racionalmente calza perfectamente el concepto de IA. Actuar y efectuaroperaciones que son aparentemente racionales, pero que internamente son procesossecuenciales que no necesariamente requieran de razonamiento, pero si de calculo.

2.2. Concepto de Agente

Una vez determinado el enfoque de IA, es necesario entender cual serıa su apli-cacion directa en la investigacion; siendo un agente inteligente el ente contenedor de laIA.

Formalmente un agente es una entidad independiente compuesta por :

Instrumentos Sensoriales

Actuadores

Nucleo Logico (Inteligencia Artificial)

2.2.1. Instrumentos Sensoriales

Los instrumentos sensoriales en un agente hacen referencia a todo modo en elcual un agente puede percibir su entorno. Estos instrumentos pueden ser mas o menoscomplejos dependiendo del problema.

Por ejemplo, en caso un agente necesite interactuar con un tablero virtual deajedrez, este solo ha de requerir de la informacion relacionada a la configuracion deltablero. Ası, el unico sensor requerido por el agente serıa una funcion de lectura quele de las posiciones de las fichas.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 11

Page 36: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

2.2. Concepto de Agente

Por otro lado; problemas mas complejos, como la implementacion de un robotde rescate, requeriran de sensores mas complejos. En el caso de un robot de rescatepodrıan requerirse sonares, camaras, receptores de calor, etc.

2.2.2. Actuadores

La definicion de un actuador para un agente esta estrechamente relacionado conlas capacidades que se le deseen otorgar y como estas influencian en su entorno.

Continuando con los ejemplos propuestos; en el caso del ajedrez virtual, bastaracon colocar como actuador una funcion (programa) que posibilite el mover las piezas deltablero. Caso seguido, un robot de rescate podrıa requerir multiples herramientas paradesarrollar su trabajo, entre las cuales se podrıan numerar: un sistema de movilizacion,brazos manipuladores, un sistema de alerta y sonidos, etc.

A diferencia del sistema sensorial, los actuadores, han de permitir al agente mo-dificar su entorno. Es importante remarcar ello, ya que la modificacion del entornoconstituye uno de los grandes problemas de los MAS. Esta problematica ha de serdesarrollada en el capıtulo 4.

2.2.3. Nucleo Logico

Como se definio previamente, la IA es el comportamiento racional del agente.Este nucleo de IA es, para el agente, el conocimiento artificial y el conjunto necesariode algoritmos para enriquecerlo e interpretarlo.

La parte logica de un agente es la parte encargada de procesar toda la informa-cion obtenida para emitir un juicio, una accion o una respuesta. Este proceso puedeser llevado a cabo de diferentes formas, algunas de las cuales se han de mencionar acontinuacion para ejemplificar el concepto:

2.2.3.1. Aprendizaje por Refuerzo

Reinforcement Learning (RL) es una tecnica de IA que busca modelar un proble-ma como un mapeo de situaciones a acciones (Sutton y Barto, 1998); en este enfoque elagente es considerado como un aprendiz situado en un ambiente especıfico, con reglasy restricciones propias. El agente puede recorrer o alterar el ambiente en el cual seencuentra a travez de acciones, las cuales han de traer consecuencias directas al alterarel ambiente y el estado del aprendiz, esta alteracion es cualificada de forma numericay se convierte en la recompensa del agente por efectuar la accion seleccionada.

El aprendizaje por refuerzo no se ha de definir por las tecnicas usadas para sudesarrollo, sino por la definicion del problema de aprendizaje (Sutton y Barto, 1998),

12 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 37: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 2. Marco Teorico

en ese sentido se puede utilizar cualquier tecnica que permita modelar un sistema deestados-accion.

Tambien se puede definir el aprendizaje por refuerzo como el problema enfrentadopor un agente que debe aprender cual debe ser su comportamiento mediante prueba yerror en interaccion dinamica con su entorno (Kaelbling et al., 1996).

Tradicionalmente se establecıa en el area de RL a los algoritmos geneticos comotambien la programacion evolutiva (Kaelbling et al., 1996), por cuanto se considerabaque ambos hacian una busqueda del comportamiento que debıa llevar el agente dentrode su entorno, sin embargo esta busqueda es de prueba y error a un nivel global delcomportamiento del agente, ya que este no realizaba la exploracion en si, este modelopodrıa servir muy bien para la generacion de rutas de exploracion pero no como lageneracion misma del comportamiento.

Los modelos tratados por el presente como RL, estan basados en esquemas deri-vados de MDP (Bellman, 1957) (Bernstein et al., 2002) (Littman, 1994) , formalmenteun MDP esta compuesto por una 5-tupla (S,A, P (∗, ∗), R(∗, ∗), γ), tal que:

Definicion 1 Modelo de un agente para un MDP.

S es un conjunto finito de estados.

A es un conjunto finito de aciones, As asociada al estado s, s ε S.

Pa(s, s′) = Pr(st+1 = s′ st) es la probabilidad que la accion a en el estado s en

un tiempo t llegue a un estado s′ en un tiempo t+ 1.

Ra(s, s′) es la recompensa inmediata (o esperada) por el paso de un estado s a

un estado s′.

γ ε [0,1], es el factor de descuento de las siguientes recompensas respecto a laactual.

Es bajo este esquema que se puede representar el entorno del agente en funcionde estados, los mismos que son transitorios para el agente y pueden ser recorridos pormedio de su toma de acciones, el problema esta en encontrar una polıtica de transicionque permita al agente desplazarse sobre los estados de forma tal que a lo largo de surecorrido y/o al final del mismo se pueda maximizar la recompensa obtenida, la formade resolver este problema recae en las diferentes tecnicas de RL aplicadas como Q-Learning (Watkins y Dayan, 1992), Sarsa (Rummery y Niranjan, 1994), Aprendizajede diferencias temporales (Sutton y Barto, 1998), etc.

Como se menciono, de ellas es posible decir que se busca encontrar la polıticaP de transicion entre estados que optimice la recompensa del agente, sin embargo laforma de tratamiento en cada caso es diferente, pero se puede reducir siempre al modeloMDP.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 13

Page 38: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

2.3. Concepto de entorno

2.2.3.2. Aprendizaje Supervisado

El aprendizaje supervisado, puede ser visto como la generacion de una aproxima-cion a valores deseados a partir de una variable de la cual se ha de depender, es decir,corresponde a la aproximacion de una funcion f(x) a un conjunto de valores Y asocia-dos a la variable x, de este modo se pude considerar en esta rama a toda aproximacionmatematica de funciones.

Computacionalmente, es usado para poder predecir por medio del calculo cualserıa la respuesta de un sistema frente a un conjunto de entrada determinado, en estesentido se habla tambien de aproximacion, pero no en un enfoque matematico puro,sino en el entrenamiento basado en conjuntos de entrada y salidas optimas o reales,las cuales han de servir para poder modelar aproximaciones para casos intermediosno conocidos; entre los modelos que corresponden a esta definicion tenemos las redesneuronales (Lippmann, 1988), arboles de decision (Rokach y Maimon, 2008), supportvector machine (Quinlan, 1986) (Tong y Koller, 2002),etc.

2.2.3.3. Aprendizaje no Supervisado

El problema de aprendizaje en el ambito no supervisado se encuentra en encontrarla relacion intrınseca que yace entre los elementos de un grupo de datos que se deseanprocesar; en este caso a diferencia del aprendizaje por refuerzo o el supervisado, noexiste un parametro de retorno como recompensa o margen de error que permitan rea-lizar un re-ajuste de la estructura de procesamiento, por lo cual es necesario establecernuevos parametros que permitan estimar la correctitud del proceso de aprendizaje.

Los mapas auto-organizados son un conjunto de algoritmos que ejemplifican per-fectamente el aprendizaje no supervisado. Los algoritmos de mapas auto-organizadosson aquellos que buscan establecer relacion entre elementos dispersos en el espacio deentrenamiento, para formar con ello agrupaciones sobre el mismo que permitan ex-plorar a los elementos como agrupaciones con caracterısticas comunes. En este puntose pueden mencionar las diferentes tecnicas de clustering como K-means (Hartigan yWong, 1979) o variantes como BFR Clustering (Bradley et al., 1998), clustering je-rarquico (Defays, 1977), el algoritmo BIRCH (Zhang et al., 1996), etc. En este puntotambien se pueden considerar los algoritmos de reconocimiento de patrones a nivel nosupervizado, como aquellos usados para el procesamiento de senales tales como BlindSignals separations (Jung et al., 2000) (Acharyya y Ham, 2007).

2.3. Concepto de entorno

Dada la definicion de un agente como un ente inteligente e independiente, serequiere posicionarlo en un ambiente que le permita desenvolverse, dicho ambiente hade ser su entorno.

14 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 39: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 2. Marco Teorico

La definicion de un entorno para un agente ha de limitar de forma directa suscapacidades, ello debido a que es el agente quien se ha de regir por las limitaciones delambiente. Del mismo modo, se ha de definir un problema u objetivo a ser alcanzado,ello dentro de las capacidades del agente y las limitaciones del entorno. Ambos, elentorno y el problema han de componer el mundo del agente.

En consecuencia se ha de ampliar el concepto de agente relacionandolo ıntima-mente con el ambito al cual pertenece.

Definicion 2 Un agente es un mecanismo computacional que exige un alto grado deautonomıa en la ejecucion de acciones dentro del ambiente al cual pertenece, ello enbase a la informacion que recibe del mismo. (Panait y Luke, 2005)

A diferencia del concepto previamente dado, el agente ahora esta situado a unambiente al cual pertenece ıntimamente, esta variacion es necesaria para la concepcionde un MAS ya que en adelante el agente ha de interactuar no solo con su entorno, sinoque tambien ha de hacerlo con otros agentes que co-existen en el, es ası que se puededefinir un MAS como aquel sistema donde hay MAS de un agente, en el cual ellos puedeninteractuar entre si, y con el entorno, y donde a su vez existen restricciones naturalesque impiden que cada agente conozca todo el ambiente en un momento determinado,lo cual incluye los estados internos de los demas agentes (Panait y Luke, 2005).

Finalmente, el mundo para un agente es la representacion del problema a sersuperado y a su vez, es tambien la representacion conceptual de su entorno. Ambosaspectos, el problema y el entorno, han de ser representados en el mundo a travez demodelos formales. Dada la extension y relevancia que tienen los modelos formales delmundo para la presente investigacion, se ha de extender su definicion en el capıtulo 4.

2.4. Consideraciones Finales

Es necesario puntualizar que el desarrollo de conceptos se ha focalizado en sufutura extension y aplicacion de los paradigmas de comunicacion de MAS, capıtulo 5.

De este modo, los conceptos presentados permiten al lector bosquejar un conceptode agente independiente en un mundo determinista, un concepto que ha de ser extendidoa una comunidad de agentes en el capıtulo 4.

Existe una marcada diferencia entre los Sistemas Mono-Agente y los MAS, estase ha de hacer notable conforme se desarrolla el presente documento. Sin embargo sepuede puntualizar que dicha diferencia yace en el Modelo del Mundo y la relacion einteraccion de los agentes en este mundo compartido.

La definicion de MAS se ha de extender en el capıtulo 3 . En este se ha depoder entender mejor la clasificacion de los MAS dependiendo de sus caracterısticas

Programa de Maestrıa en Ciencia de la Computacion - UCSP 15

Page 40: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

2.4. Consideraciones Finales

principales, la forma en la cual los agentes adquieren conocimiento, el condicionamientoque tiene el mundo y el tipo de comunicacion presente en su implementacion.

16 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 41: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Capıtulo 3

Esquemas Taxonomicos para MAS

De forma similar al desarrollo del capıtulo 2; en el presente capıtulo se busca desa-rrollar la teorıa basica de los MAS en base a su clasificacion y taxonomıa. Este trabajoes importante pues ha de servir para comprender mejor el porque de la propuesta, asıcomo tambien la descripcion de los modelos para MAS del capıtulo 4.

En principio, es importante comprender que es un MAS :

Definicion 3 Un MAS es la composicion de una comunidad de agentes en un ambien-te compartido con un objetivo comun. (Camargo Monroy, J. Alejandro and Barrios-Aranibar, Dennis, 2016)

Es importante resaltar que, como un sistema colectivo de agentes, los agentes han demantener independencia total respecto a sus semejantes. Esto quiere decir que la deci-sion de cada agente solo puede estar basada en su conocimiento propio y la influenciaexterna del ambiente.

La independencia de los agentes no ha de descartar que su conocimiento puedaverse influenciado por los demas, pero si es importante que sus decisiones no se veanlimitadas por otros en la fase de decision.

Inicialmente los MAS eran considerados como comunidades de agentes en unambiente compartido, sin tomar en cuenta la independencia de los mismos. Es por elloque muchas propuestas confunden las comunidades de agentes con MAS. Esta tematica,junto con el desarrollo de la teorıa base de MAS han de ser desarrolladas a continuacion.

17

Page 42: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

3.1. Enfoques de Clasificacion para Sistemas Multi-Agente

3.1. Enfoques de Clasificacion para Sistemas Multi-

Agente

Existen diferentes clasificaciones para los MAS, sin embargo se han de mencionaralgunos de los MAS resaltantes antes de desarrollar la rama bajo la cual se ha deespecializar la presente investigacion.

1. Clasificacion por Caracterısticas del Agente y por Caracterısticas del Conjunto(Paruna, 1996) : en relacion a las caracterısticas propias del agente se mencionala capacidad de cada uno para capturar por medio de sus entradas el ambiente,graduando en este punto diferentes niveles para esta capacidad, de forma similarla salida de respuesta. Se hace tambien una mencion importante a las caracte-rısticas de control en la arquitectura del sistema, ya que un MAS en si deberıapermitir la independencia total de cada agente, sin embargo en muchos casosexisten tambien entes centrales que permite establecer una decision de consensopor parte de todo el grupo de agentes, este tipo de modelo se ha de desarrollarMAS adelante.

Cabe resaltar tambien en este grupo los enjambres de robots (Monekosso et al.,2002) como un subconjunto considerable ya que para estos el comportamientodel agente como individuo es irrelevante, sin embargo, el comportamiento delconjunto total es el que se ha de destacar, en este subconjunto se puede realizaruna sub-clasificacion segun el tamano del equipo, su rango de accion y comunica-cion ası como tambien un condicionamiento en la comunicacion por la topologıade la misma y/o su rendimiento; un punto importante aquı es la capacidad deprocesamiento de cada individuo, ya que ello podrıa condicionar la complejidaddel comportamiento del enjambre. para los cuales (por el comportamiento de losagentes como un todo y no como individuos especıficamente), en ella se puede rea-lizar una clasificacion por el tamano del equipo, su rango, el tipo de comunicacion(topologia y rendimiento), composicion del equipo, capacidad de procesamientode cada agente como individuo.

2. Clasificacion por el Tipo de Aprendizaje en el Grupo (Stone y Veloso, 2000): estaperspectiva de clasificacion busca diferencias a los MAS en heterogeneos y homo-geneos, acorde al tipo de aprendizaje que tengan y en cuanto a su especializacion,ası un MAS puede establecerse como un sistema en el cual todos los agentes hande tener un mismo modelo de aprendizaje y un mismo modulo de aprendizaje,es decir todos han de compartir la misma base de conocimiento o motor logico,las experiencias de cada uno de ellos aportaran al aprendizaje del grupo y porotro lado existen MAS homogeneos en los cuales cada uno de los agentes ha detener de forma independiente un base del conocimiento unica y propia, estos con-ceptos han de ser extendidos en la seccion de Representacion del Aprendizaje yAprendizaje de Grupo.

3. Clasificacion por el Tipo de Comunicacion entre los Agentes (Stone y Veloso,2000): en cuanto a comunicacion entre agentes se puede hacer una gran division

18 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 43: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 3. Esquemas Taxonomicos para MAS

al comparar a aquellos sistemas que cuentan con sistemas de comunicacion res-pecto a aquellos que carecen del mismo, ello se debe a que para las diferentesaplicaciones en las que podrıan ser usados los MAS, no en todas, es requeridoun sistema de comunicacion, por ejemplo, si se tiene un estacionamiento con Nespacios para autos, N autos iguales y cada auto es conducido por un agente, en-tonces los agentes simplemente deberıan estacionarse conforme los espacios vayansiendo ocupados, sin embargo si cambiamos la condiciones del problema y esta-blecemos que existen diferentes tamanos para los autos y del mismo modo existenespacios para todos ellos, pero, en este caso se han de colocar estacionamientosdimensionados, lo cual requiere que los conductores coordinen a fin de ocuparel espacio minimo que les corresponda a fin de que todos puedan estacionarse,aquı podemos notar que la comunicacion es requerida, y es probable que todoslos agentes tengan que organizarse para optimizar espacios.

4. Clasificacion de MAS acorde al tipo de entorno, agentes e interaccion (Weiß,1997)(Weiss, 2013) (Huhns y Singh, 1998) (Ilker Yıldırım y Yolum, 2009): los modelosde clasificacion tambien han sido llevados al campo propio de accion de los agentesy el modelo que han de representar acorde a ello, ya que de ello ha de depender elmodelo de desarrollo de el sistema de intercomunicacion de los agentes y el tipode especializacion que ha de serles aplicado.

Esquematizando los factores de clasificacion de los MAS, se puede apreciar losfactores bajo los cuales son comunmente diferenciados como:

1. Por el tipo de aprendizaje

a) Equipo basado en un unico motor de aprendizaje

b) Equipo real

1) Homogeneo

2) Heterogeneo

3) Hıbrido

2. Por la asignacion de credito

a) Estrategias de recompensa global

b) Estrategias de recompensa local

3. Por el tipo de escenario modelado

a) Escenarios cooperativos

b) Escenarios competitivos

4. Por la estructura del sistema de comunicacion en MAS

a) Sistemas no topologicos

b) Sistemas topologicos

Programa de Maestrıa en Ciencia de la Computacion - UCSP 19

Page 44: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

3.2. Clasificacion por el Tipo Aprendizaje

3.2. Clasificacion por el Tipo Aprendizaje

De forma breve, el aprendizaje multi-agente puede ser definido como la aplicaciondel aprendizaje de maquina para problemas que involucran multiples agentes (Russelly Norvig, 2009) (Panait y Luke, 2005), motivo por el cual no se requiere establecernuevamente cada posible combinacion de las tecnicas de aprendizaje de maquina conlas propias de aprendizaje de grupo, las cuales seran descritas a continuacion.

3.2.1. Equipo Basado en un Unico Motor de Aprendizaje

Se busca representar el equipo de agentes como un solo agente que engloba encada una de sus opciones la combinatoria de todos los posibles estados y accion a tomarpara cada agente que pertenece al grupo.

Este enfoque, a pesar de ser muy complejo y de tener tendencia a un crecimientoexponencial de complejidad, se mantiene como valido, ya que en muchos casos se hademostrado que tiene garantıa de convergencia a un optimo global (Panait y Luke,2005) (Angeline y Pollack, 1993).

3.2.2. Equipo Real

3.2.2.1. Aprendizaje de Equipo Homogeneo

El aprendizaje homogeneo para MAS esta definido como aquel en el cual cadaagente del sistema comparte el mismo tipo de comportamiento con los demas agentes,lo cual no quiere decir que necesariamente tengan una misma base de conocimiento.

Lo que busca un sistema homogeneo es mantener un mismo tipo de agente paratodo el sistema, permitiendo que los agentes se mantengan en una linea fuera de laespecializacion, caso que se ve y es objetivo del aprendizaje heterogeneo. existen dife-rentes casos en los que se ha probado de que aun con sistemas homogeneos los agentestienden a especializarse en ejecutar tareas de un mismo modelo a beneficio del sistematotal (Quinn et al., 2002).

3.2.2.2. Aprendizaje de Equipo Heterogeneo

Compone un equipo de agentes con diferentes comportamientos, lo cual indepen-diza a cada agente y le permite tener una base propia de conocimiento, el objetivo deeste trabajo es la especializacion de cada agente en una tarea especifica que le permitadesarrollar comportamientos unicos que puedan beneficiar al grupo como un todo. Lanaturaleza propia de estos grupos heterogeneos permite tambien utilizar una mezcla de

20 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 45: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 3. Esquemas Taxonomicos para MAS

tecnicas de aprendizaje, asignando, por ejemplo, un diferente algoritmo de aprendizajea cada agente, o estableciendo diferentes condiciones para cada uno.

Al diversificar los diferentes tipos de agentes en un sistema es posible establecercaracterısticas especiales para este tipo de sistemas (Li et al., 2004):

1. Grado de Heterogeneidad : Cuantos diferentes tipos de agentes hay en el sistema

2. Formas de Aprendizaje: Ya que cada agente ha de ser independiente es posibledecir que para que cada uno de ellos pueda ser recompensado por la labor inde-pendiente hay que distribuir la recompensa del grupo, lo cual afecta directamentela forma en que cada uno ha de aprender, se puede distinguir 3 grupos principalesaquı: centralizado, refuerzo global y refuerzo local.

3. Niveles de Intercomunicacion : La comunicacion entre agentes puede variar desdesu total ausencia, hasta una interconexion total o global; en cuyo caso la infor-macion de los agentes debiera ser compartida con todos sus semejantes. Estadiscucion ha de ser extendida en el capıtulo 5.

3.2.2.3. Aprendizaje de Equipos Hıbridos

Los sistemas hıbridos como su nombre lo indica, son la mezcla de diferentes tecni-cas y en este caso son la representacion taxonomica para aquellos sistemas en los cualesexisten grupos de agentes homogeneos co-existiendo en un mismo sistema, y cada grupotiene un diferente tipo de especializacion, es decir es una representacion heterogenea anivel de grupos de individuos.

3.3. Clasificacion por Asignacion de Credito

El principal problema relacionado a la distribucion de recompensa en los MASes “¿Como la recompensa deberıa ser dividida entre los agentes?”, problema que hade afectar a diferentes niveles del algoritmo, tanto su garantıa de convergencia comola complejidad algorıtmica para dicho calculo (problemas de consenso y comunicacionentre agentes), para lo cual existen dos lineas principales que buscan resolver el pro-blema:

Estrategia de Recompensa Global

Estrategia de Recompensa Local

Programa de Maestrıa en Ciencia de la Computacion - UCSP 21

Page 46: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

3.3. Clasificacion por Asignacion de Credito

3.3.1. Estrategia de Recompensa Global

La estrategia de recompensa global establece la recompensa para cada agenteque pertenece al equipo como la recompensa global obtenida, de este modo dado unbuen trabajo de grupo, todos los individuos han de beneficiarse, ello a pesar de existiragentes que no aportaran al sistema o aportara de forma negativa; la recompensa serala misma para todos.

Tal como se ha mencionado la gran falencia de este modelo es la posibilidad deaparicion de agentes parasito que no han de cooperar con su trabajo al grupo, peroque sin embargo, siempre han de recibir una recompensa por el trabajo de los demasagentes, esto puede producir problemas de convergencia al ralentizar el proceso.

Los sistemas de recompensa global tambien han de generar una tendencia en losagentes hacia un sistema homogeneo, donde los agentes han de presentar comporta-mientos similares, ello aun cuando inicialmente fueran sistemas heterogeneos.

3.3.2. Estrategia de Recompensa Local

Los sistemas de recompensa local buscan analizar el trabajo en conjunto y el apor-te individual de cada agente a fin de asignarle una porcion de la recompensa equivalenteal aporte propio realizado, este tipo de sistemas tienden a tener una convergencia itera-tiva MAS rapida que la de recompensa global, sin embargo puede ser algoritmicamenteMAS complejo en cada iteracion.

La complejidad de estos algoritmos depende de la complejidad de calculo parareconocer el porcentaje de recompensa que debe asignarse a cada individuo, propuestascomo: Learning Roles: Behavioral Diversity in Robot Teams (Balch, 1997) y Rewardand Diversity in Multirobot Foraging (Balch, 1999) de Tucker Balch, muestran que di-ferentes tipos de polıtica pueden generar diferentes resultados en cuanto a la aplicacionde recompensa local, pero tienden a tener un aprendizaje MAS rapido, sin embargono se puede afirmar lo mismo de los algoritmos de recompensa global (Panait y Luke,2005).

Es importante remarcar, que como muestra en investigaciones previas (Balch,1997) (Balch, 1999), la recompensa global ha de incrementar la homogeneidad y porotra parte la estrategia de asignacion de credito o recompensa local ha de dependerdirectamente del grado de especializacion que se desee lograr, ello ya que un extremode especializacion podrıa hacer MAS compleja la tarea de entrega de recompensas.

Otra propuesta desarrollada por Mataric (Mataric, 1994) muestra como el apren-dizaje por reforzamiento combinado con la aplicacion de recompensa local y una es-tructura de comunicacion basada en refuerzo social ha de mejorar el desempeno yconvergencia.

22 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 47: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 3. Esquemas Taxonomicos para MAS

3.4. Clasificacion por el Tipo de Escenario Mode-

lado

3.4.1. Escenarios Cooperativos

Los escenarios cooperativos utilizan un esquema de recompensa dividida, de formatal que se pueda recompensar de forma adecuada al conjunto de agentes por el trabajorealizado (Panait y Luke, 2005), lo que se busca es direccionar el comportamiento delequipo en conjunto a mantener una estrategia de beneficio global, sin embargo ellono siempre puede ser logrado y en algunos casos existe garantıa de que no se lograrasiempre, como el caso expuesto por Clauss y Boutiques (Claus y Boutilier, 1998) parael cual se demuestra que en el juego de “escala y penalidad” no hay garantıa de llegaral optimo.

Por otro lado Lawer y Riedmiller (Lauer y Riedmiller, 2000) demuestran que parajuegos determinısticos de repeticion, haciendo uso de Q-value en los agentes, es posiblegarantizar la convergencia.

Otras pruebas, como la garantıa de convergencia al equilibrio de Nash, se dan porparte de Braman y Tennenholtz (Brafman y Tennenholtz, 2003) mediante el uso de“stochastic sampling” y de forma similar Wang y Sandholm (Wang y Sandholm, 2002)demuestran convergencia al equilibro de Nasho optimo usando una implementacionpropia, el “algoritmo de aprendizaje adaptativo optimo”, sin embargo la prueba estaestricta a un numero de estados y acciones finitas.

3.4.2. Escenarios Competitivos

Los escenarios competitivos se han de tratar como juegos de suma general, ellopara tener la base de un esquema solido. Los juegos de suma general estan referidos aaquellos en los cuales la recompensa del sistema es unica, y su division entre los agentesno puede superar a la recompensa total asignada, del mismo modo la asignacion de larecompensa a un equipo en competencia exige que se prive de la misma al oponente(Panait y Luke, 2005).

Dowling y Veloso (Bowling y Veloso, 2001), ası como Kulkarni y Tai (Kulkarni yTai, 2010) muestran que entre las caracterısticas deseables para estos sistemas se debeconsiderar la racionalidad y convergencia. La racionalidad hace referencia a la garantıade convergencia de un agente cuando los demas han logrado su propia convergencia; yla convergencia como caracterıstica implica que bajo determinadas condiciones para elsistema todos los agentes deben poder converger en sus propias estrategias.

Un caso interesante de enfrentamiento entre agentes o cooperacion entre los mis-mos es el presentado en Learning agents in a Homo Equalis Socity (Nowe et al., 2001)para el cual se establecen 2 posibles casos, el primero donde ambos agentes tienen

Programa de Maestrıa en Ciencia de la Computacion - UCSP 23

Page 48: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

3.5. Por la Estructura del Sistema de Comunicacion en MAS

diferentes recompensas y otro donde se tiene una aproximacion o una igualdad total,“homo equalis”, caso en el cual se busca alternar entre ambos lados para buscar unoptimo entre los enfoques de cada agente contendiente.

3.5. Por la Estructura del Sistema de Comunica-

cion en MAS

Los sistemas multiagente, son una composicion algoritmica de algoritmos deaprendizaje y la capacidad de los agentes de comunicarse entre ellos, siendo el cos-to computacional del segundo el que generalmente resulta mayor.

La complejidad de los sistemas de comunicacion esta ıntimamente relacionadacon el nivel de conocimiento que se busca que tengan los agentes de los otros agentesen el sistema, de este modo se puede diferenciar dos tipos de sistemas de comunicacionen MAS.

Sistemas No Topologicos

Sistemas Topologicos

3.5.1. Sistemas No Topologicos

Los sistemas de comunicacion no topologicos son aquellos que no tienen una es-tructura de interconexion que establezca restricciones de comunicacion entre agentes yen general se busca la comunicacion de todos contra todos (free for all), ello permitemodelar como parte del ambiente visible del agente el estado interno de sus semejantesen el entorno compartido. Jinsha Li y Junnin Li (Junmin y Jinsha, 2014) muestranun modelo de aprendizaje adaptativo iterativo para establecer un consenso, en el cualse busca modelar mediante la intercomunicacion de agentes comportamientos comple-jos como seguimiento de lıder y desarrollo de control descentralizado, lo cual permitedesarrollar un sistema que hace mımica de coordinacion.

De forma similar Maja Mataric (Mataric, 1994) modela el comportamiento deforma tal que la intercomunicacion del sistema permita a los agentes aprender quecomportamiento deben desarrollar en funcion de la “aceptacion social” del conjunto,este concepto tambien puede verse en Aprendizado por Reforco com Valores de In-fluencia em Sistemas Multi-Agente (Barrios Aranibar y Goncalves, 2009) donde sebusca establecer un sistema de comunicacion entre los agentes que permita que cadauno de ellos establezca un puntaje al comportamiento de los demas agentes, asegurandoque el sistema converja al objetivo comun.

24 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 49: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 3. Esquemas Taxonomicos para MAS

3.5.2. Sistemas Topologicos

Los sistemas basados en comunicacion topologıa tienen una estructura de respal-do que permite establecer la comunicacion entre agentes, de forma tal que limita suinteraccion; esta limitante permite reducir la complejidad algorıtmica de la comunica-cion, sin embargo tambien podrıa restringir al sistema a mantenerse en un estado deincomunicacion por segmentos, esta problematica es abordada por Quinonez, Maravally Lope (Quinonez et al., 2012) en el cual muestran cual deberıa ser el esquema optimoa seguir para mantener una buena distribucion en relacion al nivel de especializacionque requiera el sistema, en otro enfoque del problema Abdallah y Lesser (Abdallahy Lesser, 2007), encuentran solucion al problema de intercomunicacion en un sistemaauto-organizado que permite tanto la ruptura como la creacion de vınculos de comu-nicacion entre agentes, mediante la herencia de comunicacion, un sistema que permiteagregar nuevos vınculos mediante transiciones con vecinos.

3.6. Consideraciones Finales

El desarrollo del presente capıtulo ha permitido establecer algunos puntos clavesdel trabajo actual en el area y cuales fueron sus orıgenes. Es importante resaltar la cri-tica a algunas propuestas que son consideradas dentro del area, pero que no mantienenuna linea de pensamiento propia a la que se establece en la naturaleza propia de losMAS.

Bajo esta observacion resaltan propuestas enfocadas en los sistemas basados enun unico motor de aprendizaje; ha de quedar claro que si bien estas propuestas buscanmodelar un MAS, no han de ser parte del area de estudio por ser tan solo un modelode fachada.

Una vez desarrollada la taxonomıa de los MAS es necesario entender el modelousado para su representacion formal y consecuentemente desarrollar en base al mismola propuesta. En el capıtulo 4 se ha de desarrollar el proceso de evolucion de MDP afin de soportar los requerimientos de un MAS. Esta evolucion se ha de ver focalizadaen la representacion de las relaciones entre los agentes y su mundo.

Debido a la limitacion de los modelos actuales en cuanto a la interaccion entreagentes, se ha de requerir tambien el desarrollo de un modelo formal de comunicacion.En el capıtulo 5 se ha de desarrollar tambien el modelo de comunicacion que permitafinalmente dar paso al desarrollo de la propuesta.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 25

Page 50: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

3.6. Consideraciones Finales

26 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 51: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Capıtulo 4

Estado del Arte

En la actualidad el desarrollo e implementacion de nuevas propuestas para MAS,se ha de basado en modelos formales y paradigmas de aprendizaje adaptados, origi-nalmente implementados para sistemas mono-agente. Estos han de ser la base parala representacion de sus propuestas; ası como la orientacion de la implementacion delalgoritmo de aprendizaje.

El presente capıtulo se han de desarrollar los modelos formales actualmente usadospara representar MAS, siendo en la actualidad, Partial Observable Markov DecisionProcess (POMDP) (Astrom, 1965) y el Dec-POMDP (Amato et al., 2013) los maximosrepresentantes de la interaccion entre los agentes y su entorno en el estado del arte.

Es importante resaltar a Dec-POMDP como el eje actual para el desarrollo deMAS, pues formalmente ha logrado establecer cual es la correspondencia existenteentre agentes y el entorno. Esta correspondencia se da en diferentes niveles, desde lapertenencia del agente a su respectivo estado actual en el mundo; como tambien a suslimitaciones en percepcion y en consecuencia la definicion de una vista independienteωi para cada agente.

Al ser la propuesta de tesis un nuevo paradigma de aprendizaje, es necesarioestudiar los actuales paradigmas de aprendizaje presentados en el estado del arte.Siendo los mas representativos IL e IVRL. Ambas propuestas han de tener capacidadde convergencia a optimos bajo diferentes circunstancias. Motivo por el cual ha sidoespecialmente seleccionados para el desarrollo de la propuesta de tesis.

4.1. Modelos Formales

Como ya se ha descrito previamente en el capıtulo 2, los agentes son seres artifi-ciales, independientes y autonomos en un entorno especıfico. El entorno dado como larepresentacion de un problema especıfico para los agentes ha de ser tratado en adelantecomo el mundo.

27

Page 52: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

4.1. Modelos Formales

El mundo es la composicion de estados que pueden ser explorados y alterados porlos agentes. Es importante remarcar que la exploracion del mundo ha de enriquecer elconocimiento de los agentes, aunque este conocimiento podrıa no ser correcto.

A continuacion se han de desarrollar los modelos formales que han permitidoformalizar la constitucion del mundo y su relacion con los agentes. Estos modelos sonun requeridos para entender la propuesta, por cuanto se ha de detallar su evolucion yel aporte de cada nuevo modelo.

4.1.1. Modelo de Decision de Markov

El MDP (Bellman, 1957) (Bernstein et al., 2002) representa el mundo para ununico agente, esta representacion del mundo se basa en la 5-tupla [S,A, P,R,X] :

Definicion 4 Markov Decision Process:

S, un conjunto finito de estados del mundo con una distribucion inicial b0 .

Ai , un conjunto finito de acciones; con A = ×iAi el conjunto union de todas lasacciones, donde × es el operador de producto Cartesiano.

P(s,s’,a), la funcion de probabilidad de transicion, P : S × S × A → [0, 1] ,representa la probabilidad de seleccionar la transicion hacia el estado s’ por mediode la accion a desde el estado s.

R(s,s’,a), la funcion de recompensa, R : S × S ×A, recompensa inmediata por laejecucion de la nacion a desde el estado s hacia s’; s, s’ in S; a in A.

X(s), la vista completa del mundo desde un estado s ∈ S.

MDP es un modelo probabilıstico restricto a la representacion de un unico agenteen el entorno. Esta restriccion es implıcita al modelo, y se fundamenta en la definicionde X como un mundo con base determinista. La multiple actualizacion del mundo sobreun mismo estado es un fenomeno complejo que no puede ser soportado directamentepor el modelo de MDP.

El principal problema del MDP esta relacionado al uso de X(s) como funcion querecupera la informacion del mundo. Aun cuando X(s) provee el estado real del mundo,no es posible asegurar que el mundo no este en cambio al momento de realizada lapeticion a X(s). La interaccion de muchos agentes sobre un mismo entorno torna elproblema, y en consecuencia su representacion, en un problema no determinista.

Para poder entender el fenomeno de multiple actualizacion del mundo, es necesa-rio hablar de mas de un agente en el modelo. Dado el caso en el cual dos o mas agenteshan de compartir el entorno, si uno de ellos realiza una accion, el otro agente deberıa

28 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 53: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 4. Estado del Arte

poder percibirla y cambiar en base a ello su percepcion del mundo. Ahora el mundo ylo que percibe son diferentes. Ante una definicion de un mundo que puede cambiar anteestımulos ajenos al del propio agente, nos encontramos ante un mundo con definicionno determinista. Un panorama ajeno al modelo de MDP.

En resumen, MDP es un modelo ideal para representar mundos deterministas.Cualquier variacion sobre un estado del mundo por parte de un agente ajeno al actual-mente observado, como tambien producto de un fenomeno propio del problema, hande tornar el problema no determinista.

Una adaptacion de MDP para soportar entornos no deterministas es el POMDP(Astrom, 1965).

4.1.2. Modelo Parcialmente Observable de Markov

Definicion 5 Modelo Parcialmente Observable de Markov:

S, un conjunto finito de estados del mundo con una distribucion inicial b0 .

Ai , un conjunto finito de acciones definido para cada agente, æi , con A =×iAi el conjunto union de todas las acciones, donde × es el operador de productoCartesiano.

P(s,s’,a), la funcion de probabilidad de transicion, P : S × S × A → [0, 1] ,representa la probabilidad de seleccionar la transicion hacia el estado s’ por mediode la accion a desde el estado s.

R(s,s’,a), la funcion de recompensa, R : S × S ×A, recompensa inmediata por laejecucion de la nacion a desde el estado s hacia s’; s, s’ in S; a in A.

Y(s), una vista parcial del mundo desde un estado s ∈ S.

La distincion de la vista Y (s) del estado real del mundo permite establecer unmargen de incertidumbre en el modelo y en consecuencia abre la posibilidad a la re-presentacion de un mundo no determinista. Aun ası POMDP esta aun resucito por lanotacion de Y (s), la cual establece que la vista correspondiente a Y (s) sera la mismapara cada agente en el sistema. Ello no quiere decir que la percepcion de los agentes hade ser la misma en todo momento, pero si establece que dadas las mismas condicionespara 2 agentes diferentes æi y æj, ambos percibiran lo mismo por medio de Y (s).

La restriccion de Y (s) sobre la percepcion de los agentes ha de ser finalmentesolucionada por Dec-POMDP.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 29

Page 54: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

4.1. Modelos Formales

4.1.3. Modelo Descentralizado de Control Parcialmente Ob-servado de Markov

La independencia de los agentes es parte de la propia naturaleza de los sistemasmulti agente. Las acciones de los agentes solo deben ser limitadas por las restriccionesexplıcitas en la definicion del mundo. Y como se menciono previamente, estas carac-terısticas, no son completamente soportadas por los modelos ya descritos. Es por elloque, Dec-POMDP implementa un sistema de pertenencia, mediante el cual logra inde-pendizar las vistas de los agentes; soportando con ello los requerimientos de un MAS.

Definicion 6 Modelo Descentralizado de Control Parcialmente Observado de Markov:

Æ , un conjunto finito de agentes æ0, æ1, . . . , æn.

S, un conjunto finito de estados del mundo con una distribucion inicial b0 .

Ai , un conjunto finito de acciones definido para cada agente, æi , con A =×iAi el conjunto union de todas las acciones, donde × es el operador de productoCartesiano.

P(s,s’,a), la funcion de probabilidad de transicion, P : S × S × A → [0, 1] ,representa la probabilidad de seleccionar la transicion hacia el estado s’ por mediode la accion a desde el estado s. Dado que, P(s,s’, −→a ) = Pr(s’| −→a , s).

R(s,s’,a), la funcion de recompensa, R : S × S ×A, recompensa inmediata por laejecucion de la nacion a desde el estado s hacia s’; s, s’ in S; a in A.

Ωi, un conjunto finito de observaciones para cada agente æi ∈ Æ with Ω = ×iΩi,conjunto union de las distintas observaciones.

O, funcion de probabilidad de observacion: O : Ω×A×S → [0, 1], la probabilidadde percibir un conjunto de vistas −→o ∈ Ω, dado un conjunto de acciones −→a ∈ A,que han sido tomadas. Ası O(−→o ,−→a ,s’) = Pr(−→o | −→a , s’).

h, el numero de pasos requeridos hasta que el problema termine, llamado hori-zonte.

Una vez el modelo de relacion entre agentes y el mundo esta completamente esta-blecido, es importante continuar con la relacion existente entre agentes. Esta relacionha de ser descrita como comunicacion y sera desarrollada como parte de la propuestaen el capıtulo 5.

En tanto se ha de continuar con la descripcion de los paradigmas de aprendizajeque seran base de la propuesta final.

30 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 55: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 4. Estado del Arte

4.2. Paradigmas de Aprendizaje

Previo al desarrollo de las definiciones, es importante aclarar que los agentes en unMAS no solamente se ven influenciados por el mundo, en estos entornos compartidostambien se puede recibir una influencia por medio de las acciones de otros agentes.La influencia recibida por este medio se considera como directa unicamente si estaaltera los estados de algun otro agente como una consecuencia inmediata. La influenciaentre agentes tambien puede ser indirecta, por ejemplo, cuando un agente toma launica recompensa disponible en el entorno. En estos casos la influencia se ha dado porintermedio del ambiente, ya que la intencion del agente fue alterar el medio y no elconocimiento de los otros agentes.

Teniendo a consideracion la influencia directa de los agentes sobre sus congeneresse puede definir cada paradigma como:

Definicion 7 IL es un metodo de aprendizaje en el cual los agentes tienen propiedad ycontrol sobre su propio aprendizaje. Aprenden de sus propias acciones y directamente,regulan, evaluan su propio aprendizaje. (Livingston, 2012)

De forma contraria, IVRL es definido como:

Definicion 8 Paradigma de aprendizaje para MAS basado en la influencia directa en-tre los agentes; esta influencia se puede dar a travez de diferentes medios. Por ejemplo,estımulos externos, mensajes directos o indirectos; en general compartir informacionentre agentes. (Barrios Aranibar y Goncalves, 2009) La influencia ha de ser global.Por lo tanto, cualquier accion ejecutada por los agentes en el sistema ha de repercutiren los demas agentes directamente

Una vez definidos ambos paradigmas es necesario desarrollar cada uno de ellospartiendo de los modelos descritos en la seccion 4.1.

4.2.1. Independent Learning

Tal cual ya ha sido descrito, IL busca mantener el aprendizaje de cada agente enel entorno compartido como un un proceso independiente a los demas. Este esquemaen el cual cada agente se encuentra aislado es muy similar al propuesto en MDP, sinembargo no le ha de corresponder.

Es importante recordar que MDP define un entorno determinista, en el cual seconoce el resultado de cada accion posible a ser ejecutada. Este concepto es totalmenteajeno a los MAS, ya que como se menciono precisamente, seccion 4.1.2, todo entornopara MAS es por propia naturaleza no determinista.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 31

Page 56: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

4.2. Paradigmas de Aprendizaje

La gran diferencia entre los entornos deterministas y los no deterministas yace enla capacidad de describir un problema con la totalidad de sus variantes. En el caso delos entornos no deterministas, se tiene a consideracion que el modelo descrito no puededesarrollar o enumerar todas las posibilidades que este modelo presenta. Tambien seconsideran como modelos no deterministas a aquellos que, a pesar de poder ser descritostotalmente, tienen una gran cantidad de variantes.

Se afirma que los entornos para MAS son no deterministas; pues cada agente se veincapaz de modelar todas las posibles acciones que tiene a disposicion si se considerantodas las posibles acciones de los demas agentes.

En base a esta afirmacion podemos optar por POMDP como base para IL. Estemodelo considera el entorno como no determinista y permite la definicion de una vistaindependiente al estado actual del mundo. La vista puede ser definida como:

Definicion 9 Y(st) = X’(st), X’(st) representa el estado del mundo sin considerar lasacciones, estados internos y posiciones de todos agentes.

Como puede notarse en la definicion 9, cada agente en IL ha de considerarse a simismo el unico en el mundo. Ello se debe a que la vista Y ha de considerar unicamentelos cambios que efectuan los agentes en el mundo, pero no ha de mostrar o revelar cualfue su origen. Graficamente podrıa interpretarse como ver una cancha de futbol en lacual el balon se mueve solo sin percibir que hay jugadores allı moviendolo.

4.2.2. Influence Value Reinforcement Learning

IVRL es un paradigma de aprendizaje originalmente propuesto por Barrios-AranibarDennis (Barrios Aranibar y Goncalves, 2009) en el cual busca escribir un proceso deaprendizaje enriquecido a travez de la opinion de los agentes que coexisten en el medio.

Aun cuando la propuesta fuese dada formalmente en Aprendizado por Refuerzocon Valores de Influencia em Sistemas Multi-Agente (Barrios Aranibar y Goncalves,2009), existe evidencia de que este tipo de paradigma y similares han sido usadospreviamente (Hu y Wellman, 2003) (Quinonez et al., 2012) (Junmin y Jinsha, 2014)(Panait y Luke, 2005) (Littman, 1994); siendo el mas reciente exponente el frameworkque describe Dec-POMDP (Amato et al., 2013). La diferencia entre los paradigmas nose ha de dar a nivel de su sistema de organizacion la forma de compartir la informacion,ha de residir en el tipo de data compartida.

Originalmente IVRL fue descrito en base a POMDP. En la definicion otorgadapor la propuesta original se justifica el uso de POMDP por ser el unico modelo formal,que a la fecha de su publicacion, lograba establecer una diferencia entre la percepcionde los agentes y el estado real del mundo. Tomando como factor clave la definicion deY (s) se hace una distincion respecto a la percepcion de cada agente, un concepto queresultarıa en un abuso de la notacion de POMDP y que serıa corregida a posterior por

32 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 57: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 4. Estado del Arte

Figura 4.1: Modelo Grafico de Interaccion Agentes-Mundo (Barrios Aranibar y Goncal-ves, 2009)

Programa de Maestrıa en Ciencia de la Computacion - UCSP 33

Page 58: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

4.3. Consideraciones Finales

Dec-POMDP. Evidencia de lo descrito se presenta en el modelo grafico presentado enla figura 4.1.

El paradigma dado por IVRL, define un conjunto de funciones base que han depermitir la comparticion de informacion por medio de la opinion en base del modeloPOMDP:

Definicion 10 Funciones de Constitucion de IVRL (Barrios Aranibar y Goncalves,2009)

Funcion de Observacion : modela la capacidad de percepcion Aoij(t) del agenteæi para la accion aj(t) para el agente æj. Es igual a P (Aoij|aj(t))-

Funcion de Opinion: modela la opinion Opij(t) para el agente æi sobre la ac-cion observada ai(t) efectuada por el mismo agente con una recompensa ri(t), enrelacion a los demas agentes y sus propias acciones ejecutadas en un tiempo t.

Funcion de Influencia: dada como IVi(t), corresponde al valor calculado en basea las opiniones de los otros agentes en el sistema, sobre la accion efectuada poræi en un tiempo t.

Funcion de Transicion de Estados: modela el estado interno del agente (cono-cimiento) como FT (si(t − 1), Yi(t), ri(t), ai(t), IVi(t)), siendo si(t − 1) el estadoanteriormente visitado, Yi(t) la funcion de visualizacion y ai(t) la accion a eva-luar y su correspondiente recompensa inmediata ri(t).

4.3. Consideraciones Finales

A fin de poder exponer la propuesta, δ-radius IVRL, se ha requerido el desarro-llo de los modelos actualmente usados para describir MAS. Es importante resaltar laimportancia de cada uno de estos modelos y el aporte que cada uno de ellos ha dadoal area.

MDP, el cual fue originalmente disenado para esquematizar problemas mono-agente. Siendo su mayor aporte el diseno de un entorno y sus reglas en base a unmodelo de grafo; una representacion comun en MDP para la definicion del mundo X.

POMDP surge como una necesidad a la aparicion de sistemas con incertidumbre,percepcion alterada del mundo. Este modelo ha permitido el desarrollo de MAS pormedio de una extension de su notacion, aprovechando el enfoque alterado del mundo.De este modo se pudo definir la incapacidad de percepcion de los otros agentes, comouna vista reducida Yi.

34 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 59: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 4. Estado del Arte

El planteamiento de Dec-POMDP responde a una necesidad de formaliza el abusode notacion dado en POMDP. Ello mediante el uso de Oi y ωi, factores que permitenestablecer correctamente la capacidad de percepcion de los agentes sobre las accionesajenas en un mundo no determinista.

De igual forma se ha desarrollado los paradigmas de aprendizaje para MAS, ILe IVRL; ambos paradigmas opuestos han demostrado tener capacidad de convergenciaante diferentes escenarios, por cuanto han sido considerados ideales para el diseno dela propuesta final. La cual ha de integrar ambos paradigmas en un nuevo paradigma deaprendizaje basado en la variacion de la comunicacion, permitiendo graduarla en basea una variable δ.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 35

Page 60: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

4.3. Consideraciones Finales

36 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 61: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Capıtulo 5

Propuesta: δ-radius Influence ValueReinforcement Learning

IL e IVRL son paradigmas de aprendizaje opuestos, ambos encuentran su mayordiferencia en el control de la influencia entre los agentes. Tanto la ausencia de influencia,como un sistema de comunicacion global han demostrado funcionar bajo diferentesescenarios. Ello se debe a que cada ambos paradigmas tienen puntos de convergenciadiferentes, algo que se analizara a mayor profundidad tras desarrollar la propuesta.

Este interesante fenomeno, nos ha de plantear la duda: ¿ En que punto se da elcambio en la capacidad de convergencia?. A fin de encontrar dicho punto de inflexionsurge la propuesta de un modelo integrado, que por medio de una variable permitagraduar la capacidad de difusion y recepcion de mensajes entre agentes, un sistema decomunicacion variable.

Debido a que este esquema no fue planteado antes es necesario adaptar los modelosprevios a fin de ponerlos en terminos comunes, ello para establecer una transicionentre los mismos. Es por ello que tambien se ha propuesto δ-radius CM, un sistema decomunicacion para MAS enfocado en la comunicacion.

De este modo la propuesta plantea un nuevo paradigma de aprendizaje focalizadoen la comunicacion que ha de permitir probar los modelos intermedios de comunicacionentre IL y IVRL, convirtiendole en una vision unificada de ambos paradigmas.

5.1. Modelo de Comunicacion para MAS

El modelo previamente descrito, Dec-POMDP, muestra una completa relacionentre los agentes en Æ y el entorno del mundo (S,A); pero, es aun necesario considerarla comunicacion entre agentes.

El desarrollo o descripcion de un sistema de comunicacion para MAS es una tarea

37

Page 62: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

5.1. Modelo de Comunicacion para MAS

comunmente evadida en el area, aun cuando es necesaria. Algunas propuestas realizanuna implementacion del sistema de comunicacion (Zhang y Lesser, 2013), sin embargo,estos modelos han sido planteados de forma especifica para satisfacer las necesidadesde sus problemas planteados.

El objetivo principal de este capıtulo es la presentacion de un modelo propio quefacilite el diseno y restriccion del la comunicacion para MAS. Este nuevo modelo decomunicacion ha de ser desarrollado como parte fundamental de nuestra propuesta.

El sistema de comunicacion en Æ es representado como la relacion directa entre losagentes pertenecientes a Æ. Si se desea establecer formalmente cuales son los agentesque se han de relacionar con el agente æi, serıa a traves de γi y bajo la restricciondefinida en la distancia maxima admitida δ:

Definicion 11

γi un conjunto finito de pares de agentes, γi = ( æi, x)| æi, x ∈ Æ , f(æi, x) ≤ δ ,con η = ×iγi el conjunto de todas las reglas de comunicacion para el agente æi.

Aun cuando es posible definir γi para cada agente æi en Æ es necesario establecerun metodo MAS eficaz para describir la restriccion de comunicacion entre agentes. Unode los metodos MAS simples para limitar el ambito de comunicacion esta relacionado alconcepto de proximidad. Ası, dos agentes se han de relacionar (establecer comunicacion)si estan suficientemente cerca.

Sin embargo, los agentes no tienen los elementos necesarios para definir el con-cepto de distancia. Es entonces necesario implementar el soporte necesario para que losagentes permitan el calculo de distancia entre ellos. En la mayorıa de casos es posibleenriquecer la informacion de los agentes para establecer una metrica con ellos, estainformacion puede ser tomada de la concepcion del problema, las caracterısticas delmundo y su influencia en los agentes o las caracterısticas propias de los agentes. Estainformacion debera ser usada para definir un espacio vectorial para los agentes. En basea los vectores caracterısticos de los agentes se puede definir una funcion f : f(æ,æ) ,funcion de distancia :f :Æ × Æ − > <

La definicion de f convierte el espacio vectorial en un espacio metrico, del cualse pueden aprovechar algunas caracterısticas utiles:

No negatividad : no hay distancia negativa.

Identity of Indiscernibles : la distancia entre dos agentes es la misma si solo si,ambos son el mismo agente.

Simetrıa : f(æ1,æ2) = f(æ2,æ1) , æ1 y æ2 ∈ Æ, respecto a este punto hay queaclarar que es posible definir un modelo de comunicacion sin simetrıa, sin em-bargo la prueba del mismo resulta extensa y ajena a los objetivos de la presenteinvestigacion.

38 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 63: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 5. Propuesta: δ-radius Influence Value Reinforcement Learning

Existencia de una Base para el Espacio Vectorial: es posible representar el vectorcaracterıstica a travez de la combinacion de las bases del espacio vectorial.

Una vez el espacio metrico es definido para los agentes, es posible definir laslimitaciones para la comunicacion en base a la distancia entre agentes. De este modo,dos agentes se han de relacionar uno con otro si solo si la distancia entre estos es menoro igual a una constante δ.

Definicion 12 δ-radius Communication Model:

M , un espacio metrico M = ( Æ , f ) , donde Æ es un conjunto de agentes concaracterısticas comparables y f una funcion distancia, f :Æ×Æ− > <

δ el radio maximo permitido para establecer comunicacion entre dos agentes,δ ∈ <

γi un conjunto finito de pares, γi = (æi, x) | æi, x ∈Æ, f(æi, x) ≤ δ,æi 6= x ,con η = ×iγi el conjunto total de las reglas de comunicacion.

Juntos, Dec-POMDP y δ-radius CM, son el modelo completo que permite la re-presentacion de la presente propuesta para sistemas multi agente.

5.2. Dec-POMDP y δ-radius CM, Un Modelo For-

mal Completo para MAS

Para establecer un modelo general que permita unir las caracterısticas del entornoy la interaccion dual de los agentes con este y con sus semejantes es necesario incluirel sistema de comunicacion con Dec-POMDP como un modelo integral.

Este nuevo modelo de representacion toma en cuenta los diferentes factores rela-tivos a la aplicacion real de MAS. La correspondencia y limitacion relativa al mundo,la relacion de los agentes con otros semejantes y el sentido de pertenencia respecto asus relaciones, vistas y conocimiento.

Definicion 13 Dec-POMDP con δ-radius CM

Æ , un conjunto finito de agentes æi con un vector caracterıstico correspondientemi.

M , un espacio metrico M = ( Æ , f ) , donde Æ es el conjunto de agentes conun vector caracterıstico en M y f una funcion de distancia, f :Æ×Æ− > <.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 39

Page 64: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

5.3. Modelos de Comunicacion aplicados a Paradigmas de Aprendizaje Clasicos

S, un conjunto finito de estados con una distribucion inicial b0.

Ai , un conjunto finito de acciones para cada agente æi ∈ Æ, con A = ×iAi elconjunto de acciones total, donde × es el operador de producto Cartesiano.

P(s,s’,a), la funcion de probabilidad de transicion, P : S × S × A → [0, 1] ,representa la probabilidad de seleccionar la transicion hacia el estado s’ por mediode la accion a desde el estado s. Dado que, P(s,s’, −→a ) = Pr(s’| −→a , s).

R(s,s’,a), la funcion de recompensa, R : S × S ×A, recompensa inmediata por laejecucion de la nacion a desde el estado s hacia s’; s, s’ in S; a in A.

Ωi, un conjunto finito de observaciones para cada agente æi ∈ Æ with Ω = ×iΩi,conjunto union de las distintas observaciones.

O, funcion de probabilidad de observacion: O : Ω×A×S → [0, 1], la probabilidadde percibir un conjunto de vistas −→o ∈ Ω, dado un conjunto de aciones −→a ∈ A,que han sido tomadas. Ası O(−→o ,−→a ,s’) = Pr(−→o | −→a , s’).

h, el numero de pasos requeridos hasta que el problema termine, llamado hori-zonte.

δ , la distancia(radio) maxima permitida para establecer comunicacion entre dosagentes, δ ∈ <.

γi , un conjunto finito de pares , γi = (æi, x)|æi, x ∈Æ, f(æi, x) ≤ δ

η , el conjunto de reglas de comunicacion , η = γ1 ∪ γ2 ∪ . . . ∪ γn

Una vez establecido el modelo completo requerido para la presente investigacionse ha de presentar la propuesta, como una variacion del sistema de comunicacion en elalgoritmo originalmente propuesto por Dennis Barrios (Barrios Aranibar y Goncalves,2009).

5.3. Modelos de Comunicacion aplicados a Paradig-

mas de Aprendizaje Clasicos

δ-radius IVRL es un paradigma de aprendizaje para MAS cuyo objetivo principales definir una vision unificada de los dos paradigmas principales en el actual estado delarte, IL) e IVRL. Cada uno como ha de representar una linea extrema, y opuesta alotro, respecto al sistema de comunicacion en MAS.

En la presente seccion se ha de desarrollar el sistema de comunicacion para cadauna de estas propuestas base a fin de establecer un modelo formal de comunicacionpara cada una. Ello ha de permitir extender cada base y producir un modelo integradode comunicacion, la propuesta final de tesis .

40 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 65: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 5. Propuesta: δ-radius Influence Value Reinforcement Learning

5.3.1. Modelo de Comunicacion para Independent Learning

Aun cuando no es necesario definir un sistema de comunicacion para IL pues estecarece del mismo por propia definicion, sin embargo, se ha de requerir de la misma parael desarrollo de la propuesta final. En base al Modelo de Comunicacion δ, se define lacomunicacion para IL como:

Definicion 14 Modelo de Comunicacion de Independent Learning

f(æi,æj) 6= 0

δ = 0

γi = , ∀æi ∈ Æ. Entonces, η =

En la definicion dada no se ha detallado cual serıa el espacio metrico M pues esdependiente del problema. Una restriccion semejante se da para f , en cuyo caso solose requiere distinguirla de la funcion constante 0 (cero). Ası la definicion de η y δ hande permanecer invariables si se usa un algoritmo basado en el paradigma IL.

A pesar de resultar trivial, la definicion del sistema de comunicacion para IL, hade resultar util en la integracion del paradigma junto con IVRL.

La definicion de un sistema de comunicacion para IL no resulta trivial, ya quecomo se vera en la seccion 5.4 es un requerimiento para la integracion de los paradigmas.A continuacion se ha de desarrollar de forma similar el paradigma IVRL, el cual hadiferencia del actualmente descrito busca establecer un sistema global de influenciaentre agentes.

Una vez desarrollado el modelo descriptivo del paradigma, es necesario incorporarel modelo de comunicacion δ-radius. Esto ha de permitir la comparacion de IL e IVRLbajo un mismo ambito y ha de permitir tambien la integracion de los paradigmas.

5.3.2. Modelo de Comunicacion para Influence Value Reinfor-cement Learning

De forma similar al desarrollo presentado para IL, el paradigma de IVRL puedeser definido usando δ-radius CM:

Definicion 15 Modelo de Comunicacion de Influence Value Reinforcement Learning

f(æi,æj) 6= 0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 41

Page 66: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

5.4. Propuesta: δ-radius Influence Value Reinforcement Learning

δ =∞

γi = (æi,æx)|æx ∈æ , ∀æi ∈æ. En consecuencia, η = Æ×Æ−(æx,æx)|æx ∈Æ

Al igual que el modelo para IL, f y M no han de ser descritos pues son depen-dientes del problema, pero se ha de mantener la limitacion sobre f , ya que no se debeutilizar una funcion constante igual a 0. Respecto a el valor de δ se le ha de asignar in-finito a fin de mantener un sistema de comunicacion completo, independientemente dela funcion de distancia f que pueda ser asignada. En consecuencia se ha de estableceruna relacion entre todos los agentes en Æ, exceptuando las relaciones de comunicacionpara consigo mismo.

Una vez descrito el sistema de comunicacion para IVRL, queda claro que la va-riacion de δ ha de influenciar directamente en la consolidacion de las relaciones entreagentes; mas aun si la definicion de M y f no fuese trivial.

Es en base a δ que es posible integrar ambos modelos, de forma analoga a laintegracion de los metodos Montecarlo y de Diferencias Temporales con los trazos deelegibilidad (Sutton y Barto, 1998). Esta vision unificada ha de ser desarrollado acontinuacion.

5.4. Propuesta: δ-radius Influence Value Reinforce-

ment Learning

δ-radius IVRL surge como propuesta de integracion para IL e IVRL. Mediante ladefinicion de ambos paradigmas a travez de δ-radius CM. Este proceso de integraciongradual puede ser apreciado en la figura 5.1. El proceso de integracion inicia con δ = 0,el valor asignado para IL, y continua incrementado δ hasta conseguir abarcar a todoslos agentes en el medio (IVRL).

Como fuese descrito en las secciones 5.3.1 y 5.3.2 tanto M como f son elementospropios de los diferentes problemas que pudieran ser tratados mediante el uso de MAS,por cuanto el unico elemento determinante para definir el sistema de relaciones η ha deser la variable δ. Este hecho es el fundamento bajo el cual es posible pasar de IL a IVRLa travez de la variacion de δ, creando a su vez sistemas de comunicacion intermedios.Tanto el conjunto de sistemas intermedios, como los extremos (IL e IVRL) han deintegrar el nuevo paradigma δ-Radius Influence Value Reinforcement Learning.

δ-radius IVRL ha de basarse en el modelo unificado Dec-POMDP con δ-radius CM,ello se debe a que este modelo engloba la relacion entre los agentes y su entorno, comotambien la relacion existente entre los agentes.

La definicion del sistema de comunicacion se ha de restringir a la definicion delas variables δ y la generalizacion de γi como se muestra a continuacion :

42 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 67: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 5. Propuesta: δ-radius Influence Value Reinforcement Learning

Figura 5.1: Paso de Independent Learning a Influence Value Reinforcement Learning -Modelo Unificado δ-Radius Influence Value Reinforcement Learning

Definicion 16 Modelo de Comunicacion para δ-radius IVRL

f(æi,æj) 6= 0

δ ∈ [ 0, ∞〉

γi = (æi,æx) | (æi,æx) ∈Æ×Æ, f(æi,æx) ≤ δ

Como se describio anteriormente, la integracion de los paradigmas de IL e IVRLse ha de dar a travez de la variacion y/o acondicionamiento de δ. De este modo IL eIVRL son casos especıficos del paradigma δ-radius IVRL.

Antes de desarrollar la transicion de modelos es necesario recordar algunas pro-piedades que el modelo de distancia y del entorno proveen:

f es una funcion de distancia definida en el espacio metrico M .

La distancia entre dos elementos en M es 0 solamente cuando ambos elementosson el mismos: f(x, y) = 0⇔ x = y.Identity of Indiscernibles

La definicion del δ-radius CM restringe la definicion de ηi, en la cual no puedenexistir pares (æi,æi).

Programa de Maestrıa en Ciencia de la Computacion - UCSP 43

Page 68: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

5.5. Consideraciones Finales

Con base en estas propiedades, podemos definir IL con δ = 0. De esta formaηi = . Ello debido a que los unicos elementos que pueden tener distancia 0, son lospares (æi,æi), los cuales no pueden formar parte de ηi por definicion del modelo.

De forma similar, se puede definir IVRL con δ = x + 1, donde x corresponde ala mayor distancia entre los elementos de M . Igualmente podrıa definirse con δ = ∞.Teniendo por resultado γi = (æi,æx)|æi,æx ∈Æ,æi 6=æx).

La integracion de ambos modelos mediante la variacion de δ tiene como conse-cuencia la aparicion de sistemas intermedios, los cuales no han de corresponder a ILni IVRL. Estos sistemas intermedios han de tener caracterısticas similares a IVRL, encuanto ha de existir un nivel de comunicacion. Sin embargo estos podrıan mantener unsistema de organizacion complejo dependiendo de como fuese dispuesto el espacio M .

Para determinar el comportamiento y capacidades de los nuevos sistemas origi-nados por δ-radius IVRL se han propuesto problemas especıficos para evaluarlos.

5.5. Consideraciones Finales

El desarrollo de los modelos descritos, Dec-POMDP y δ-radius CM ha permitidounificar la descripcion de los MAS en cuanto a sus dos facetas; la relacion de los agentescon su entorno y la interaccion entre ellos. El nuevo modelo originado por medio de estaintegracion nos ha de permitir describir el paradigma de integracion entre 2 propuestasopuestas; IL e IVRL. Una sinergia que no hubiera sido posible sin la implementaciondel modelo unificado de Dec-POMDP con δ-radius CM.

El impacto del uso de la comunicacion en MAS ha significado siempre un altocosto que solıa ser aceptado de buena forma en el area sin buscar alternativas o soluciondirecta al problema.

Mediante el desarrollo del presente capıtulo se ha conseguido trabajar la definicionde un sistema intermedio a dos paradigmas opuestos. Ambos paradigmas se centranen la definicion de una diferente ideologıa respecto a la comunicacion, la nula o totalinterrelacion entre agentes.

A travez del desarrollo de un sistema de integracion se abre la posibilidad aldesarrollo de un nuevo ambito en la comunicacion; con una considerable amplitud parael estudio de su impacto en la convergencia de MAS.

De este modo nuestra propuesta abre una nueva discusion en el area. Puntual-mente planteamos dos grandes preguntas:

¿Que tan necesaria era (realmente) la comunicacion?

¿Cual debiera ser su ambito y extension?

44 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 69: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 5. Propuesta: δ-radius Influence Value Reinforcement Learning

Respuestas que estan ıntimamente ligadas a la aplicacion del paradigma propuestoy al problema a ser resuelto. Ambas dudas seran absueltas en el desarrollo de losproblemas, capıtulo 7 y 6, y la exposicion de los resultados en el capıtulo 8.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 45

Page 70: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

5.5. Consideraciones Finales

46 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 71: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Capıtulo 6

Problemas Propuestos

Cada nueva propuesta en Inteligencia Artificial, como en cualquier otra area,esta relacionada a la busqueda de una solucion especifica a un problema; sin embargoexisten casos en los cuales dicha solucion pudiera ser resulta de una unica forma o tenermultiples soluciones.

La representacion de diferentes objetivos ha de estar relacionada a la naturalezapropia del problema, pero es un caso que se torna comun en ambientes de multiplesagentes. Ello se debe a que el objetivo descrito a ser alcanzado ha de estar enfocadoa la tarea del grupo. La solucion grupal de un MAS es la suma de las solucionesparciales otorgadas por cada agente en el sistema. El objetivo del MAS podrıa seralcanzado siempre y cuando se cumplan sus requerimientos descritos, ello no implicaque cada agente alcance un punto de convergencia optimo o beneficioso para si mismo(Whitehead, 1991).

Profundizando en este punto se pueden describir dos tipos de soluciones presentesen MAS.

Problemas con multiples respuestas correctas equivalentes

Problemas con multiples respuestas correctas no equivalentes

Es importante remarcar el termino correctas, ya que es evidente que han de existirinfinidad de respuestas incorrectas.

Ambos tipos de problemas han de ser descritos y ejemplificados en las secciones6.1 y 6.2 respectivamente.

47

Page 72: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

6.1. Problema de Convergencia Multiple Coordinada

6.1. Problema de Convergencia Multiple Coordina-

da

Respecto a cualquier problema en Inteligencia Artificial, la convergencia siempreha de tornarse en el objetivo principal ha ser alcanzado (Whitehead, 1991). Sin embargoun nuevo problema surge cuando existe mas de un punto de convergencia semejante,problemas con multiples respuestas correctas equivalentes, una realidad comun en MAS.

El problema de multiple convergencia surge como consecuencia de su representa-cion. Se habla de representacion en cuanto a la forma en la que deben ser abordados.Por ejemplo, si se desea ordenar un conjunto de n elementos iguales, no ha de existirdiferencia en la forma en la que estos puedan ser ordenados y han de existir n! for-mas de ordenarlos. No existe una solucion mejor que otra. Generalmente este tipo deproblemas se han de tornar problemas n-completos (Pini et al., 2013).

Con la finalidad de poner a prueba δ-radius IVRL, se presenta el siguiente pro-blema:

Definicion 17 Problema de Coordinacion Multiple para MAS:Se tiene un grupo de n cajas y n agentes, en cada caja ha de existir una recompensaunitaria, la cual podra ser tomada por un solo agente. En principio cada agente ha dedecidir por una caja. Es posible que MAS de un agente seleccione la misma caja, en cuyocaso se ha de otorgar la recompensa aleatoriamente entre los implicados. El objetivofinal del juego es que los agentes coordinen a fin de seleccionar diferentes opciones ypuedan obtener todos una recompensa.

A pesar de ser un juego tan simple en su descripcion, existen n! respuestas correc-tas con nn opciones posibles. Es claro que encontrar un punto de convergencia bajo esteesquema ha de resultar en una tarea sumamente compleja. Pero esto es aun peor si seutilizara algoritmos exploratorios para establecer alguno de los puntos de convergencia.Esto se debe a que conforme avance el juego las opciones ya visitadas por los agentespodrıan tornarse como malas opciones al coincidir en su decision con otro(s) agente(s).Por ejemplo, dados 3 agentes a, b y c con opciones op1, op2 y op3. Estos podrıan realizarlas siguientes selecciones en diferentes iteraciones:

Iteracion 1: a 7−→ op1, b 7−→ op1 y c 7−→ op2Aleatoriamente se asigna la recompensa para a, en consecuencia la op1 ha de serdesfavorable para b y ası lo ha de aprender.

Iteracion 2: a 7−→ op1, b 7−→ op2 y c 7−→ op2Al ser opciones favorables op1 y op2 para a y b respectivamente, han de seleccionarnuevamente dichas opciones, teniendo ahora conflicto b y c. Aleatoriamente seasigna la recompensa a c. En consecuencia b ha de reforzar su conocimiento sobreop2 como negativa.

48 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 73: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 6. Problemas Propuestos

Figura 6.1: Probabilidad de convergencia para el problema de Convergencia MultipleCoordinada

Iteracion 3: a 7−→ op3, b 7−→ op3 y c 7−→ op2Finalmente, en la 3ra iteracion b ha de explorar la opcion op3. Es en este puntodonde el problema puede tornarse complejo. Si la recompensa fuese a ser asignadaa b el problema terminarıa tras aplicar una polıtica Greedy, pues todos los agenteshan encontrado un punto con recompensa y no se ha anulado la misma por otrasoperaciones. Pero si la recompensa fuese asignada para a, el agente b tendra queseguir explorando y reintentando entre las opciones disponibles, mientras que elagente a tendra 2 opciones disponibles, complicando la tarea de b. y extendiendoel proceso de exploracion.

Este simple escenario se repite a lo largo de las pruebas y se torna mas complejoa medida que la cantidad de agentes crece. Tal cual se menciono, hay n! combinacionescorrectas con nn opciones. Graficamente la probabilidad de encontrar un punto deconvergencia en cada iteracion puede verse en la figura 6.1.

Dada la naturaleza del problema es necesario realizar una adaptacion del mismo,no para alterar su naturaleza, en cambio para mejorar su desempeno.

Es claro que el objetivo del problema es encontrar un conjunto de acciones, paracada agente, que posibiliten la coordinacion y seleccion de diferentes objetivos. Siendoesta la unica restriccion del problema, es posible restringir el proceso de decision parasimplificarlo. Por ejemplo: “Escoger entre par e impar, resulta una decision mas simpleque tener 4 , 5 o n opciones”. Bajo esta premisa, es posible partir la tarea de decisionen sub tareas, las cuales pueden ser resueltas de forma secuencial.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 49

Page 74: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

6.2. Dilema de los Prisioneros

Figura 6.2: Problema de Convergencia Multiple Coordinada

Ası el problema original, mostrado en la figura 6.2, puede ser alterado y reducidoen una secuencia de decisiones menores tal como se muestra en la figura 6.3. La nuevaestructura del problema no ha de alterar la probabilidad de llegar a alguna de lasopciones finales, sin embargo ha de simplificar el proceso de exploracion y beneficiar elproceso de aprendizaje por medio del uso de algoritmos de aprendizaje por refuerzo.

Del mismo modo en que un problema puede presentar un conjunto de respuestasequivalentemente optimas existen tambien otros escenarios similares. Entre los diferen-tes escenarios con multiplicidad de puntos de convergencia se destacan aquellos quepresentan diferentes tipos de convergencia en un mismo problema. En este ambito seresalta el dilema de los prisioneros (Prisoner Dilemma).

6.2. Dilema de los Prisioneros

Como fue descrito al inicio del capıtulo, existen problemas con multiples res-puestas correctas de los cuales se ha de detallar aquellos que presentan respuestas noequivalentes.

Es complejo hablar de respuestas no equivalentes sin antes entender en que se basaesta inequivalencia. En la seccion 6.1 se habla de puntos de convergencia semejantes, esdecir, bajo un mismo enfoque cualquiera de dichos puntos de convergencia ha de valerlo mismo. Entonces un problema con respuestas equivalentes es aquel en donde bajoun mismo punto de vista dos puntos de convergencia tengan un mismo valor. Bajo esteenfoque han de existir respuestas totalmente equivalentes u optimas y en consecuencia

50 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 75: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 6. Problemas Propuestos

Figura 6.3: Adaptacion del Problema de Convergencia Multiple Coordinada

las sub-optimas

Al hablar de respuestas no equivalentes, se hace referencia a aquellos problemasen los cuales se pueden encontrar diferentes puntos de convergencia optima al cambiarel enfoque bajo el cual se los ha de evaluar. Por ejemplo, al evaluar un auto se han deconsiderar diferentes aspectos como velocidad maxima, tipo de combustible, eficienciaen el uso del combustible, comodidad, equipamiento de fabrica, etc.. Bajo cada uno deestos factores ha de existir una lista top de autos. El evaluar diferentes elementos de unproblema ha de introducirnos en una extensa discusion respecto a que punto ha de sermas relevante y en muchos casos no es requerido, pero existen problemas en los cualesesta discusion es el foco del problema.

El Dilema de los Prisioneros representa un elemento unico entre los problemasa ser estudiados en el area, por cuanto ejemplifica perfectamente la multiplicidad deoptimos. En este problema se ha de evaluar la capacidad de los agentes para coordinary encontrar uno de dos puntos de convergencia, cada uno de los cuales representa unenfoque diferente al problema.

El dilema del prisionero nos coloca en un escenario descrito como (Kuhn, 2014):

Tanya y Cinque han sido arrestados, por robar en el banco Hibernico y han sidocolocados en celdas aisladas. Ambos cuidan mucho de sus propios intereses ası comode su complice. A ambos se les realiza la propuesta:

“Puedes confesar o mantenerte en silencio. Si confiesas y tu companero se man-tiene en silencio se han de retirar, para ti, todos los cargos. Ello a cambio de usar tu

Programa de Maestrıa en Ciencia de la Computacion - UCSP 51

Page 76: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

6.2. Dilema de los Prisioneros

Silecio ConfesarSilencio 1 \ 1 8.5\ LibreConfesar Libre\ 8.5 6 \ 6

Cuadro 6.1: Anos en Prision por Opciones

testimonio contra tu complice y darle una serıa condena. De otro modo. Si tu compa-nero(a) confiesa y te mantienes silente, el/ella ha de salir libre mientras tu cumplesla condena completa. Si ambos confiesan, seran convictos, pero se dara pronta libertadcondicional. Si ambos se mantienen en silencio se les dara sentencia por posesion dearmas. Su respuesta debera ser dada a la manana.”

Esta descripcion nos permite entender el panorama, pero es necesario cuantificarlas condenas a fin de explicar cuales son los puntos de convergencia optimos en elproblema. Como se muestra en la tabla 6.1 existen polos opuestos de los cuales sepueden optar. Siendo el extremo de beneficio personal el confesar, aun cuando el/lacomplice llegaran a confesar se ha de obtener una mejor recompensa. Pero si nuestraopcion fuera sacrificarnos por el otro, buscarıamos establecer el maximo beneficio ajeno,en cuyo caso el mantener silencio serıa la opcion a considerar.

Ante dos opciones posibles, cada una de las cuales pertenece a un enfoque dife-rente, es necesario entender el porque son tan relevantes como el problema en si mismo.Cada una de estas opciones corresponde a un paradigma distinto de pensamiento.

Por un lado se tiene Nash Equilibria. Un postulado que antepone la maximizaciondel beneficio propio ante el ajeno, en un ambiente netamente competitivo, generandoen consecuencia un equilibrio tal que:

Definicion 18 Nash Equilibria (Kuhn, 2014)Si cada jugador escoge una estrategia y ningun jugador puede beneficiarse del cambiopropio de estrategias(jugadas) mientras los demas mantienen la propia, entonces ellosestan en Nash Equilibria

Por otro lado se plantea una idea de cooperacion colectiva, bajo la cual buscamosequilibrar el beneficio propio y el ajeno. De esta forma se desarrolla Pareto Optimal:

Definicion 19 Pareto Optimal (Neumann y Morgenstern, 1944)La estrategia de Pareto permite a ambos jugadores ser lo mejor de si mismos, sin hacerque el otro vaya a peor, ello en comparacion con otros posibles escenarios.

Es ası que ambos paradigmas de pensamiento se ven enfrentados en el Dilema delPrisionero. Y tal como se ha de ver en el desarrollo de la parte experimental, existeuna fuerte influencia de la comunicacion en el sistema de aprendizaje de los agentes.El uso de δ-radius IVRL ha de permitir la interpolacion entre ambos paradigmas delpensamiento; pasando de Nash Equilibria a Pareto Optimal a travez de la variacion delfactor δ.

52 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 77: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Capıtulo 7

Implementacion: δ-radius InfluenceValue Reinforcement Learning

Para proceder con el desarrollo de las pruebas sobre los problemas descritos enel capıtulo 6 es necesario desarrollar una aplicacion directa del paradigma descritoδ-radius IVRL. Para ello se ha seleccionado Q − Learning (Sutton y Barto, 1998)como algoritmo base a ser adaptado.

7.1. Adaptacion de Q-learning para IVRL

La adaptacion original para IVRL de Q− Learning se enfoca en mejorar positi-vamente la convergencia del MAS basandose en un comportamiento cooperativo. Estamejora es base para la definicion del Valor de Influencia(IV). IV se calcula en base ala opinion de los agentes respecto a la accion ejecutada por un agente en especıfico.

A continuacion se describe paso a paso la construccion de cada elemento delparadigma IVRL a fin de ser usados en el algoritmo Q-learning. El valor de influenciapara un agente es calculado como (Barrios Aranibar y Goncalves, 2009):

IVi =∑

j∈1:n−i

βi ∗Opj(i) (7.1)

Donde Opj(i) corresponde a la funcion de evaluacion para la opinion y Bi es elcoeficiente de influencia del agente æi sobre el agente æj.

OPi(j) =

((ri)−Q(ai)) ∗OI(aj) if(ri −Q(ai)) < 0

((ri)−Q(ai)) ∗ (1−OI(aj)) if(ri −Q(ai)) > 0

0 otherwise

(7.2)

53

Page 78: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

7.1. Adaptacion de Q-learning para IVRL

Donde aj corresponde a la ultima accion seleccionada por el agente æj, ri larecompensa dada por la ejecucion de dicha accion, Q(ai) el estando interno o conoci-miento del agente ai respecto a la ultima accion ejecutada. Finalmente OIai es elporcentaje que representa el Indice de Ocurrencia para la accion ai.

El Indice de Ocurrencia corresponde al numero de veces que un agente ha se-leccionado una determinada accion. Se puede detallar en diferentes niveles este indice.Por ejemplo, cuantas veces una accion ai fue ejecutada. O entrando en detalle, cuantasveces se dio la accion ai por el agente æx dada la estancia de los agentes æy, æw , . . . ,æz en los estados s1, sn2, . . . , sn respectivamente.

Ası mismo se requiere de una polıtica de seleccion para el algoritmo, esta se ha debasar en el conocimiento de la tabla Q, por lo que se la llamara Polıtica Q. La formaen la que la polıtica ha de trabajar dependera de las necesidades del problema. En elcaso de la presente investigacion se ha optado por el uso de dos polıticas diferentes,cada una de las cuales se ha de aplicar en momentos diferentes.

7.1.1. Polıticas de Seleccion

Las polıticas de seleccion en algoritmos exploratorios permiten determinar cualha de ser el camino ha seguir a travez del problema, estado a estado. Existen diversaspropuestas en el medio, de las cuales se han seleccionado las polıticas Softmax y Greedy.

Softmax es descrita por Bishop Christopher (Bishop, 2006) como un Modelo Ge-nerativo Probabilistico . El objetivo de Softmax es atenuar el sistema de probabilidadesde seleccion. Ello permite otorgar una chance equitativa de seleccion a elementos dife-rentes de un mismo grupo. Softmax de Bishop se define por la formula:

Definicion 20 Softmax Formula

P (y = j|x) =ex

twj

Σkk=1e

xTwk

Las figuras 7.1 y 7.2 muestran como la probabilidad puede ser acondicionada pormedio de Softmax para mejorar el desempeno de la seleccion de opciones, sin con elloperder la percepcion de que alguna de ellas puede ser mejor que las demas.

A diferencia de Softmax, la cual busca establecer un principio de equidad para laseleccion, la polıtica Greedy busca seleccionar de forma directa el elemento de mayorprobabilidad en su conjunto de opciones. Ello nos permitira seleccionar siempre lamejor opcion.

Ambas polıticas seran usadas a travez de las pruebas, pero es importante remar-car en que momento y porque. Softmax sera usada durante el entrenamiento de los

54 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 79: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 7. Implementacion: δ-radius Influence Value Reinforcement Learning

Figura 7.1: Comparacion entre la probabilidad original (f(n) = n/10) y la dada porSoftmax en base a f(n)

Figura 7.2: Comparacion entre la probabilidad original (f(n) = en/10) y la dada porSoftmax en base a f(n)

Programa de Maestrıa en Ciencia de la Computacion - UCSP 55

Page 80: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

7.2. Adaptacion de Q-learning para δ-radius IVRL

agentes, a fin de garantizar que estos puedan explorar la mayor cantidad de posibilida-des en el ambiente disenado para modelar el problema. Greedy se ha de utilizar comoherramienta de evaluacion, en este punto final se busca conocer cual es la mejor opcionen base a lo conocido por el agente. En terminos simples, se buscara explorar todocuanto sea posible y finalmente entregar como respuesta el recorrido optimo segun labase del conocimiento.

A continuacion se ha de describir el algoritmo Q-Learning adaptado a IVRL enbase a los puntos descritos.

Algorithm 1 Influence Value Reinforcement Learning

1: procedure Q-Learning IVRL Step2: for all æi ∈Æ do3: Con base en la politica Qi seleccionar una accion ai del estado si(t)4: Ejecutar la accion ai5: Mover el agente a si(t+ 1)6: Actualizar la recompensa inmediata ri(t+ 1)7: RVi = ri(t+ 1) +maxQ(si(t+ 1), ai)−Q(si(t), ai(t))8: for all æj ∈Æ−æi do9:

OPi(j) =

((ri)−Q(ai)) ∗OI(aj) if(ri −Q(ai)) < 0

((ri)−Q(ai)) ∗ (1−OI(aj)) if(ri −Q(ai)) > 0

0 otherwise

10: IVi =∑

(j∈1:n−1)∈γi Bi ∗Opj(i)11: Qi(s(t), ai(t)) = Qi(s(t), ai(t)) + α(ri(t + 1) + σmaxQ(s(t + 1), ai) −

Qi(s(t), ai(t)) + δIVi)12: t = t+ 1

Ya descrita la adaptacion de Q-Learning para IVRL, es necesario aprovechar sudescripcion para continuar con la adaptacion final a δ-radius IVRL y con ello procedera la exposicion de los problemas propuestos.

7.2. Adaptacion de Q-learning para δ-radius IVRL

Es posible ampliar a la descripcion de Q-Learning para IVRL a fin de adaptarlaa δ-radius IVRL, ello teniendo a consideracion la integracion entre IVRL e IL.

Ha que considerarse que δ-radius IVRL busca reducir el ambito de comunicacionde los agentes, por lo cual es necesario re-definir el valor de IV en base a γi para cadaagente en el sistema. De este modo IV se redefine como δIV

Definicion 21 δ-Valor de Influencia (δ-Influence Value )El valor de influencia para un agente es calculado como:

56 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 81: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 7. Implementacion: δ-radius Influence Value Reinforcement Learning

IVi =∑j∈γi

Bi ∗Opj(i)

La construccion de γi como algoritmo no esta dentro de los objetivos descritospara la presente investigacion. Existen muchos metodos para construir o estructurar γide forma optima mediante el uso de tecnicas de paralizacion. Sin entrar en detalle sepodrıa construir γi para todos los agentes, y en consecuencia η, como se describe en elalgoritmo 2.

Algorithm 2 δ-radius Influence Value Reinforcement Learning Initialization

1: procedure δ-radius IVRL Initialization2: η = 3: for all æi ∈ Æ do4: γi = 5: for all æj ∈Æ−æi do6: d = f(æi,æj)7: if d ≤ δ then8: γi = γi ∪ (æi,æj)9: η = η ∪ γi

Una vez definidas las bases de inicializacion y la restriccion dada para δ-IV sedefine el algoritmo Q-Learning para δ-radius IVRL como:

Algorithm 3 δ-radius Influence Value Reinforcement Learning - Q-Learning

1: procedure Q-Learning δ-radius IVRL Step2: for all æi ∈Æ do3: Con base en la politica Qi seleccionar una accion ai del estado si(t)4: Ejecutar la accion ai5: Mover el agente a si(t+ 1)6: Actualizar la recompensa inmediata ri(t+ 1)7: RVi = ri(t+ 1) +maxQ(si(t+ 1), ai)−Q(si(t), ai(t))8: for all æj ∈ η−æi do9:

OPi(j) =

((ri)−Q(ai)) ∗OI(aj) if(ri −Q(ai)) < 0

((ri)−Q(ai)) ∗ (1−OI(aj)) if(ri −Q(ai)) > 0

0 otherwise

10: δIVi =∑

(j,αi)∈γi Bi ∗Opj(i)11: Qi(s(t), ai(t)) = Qi(s(t), ai(t)) + α(ri(t + 1) + σmaxQ(s(t + 1), ai) −

Qi(s(t), ai(t)) + δIVi)12: t = t+ 1

El algoritmo 3 describe el procedimiento requerido para un agente en una iteracionde aprendizaje. Brevemente, se ha de seleccionar una accion de entre sus opciones

Programa de Maestrıa en Ciencia de la Computacion - UCSP 57

Page 82: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

7.3. Consideraciones Finales

mediante la polıtica Qi, ejecutara la accion seleccionada y procedera a actualizar susvalores internos ri, RVi.

Una vez actualizados los valores internos de todos los agentes se procede al calculode los valores de opinion y δIV . Finalmente se actualiza la tabla de conocimientos parala accion tomada y se procede a la siguiente iteracion.

La simple variacion del ambito de consulta del agente æi para la construccion deδIV ha de ayudar a establecer una mejora en los tiempos del algoritmo en relacion aldescrito originalmente para IVRL.

En el caso de IVRL el costo computacional de calculo es O(n) = n2 para cadaiteracion en el proceso de aprendizaje. En IL este costo es igual a O(n) = n, pues norequiere ejecutar los calculos correspondientes a RVi, OPi ni δIV . Finalmente δ-IVRLtiene un costo computacional en el aprendizaje de O(n) = c ∗ n, donde c es el numeromaximo de agentes alcanzados por el radio de comunicacion entre todos los agentes.

Como se ha de ver en el desarrollo de los experimentos, el valor de c tiende a estarpor debajo de n para llegar a un punto medio entre IL e IVRL en el cual el sistemaencuentra estabilidad en un punto de convergencia.

7.3. Consideraciones Finales

En este capıtulo se desarrollo la adaptacion Q-Learning para IVRL y δ-radius IVRL.Lo cual permitio entender como los paradigmas IL e IVRL son unificados a travez dela variacion de δ.

Es importante resaltar que la transicion entre IL e IVRL a travez de δ-radius IVRLha de encontrar un punto intermedio en el cual se vea el cambio del comportamientoentre paradigmas.

Dicho punto medio ha de depender del problema propuesto y la configuracion delas variables o atenuantes propios de Q-Learning como lo son la polıtica Softmax y elatenuante de aprendizaje α.

Finalmente, se destaca la posibilidad de reducir la complejidad algorıtmica deδ-radius IVRL con la variacion de δ. Un hecho que puede ser aprovechado en sistemasen los cuales la comunicacion tenga un costo adicional, como podrıan ser los sistemasdistribuidos.

58 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 83: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Capıtulo 8

Resultados Finales

La adaptacion de Q-Learning al paradigma δ-radius IVRL, presentada en el ca-pıtulo 7, ha de ser puesta a prueba en los problemas descritos en el capıtulo 6: Con-vergencia Multiple Coordinada y Dilema del Prisionero.

Ambos problemas fueron seleccionados por presentar caracterısticas unicas quepermiten explorar las capacidades de convergencia de los MAS. Cada una de estaspruebas ha de exaltar diferentes caracterısticas de un MAS, siendo la capacidad deauto-organizacion la primera en ser puesta a prueba en el problema de ConvergenciaMultiple Coordinada.

Del mismo modo se destaca la existencia de multiples puntos de convergencia. ElDilema del Prisionero representa perfectamente este escenario. La dualidad de opcionesse ha de presentar en cuanto se cambia el enfoque de evaluacion. Ası, dependiendo delcaso, una u otra opcion podrıan ser correctas o incorrectas.

A continuacion se ha de desarrollar el marco de configuracion de las pruebas a finde tener una mejor concepcion previa al desarrollo propio de los resultados.

8.1. Configuracion de las Pruebas

A fin de no extender o replicar contenido se ha de desarrollar una breve explicacionde la configuracion que han de tener las pruebas, tanto en las variables del algoritmo,como tambien en la distribucion de los agentes y su configuracion de comunicacion.

Es importante aclarar que ambos problemas han sido probados bajo las mismasconfiguraciones y que los valores que se han considerado para cada variable han sidoprobados en combinatoria respecto a los valores de las otras variables. Es decir, se hanprobado todas las configuraciones posibles entre los valores escogidos, cuadro 8.1.

Las variables propias del algoritmo de aprendizaje y sus valores relacionados se

59

Page 84: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.1. Configuracion de las Pruebas

Reward Rate 0.5 - 0.75β 0.5 - 0.75

Softmax Value 0.0 - 0.2 - 0.4 - 0.6 - 0.8 - 1.0

Cuadro 8.1: Valores seleccionados para las pruebas

describen a continuacion:

Definicion 22 Variables de Aprendizaje - Configuracion para las Pruebas

Reward Rate : Tasa de aprendizaje asignada por el algoritmo Q-Learning

β : Tasa de influencia para IV asignada por IVRL para Q-Learning

Softmax Value : Valor que determina cuan aleatoria/golosa ha de serla seleccion de opciones (polıtica de seleccion) para Q-Learning.

Es importante aclarar que se ha adaptado el Softmax Value para ser inversa a laformula original por lo tanto su comportamiento se ha de regir de la siguiente manera:Aleatorio (proximo a 0), Goloso(mas lejano a 0).

Como se ha de mostrar en los resultados, la variacion de algunos de estos factoresha de afectar los resultados finales. Ello se debe a que los factores regulan directamentela influencia del medio y sus recompensas(Reward Rate), ası como tambien la influenciade los demas agentes con respecto al agente actual en aprendizaje(β).

Cada grafica expuesta ha de ser el resultado de la ejecucion de experimentos inde-pendientes bajo una misma configuracion de las variables del algoritmo. Los resultadosmostrados en las graficas son el resultado de promediar o agrupar las salidas de losexperimentos independientes.

Se ha de sumar a esto la variacion del radio δ por parte de la propuesta, δ-radiusCM. Entonces se han realizado un total de 500 pruebas, cada una de las cuales hatenido un periodo de aprendizaje de 1000 iteraciones para cada configuracion dada porcada variacion establecida en la variacion de δ.

La variacion de δ y la distribucion de los agentes (Æ) en su medio se ha de discutirdetalladamente en 8.1.1.

8.1.1. Distribucion de los Agentes y la Aplicacion de δ-radiusCM

El sistema de comunicacion entre los agentes podrıa ser probado de diferentesformas, la variacion del radio de influencia podrıa ser establecido de forma dinamica

60 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 85: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

mientras se lleva a cabo la resolucion del problema o podrıa tambien estar sujeto a sudesplazamiento en el plano del juego. Sin embargo estas variables podrıan condicionarfuertemente los resultados. Ello se debe a que cada factor agregado a la variacion debede ser probado exhaustivamente a fin de determinar que tanto puede o no influir en elexperimento.

Teniendo en consideracion esta problematica se decidio trabajar con un sistema decomunicacion fijo, establecido al inicio del experimento y que se mantendrıa invariablehasta terminar las pruebas. Ello nos permite asegurar que el unico factor a tener encuenta ha de estar relacionado a la comunicacion.

Adicionalmente, se ha previsto que la distribucion de los agentes es de sumaimportancia y la aleatoreizacion de su distribucion resultarıa en un problema similar altrabajo con un sistema dinamico por lo cual es importante mantener una distribucionuniforme que permita ver el avance e incremento del ambito de comunicacion.

Finalmente y a fin de mantener un sistema de comunicacion que permita analizarla influencia de la comunicacion y percibir su evolucion en el sistema, se propone lasiguiente distribucion:

Æ el conjunto estandar de agentes en M

M una lista doblemente enlazada, donde cada nodo de la lista alberga un agente.

f , funcion de distancia definida como f(æi,æj) = min(D(æi,æj), I(æi,æj)). Don-de D es el numero de pasos a la derecha requeridos para que el agente æj lleguea la casilla del agente æi e I es el numero de pasos a la izquierda requeridos paraque el agente æj llegue a la casilla del agente æi.

Este simple modelo ha de permitir analizar el comportamiento del MAS en cuanto a lavariacion de la comunicacion. Algo interesante respecto a este esquema es la progresionde la comunicacion. En esta se podra ver como progresivamente se han de agregarsiempre 2 agentes al ambito de comunicacion propio, ello para cada agente. El aumentoprogresivo de la comunicacion para el esquema propuesto en las pruebas puede verseclaramente en la figura 8.1.

8.2. Problema de Opcion Multiple Coordinada

Como ya fue descrito anteriormente, (capıtulo 6), el problema de Opcion Multiplecorresponde a la adaptacion de un problema de auto-organizacion por medio de un juegoiterativo. En cada fase del juego se ha de elegir entre un numero limitado de opciones,para el caso puntual 2. El objetivo final del juego es posicionar cada agente en unacasilla diferente, las cuales se encuentran en la ultima etapa de opciones.

Los graficos mostrados en la presente seccion representan el comportamiento pro-medio desarrollado por los agentes a travez de las diferentes pruebas realizadas. Se ha

Programa de Maestrıa en Ciencia de la Computacion - UCSP 61

Page 86: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.2. Problema de Opcion Multiple Coordinada

Figura 8.1: Incremento de δ y su Impacto en la Comunicacion

Figura 8.2: Grafica de Tendencia a la Convergencia - Ejemplo

62 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 87: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Reward Rate 0.75β 0.75

Softmax Value 0.0

Cuadro 8.2: Cuadro de Valores Asignados al Ejemplo

de mostrar el resultado promedio a la cantidad de agentes alojados por casilla tras unproceso de aprendizaje de 1000 iteraciones para 500 pruebas bajo una configuracionpredeterminada.

Para comprender mejor los resultados de este problema se ha de desarrollar unabreve explicacion de la figura 8.2 y sus resultados:

La grafica 8.2 corresponde a la configuracion del cuadro 8.2. En esta graficase muestra que el 39,4 % de agentes se han alojado en casillas diferentes, es decir,conforman grupos unitarios. El 37,95 % de agentes han realizado una eleccion, tal que,como resultado se han agrupado en pares. Y el 16,46 % se han coincidido y se hanagrupado formando grupos de 3 en sus respectivas opciones; etc.

Es necesario entender que la agrupacion de agentes se puede dar en diferentesopciones. Por ejemplo, pudiera existir una agrupacion de 2 agentes en el estado final#5 y otra agrupacion de 2 en el estado final #7; entonces estos 4 agentes han de sercontabilizados como aquellos que se agruparon en pares.

8.2.1. Analisis de los Resultados

A continuacion se han de presentar algunas de las conclusiones dadas a partir delos resultados obtenidos en las pruebas.

Uno de los factores que mas han destacado en la prueba de Coordinacion Mul-tiple ha sido la variacion del factor de aleatoriedad (Softmax). Esta variable permiteestablecer que tan golosa o aleatoria ha de ser la toma de decisiones en la etapa deaprendizaje; y es gracias a esta que se puede lograr explorar una mayor variedad deopciones en el modelo del mundo para los agentes.

El objetivo de usar un comportamiento proximo al aleatorio o aleatorio total, esmaximizar la capacidad de exploracion de los agentes. A mas aleatoria sea la tomade decisiones, mayor sera la probabilidad de explorar diferentes opciones. Al contrario,a mas goloso(greedy) sea el comportamiento, menor sera la posibilidad de explorarnuevas opciones.

Al tratarse de un problema de coordinacion, ha de ser claro que el uso de unsistema de exploracion altamente aleatorio ha de contribuir en el desarrollo de uncomportamiento con mayor fundamento en la exploracion, un comportamiento masindependiente. Cada agente ha de explorar por si mismo que hizo bien o mal.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 63

Page 88: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.2. Problema de Opcion Multiple Coordinada

Figura 8.3: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.5 Softmax Value = 0.0

Este comportamiento esperado se torna en un hecho al analizar los resultados delas graficas 9.25, 9.31, 9.37 y 9.43. En estos casos lo primero que ha de saltar a la vistaes la gran similitud que existe entre las graficas. Y en consecuencia, la poca diferenciaexistente en el comportamiento desarrollado bajo diferentes configuraciones de δ.

Esto indica que ante un ambiente exploratorio abierto y con una nula capacidadde remembranza( en entrenamiento) es posible llegar a un punto de convergencia sinnecesidad de establecer comunicacion alguna. Un resultado que reafirma la capacidaddel paradigma IL para lograr alcanzar puntos de convergencia ignorando las accionesajenas.

El desarrollo de este comportamiento, es tambien una consecuencia de la bajainfluencia que se puede proporcionar al refuerzo del aprendizaje a travez de la explo-racion aleatoria. Motivo por el cual existe una ligera mejora al incrementar los valoresdel ratio de recompensa (Reward Rate) y ß (Variable de Influencia).

En conclusion a ello podemos afirmar que dada una polıtica de exploracion alea-toria, IL ha de resultar la mejor opcion. Se puede afirmar esto, no solo en consecuenciaa los resultados, sino tambien por la marcada diferencia en los costos computacionalesde las propuestas.

El costo computacional de IL para cada iteracion en el aprendizaje es O(n)(∗),mientras que el costo computacional de aprendizaje para los sistemas con comunicacionglobal ha de ser O(nn)(∗) para cada iteracion. Una diferencia notable en tiempos.

Existen tambien los sistemas intermedios de comunicacion, aquellos originadosdirectamente por δ-radius, cuyo costo computacional serıa (n× c)(∗)(∗∗). Sin embargosu aporte respecto a IL es mınimo.

64 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 89: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Figura 8.4: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.75 Softmax Value = 0.0

Figura 8.5: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.75 ß = 0.5 Softmax Value = 0.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 65

Page 90: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.2. Problema de Opcion Multiple Coordinada

Figura 8.6: Problema de Seleccion Multiple Coordinada,Multiple Coordinada, Confi-guracion : Reward Rate = 0.75 ß = 0.75 Softmax Value = 0.0

(*) n es el numero total de agentes en el sistema (**)c es una constante, para elcaso puntual representa el mayor numero de agentes conectados para una configuracionespecifica de δ-radius.

Este panorama ha de verse afectado completamente al aparecer una polıtica noaleatoria. Al alterar el valor de la variable de Softmax, de 0 a 0.2, un nuevo comporta-miento ha de ser percibido en los agentes. Ahora IL ha de estar por debajo del sistemade comunicacion global y todas las variaciones de δ-radius con un δ 6= 0. Este feno-meno se puede apreciar claramente conforme el valor de Sotfmax Value se incrementasin alterar otras variables. Figuras 9.25, 9.26, 9.27, 9.28, 9.29 y 9.30.

En el caso de la figura 9.30 se puede apreciar tambien una clara superioridad en lacapacidad de coordinacion presente en los sistemas de comunicacion intermedios. Estecomportamiento se ha de hacer mas notable en el dilema de los prisioneros.

Respecto a la convergencia de los sistemas de comunicacion intermedios, hay unamayor proximidad entre ellos en los casos en los cuales ß es 0.75 respecto a los casoscon ß = 0.5. Se puede tener nocion de ello al examinar el patron de comportamientoen las graficas 9.30, 9.36 9.42 y 9.48.

El comportamiento observado es una consecuencia directa del incremento de lainfluencia. Es importante recordar que el valor de influencia IV es calculado como lasumatoria de las opiniones multiplicadas por ß. De este modo IV ha de recibir unincremento proporcional al aumentar ß.

IV = ΣOpj(i) (8.1)

Se puede concluir que el comportamiento de los agentes con comunicacion puede

66 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 91: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Figura 8.7: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.5 Softmax Value = 0.2

Figura 8.8: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.5 Softmax Value = 0.4

Programa de Maestrıa en Ciencia de la Computacion - UCSP 67

Page 92: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.2. Problema de Opcion Multiple Coordinada

Figura 8.9: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.5 Softmax Value = 0.6

Figura 8.10: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.5 Softmax Value = 0.8

68 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 93: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Figura 8.11: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.5 Softmax Value = 1.0

ser mejorado y mejor diferenciado si ß es incrementado. Es tambien recomendablemantener una proporcionalidad entre ß y la tasa de aprendizaje en los agentes. Estose debe a que un incremento desproporcionado de la tasa de aprendizaje respecto aß ha de provocar un comportamiento no deseado para el sistema. Esto se puede verclaramente al comparar las figuras 9.46 y 9.34.

En la figura 9.34 se puede ver que el porcentaje maximo de agentes perfectamentecoordinados se alcanzo con δ = 4, mientras que en la figura 9.46 se alcanzo con δ = 6.Esto se ha de repetir en casos similares como las figuras 9.35 y 9.47.

Finalmente, al observar en conjunto los resultados se puede afirmar que se debebuscar un equilibrio entre aleatoriedad, tasa de aprendizaje y margen de influencia.Cada uno de estos factores ha de aportar a la convergencia del sistema en diferentesformas. Resalta el caso del aprendizaje basado en exploracion aleatoria, donde la con-vergencia de las diferentes propuestas ha de ser muy proxima; teniendo solo matices demejora en los casos de comunicacion intermedios.

El uso de comunicacion ha de notar mejora a travez del uso de polıticas de explo-racion no aleatorias. En estos casos han de resaltar los sistemas intermedios que sonproducto del paradigma δ-radius IVRL. Estos sistemas han de tener un mayor porcen-taje de agentes bien coordinados en comparacion con IL o IVRL original (δ = 8).

En cuanto a costo computacional tambien se ha de notar mejora mediante el usode la propuesta de δ-radius IVRL, ya que como se menciono su costo computacional esO(n× c).

De este modo la propuesta logra mantener 2 factores importantes de los paradig-mas que le dan origen: El bajo costo computacional de IL y la mejora en convergencialograda por IVRL.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 69

Page 94: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.2. Problema de Opcion Multiple Coordinada

Figura 8.12: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.75 Softmax Value = 1.0

Figura 8.13: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.75 ß = 0.5 Softmax Value = 1.0

70 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 95: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Figura 8.14: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.75 ß = 0.75 Softmax Value = 1.0

Figura 8.15: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.75 ß = 0.75 Softmax Value = 0.6

Programa de Maestrıa en Ciencia de la Computacion - UCSP 71

Page 96: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.2. Problema de Opcion Multiple Coordinada

Figura 8.16: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.75 Softmax Value = 0.6

Figura 8.17: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.5 ß = 0.75 Softmax Value = 0.8

72 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 97: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Figura 8.18: Problema de Seleccion Multiple Coordinada, Configuracion : Reward Rate= 0.75 ß = 0.75 Softmax Value = 0.8

8.3. Dilema de los Prisioneros

Como ya fuera mencionado, el problema de Seleccion Multiple Coordinada y elDilema de los Prisioneros, fueron seleccionados por contar con caracterısticas especiales.En el caso del Dilema de los Prisioneros se busca determinar cual es la tendencia deconvergencia en los MAS.

El dilema del prisionero es un problema especial, en el cual se pueden apreciar dospuntos de convergencia optimos. El primero hace referencia al equilibrio de Nash y elsegundo a Pareto Optimo. Cada uno ha de representar el equilibrio optimo competitivoy el optimo cooperativo respectivamente.

Dado que el dilema del prisionero fue disenado originalmente para ser un juegorepetitivo para 2 agentes, se ha requerido de una adaptacion al escenario de los MAS.La adaptacion fue llevada a cabo por medio de la modificacion de las funciones derecompensa entregadas cuando un agente opta por confesar (f(x)) o guardar silencio(g(x)).

Teniendo como base el esquema de recompensas originales, presentado en la tabla8.3, se ha creado un modelo transitorio para una comunidad de mas de 2 agentes. Eneste modelo se muestra en la figura 8.19.

Mediante estas 2 funciones de recompensa, se ha de poder entregar una recom-pensa a la eleccion de cada agente; esto en base al porcentaje de agentes que tome cadaopcion.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 73

Page 98: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.3. Dilema de los Prisioneros

Silecio ConfesarSilencio 1 \ 1 8.5\ LibreConfesar Libre\ 8.5 6 \ 6

Cuadro 8.3: Anos en Prision por Opciones

Figura 8.19: Curvas de recompensa para Dilema del Prisionero

Las curvas de recompensa para ambas opciones han de ser:

f(x) = 0,375× 124×x (8.2)

g(x) = 24×x−1 − 9 (8.3)

Es importante resaltar que la comunicacion se ha de dar tras recibir la recompensade cada agente. Por lo cual se mantiene uno de los principios del juego: Los agentesestan en habitaciones aisladas durante el interrogatorio y toma de decision.

Esta aclaracion es de suma importancia, pues de no darse este requerimiento todoel problema y resultados se verıan comprometidos por una mala implementacion.

La variacion de los factores de aleatoriedad (Softmax), influencia (ß) y ratio derecompensa (Reward Rate) se han de mantener respecto al problema anterior.

74 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 99: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

8.3.1. Analisis de los Resultados

A diferencia de lo mostrado en los resultados del Coordinacion Multiple; en el Di-lema de los Prisioneros resalta claramente que el condicionamiento del comportamientoha de basarse en solo 2 variables Softmax y ß.

Manteniendo el esquema anteriormente planteado se ha de analizar primero lainfluencia de la aleatoreidad en la exploracion para la etapa de aprendizaje.

A diferencia del problema de Seleccion Multiple Coordinada, el Dilema de losPrisioneros nos muestra una clara diferencia entre IL y los sistemas con comunicacion,marcando incluso una diferencia notable entre aquellos sistemas con una baja densidadde comunicacion ( δ = 1, 2, 3). Pudiendose apreciar una gran similitud en las graficasde las figuras 8.20 y 8.21. Otro comportamiento diferente se presenta en 8.22 y 8.23.

Estos 2 tipos de comportamiento para casos con exploracion aleatoria coincidenen el ß asignado. Por lo que se puede afirmar que el factor determinante en este casoserıa la comunicacion.

En este punto aparece tambien un nuevo punto de convergencia optimo. Cuandoel 50 % de agentes elige confesar y el otro 50 % mantenerse en silencio, todos losagentes han de recibir una pena aproximada de 4.5 anos. Al analizar mejor este casoencontramos que se trata de un optimo en Pareto.

Un sistema se encuentra en equilibrio de Pareto si ningun jugador es capaz decambiar su jugada sin empeorar los resultados ajenos. En este caso, si alguno de losagentes cambiase su decision afectarıa a los demas incrementado sus condenas; de estaforma confirmamos que existe un punto de convergencia optimo bajo la condicion dePareto Optimo.

De este modo podemos concluir que la presencia de comunicacion en un ambientede entrenamiento con polıtica aleatoria conlleva a un punto de convergencia de Pa-reto y de forma contraria, la ausencia o baja presencia de comunicacion ha de tenerconvergencia en Nash Equilibria.

Tambien se puede observar en estas graficas,8.20 y 8.21, que existe una tendenciadirecta a Pareto al incrementar la comunicacion y sobretodo mantenerla. Mientrasque los casos de las graficas 8.22 y 8.23 solamente han de mantener la tendencia a laconvergencia en Pareto hasta δ = 7 y 8 y despues han de retomar un comportamientocompetitivo y tomar una tendencia a la convergencia en Nash Equilibria.

Una vez establecido el comportamiento con una polıtica de seleccion aleatoria(Softmax = 0), procedemos a incrementar su valor a fin de aproximarlo a una tendenciamas golosa (greedy).

Mediante el incremento del valor de Softmax se ha de notar una tendencia quealtera el sentido de convergencia del sistema. En este punto han de existir 2 casosnuevamente. Para aquellas pruebas en las cuales el valor de ß = 0.5 la tendencia hacia

Programa de Maestrıa en Ciencia de la Computacion - UCSP 75

Page 100: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.3. Dilema de los Prisioneros

Pareto se ha de mantener a lo largo de las pruebas, aun cuando el valor de Softmax sevea alterado. Figuras 8.24, 8.25, 8.26, 8.27 y 8.28.

Por el contrario, en aquellos casos en los cuales ß = 0.75 la tendencia haciaPareto se ha de ver afectada en los casos con δ = 9 y 10. Figuras 8.29, 8.30, 8.31, 8.32y 8.33. Es decir, nuevamente el exceso de comunicacion lleva a los agentes a manteneruna tendencia hacia la traicion. Un comportamiento que fue discutido y demostradobajo un condicionamiento diferente en δ-Radius Unified Influence Value ReinforcementLearning (Camargo Monroy, J. Alejandro and Barrios-Aranibar, Dennis, 2016).

De este modo, y bajo configuraciones diferentes, se puede observar que la presenciade un sistema de comunicacion controlado ( instancias intermedias ) ha de permitir eldesarrollo de un comportamiento colectivo mejor. Ya que en este caso se ha de buscarun mejor desempeno como grupo antes que el beneficio propio como individuo.

Como ya fue mencionado al final de la seccion 8.2.1 los sistemas intermedios hande darnos un beneficio dual; un bajo costo computacional y un cambio perceptible enel comportamiento de los agentes. Este segundo punto ha de ser el foco y mayor aportede este segundo experimento.

Hay que tener en claro que la reduccion del margen de aleatoreidad ha de con-tribuir tambien en el incremento de la influencia de los agentes. Ello se debe al factorOi del algoritmo adaptado Q-Learning para δ-radius IVRL. Este factor ha de reforzarel comportamiento proporcionalmente al numero de veces que se repite una eleccionrespecto al total de opciones disponibles.

Ademas, se debe considerar tambien la influencia de ß = 0.75, un valor muy altopara las ultimas instancias de configuracion con δ = 8 y 9. Sumados ambos factores,ß y baja aleatoreidad; han de producir un fenomeno de exceso de influencia. Anteesta situacion los agentes alteraran su comportamiento subitamente por tener mayorinfluencia de sus semejantes, que de la propia experiencia. Un comportamiento similaral desarrollado por algunos humanos al verse cohibidos por sus semejantes.

Finalmente, con el analisis de este interesante comportamiento desarrollado po-demos dar paso a las conclusiones y la propuesta de los trabajos futuros basados en lapresente tesis.

76 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 101: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Figura 8.20: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.5 Softmax Value = 0.0

Figura 8.21: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.75 ß = 0.5 Softmax Value = 0.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 77

Page 102: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.3. Dilema de los Prisioneros

Figura 8.22: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.75 Softmax Value = 0.0

Figura 8.23: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.75 ß = 0.75 Softmax Value = 0.0

78 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 103: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Figura 8.24: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.5 Softmax Value = 0.2

Figura 8.25: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.5 Softmax Value = 0.4

Programa de Maestrıa en Ciencia de la Computacion - UCSP 79

Page 104: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.3. Dilema de los Prisioneros

Figura 8.26: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.5 Softmax Value = 0.6

Figura 8.27: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.5 Softmax Value = 0.8

80 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 105: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Figura 8.28: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.5 Softmax Value = 1.0

Figura 8.29: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.75 Softmax Value = 0.2

Programa de Maestrıa en Ciencia de la Computacion - UCSP 81

Page 106: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.3. Dilema de los Prisioneros

Figura 8.30: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.75 Softmax Value = 0.4

Figura 8.31: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.75 Softmax Value = 0.6

82 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 107: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 8. Resultados Finales

Figura 8.32: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.75 Softmax Value = 0.8

Figura 8.33: Dilema de los PrisionerosConfiguracion : Reward Rate = 0.5 ß = 0.75 Softmax Value = 1.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 83

Page 108: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

8.3. Dilema de los Prisioneros

84 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 109: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Capıtulo 9

Conclusiones y Trabajos Futuros

Finalmente, se han de detallar las conclusiones a las cuales se han llegado pormedio del desarrollo de la presente tesis:

1. El desarrollo de esquemas taxonomicos para MAS en el capıtulo 3 ha permitidoestablecer una clara diferencia entre aquellos sistemas que pertenecen a la ramade MAS y aquellos que resultan siendo simulaciones. La principal diferenciaentre un verdadero MAS y una simulacion ha de ser la independencia entre losagentes. Esta se debe dar a nivel de toma de decisiones como tambien en suimplementacion. Un sistema centralizado podrıa bien ser disenado como un MASpero su implementacion ha de ser la de un solo agente simulando decisionescolectivas.

2. Existe un uso inadecuado de las representaciones de modelos formales en el estadodel arte actual. A pesar de la existencia de POMDP existen actualmente muchaspropuestas que se basan en modelos previos o contemporaneos incompletos. Se haobservado este caso repetidas veces en el estado del arte; siendo un problema muygrave pues no tienen a consideracion que el uso de Modelos incompletos, comoMDP, recae directamente en una reduccion o condicionamiento de su propiapropuesta.

Por ejemplo, el simple hecho de modelar cualquier problema en MAS bajo MDPha condicionar el problema ha ser determinista; pues MDP ası lo define.

3. Dec-POMDP es el modelo mas completo para representar formalmente un MAS,sin embargo carecıa de una representacion para restringir y especificar cual de-biera ser la interaccion entre los agentes en el problema.

La integracion de δ-radius CM y Dec-POMDP permite concretar el modelo formalcompleto requerido para disenar y aplicar propuestas basadas en MAS.

4. El desarrollo del modelo de comunicacion : δ-radius CM, ha permitido integrar2 paradigmas de comunicacion opuestos. Aunque la presente investigacion solo

85

Page 110: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

muestra la integracion de IL e IVRL, es posible realizar tambien la integracionde otros paradigmas como JAL con IL.

Es necesario remarcar esto ya que el modelo formal podrıa ser aplicado a la inte-gracion de cualquier paradigma de comunicacion global con IL a fin de engendrarnuevas propuestas.

5. Existe una intima relacion entre el factor de aleatoreidad (Softmax) con la orien-tacion y convergencia de los problemas en estudio. Ello se debe a que la influenciase ha de tornar mayor conforme una u otra opcion fuese retomada en la explo-racion del problema. Es decir, la tendencia a una u otra opcion se ha de verreforzada por una tendencia mas golosa (greedy) y ha de ser mayor el impacto siexistiera comunicacion y por ende influencia entre los agentes.

6. La existencia de comunicacion ha de afectar la forma en que un sistema puedaconverger. Como se vio en ambos problemas, la comunicacion abre una nuevaposibilidad al mejorar la respuesta del sistema o cambiar dicha respuesta.

La mejora de un sistema se puede apreciar de forma directa; ello mediante unanalisis de los resultados que debieran mejorar al agregar comunicacion. En elcaso particular del problema de coordinacion se ha podido apreciar claramenteeste resultado.

El segundo caso se ha visto en el Dilema del Prisionero, en donde la influencia dela comunicacion cambio el actuar de los agentes de un medio competitivo (NashEquilibria) a un modelo cooperativo (Pareto Optimo).

Es claro que en ambos casos han de existir excepciones, y estas se han presentadoen los casos con exceso de comunicacion.

7. Existe una diferencia entre los diferentes niveles de comunicacion que puedanestablecerse y los resultados que han de generar. Como se pudo observar en ambosproblemas, el desarrollo de un sistema de comunicacion ha alterado y/o mejoradoel desempeno del sistema. Sin embargo este aporte no ha sido el mismo para losdistintos niveles de comunicacion.

Es claro que existe un punto de equilibrio para la comunicacion, el cual se ha depresentar como un maximo global en las graficas de resultados. La evaluacion deeste maximo ha de ser puntual a cada caso o problema que desee desarrollarse.

8. El uso de un sistema de comunicacion intermedio ha de reducir la complejidadalgorıtmica del aprendizaje. En general, el costo computacional para cada itera-cion en el proceso de aprendizaje de un MAS ha de ser O(n), sin comunicacion,y O(nn) para modelos de comunicacion global; mientras que un sistema de co-municacion intermedio ha de tener una complejidad algorıtmica O(n × c). Esimportante aclarar que c ha de ser un valor menor al numero total de agentesy corresponde al numero maximo de agentes en conexion dentro del sistema decomunicacion.

9. Existen problemas en los cuales un punto de convergencia es inalcanzable para laspropuestas previas a δ-radius IVRL. Esta realidad se muestra claramente en la

86 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 111: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

CAPITULO 9. Conclusiones y Trabajos Futuros

figura 8.32. En ella se aprecia como los extremos del paradigma de comunicacion,IL (δ = 0) e IVRL (δ = 10) son incapaces de alcanzar el punto de convergenciaen Pareto.

Es importante remarcar esto, ya que de no existir el paradigma integrado pro-puesto, no hubiese sido posible descubrir un nuevo punto de convergencia enPareto para el Dilema de los Prisioneros; algo que ha de repetirse en diferentesproblemas en los que el paradigma de integracion sea aplicado.

10. En aquellos casos en los que se utiliza aprendizaje online, la sostenibilidad de ILcomo posible solucion se ha de ver comprometida. Ello se debe a que IL requierede una polıtica de seleccion aleatoria en la etapa de aprendizaje a fin de alcanzarun comportamiento optimo o superior a los modelos con comunicacion.

Hay que recordar que el aprendizaje online no tiene una etapa previa de entre-namiento y el conocimiento previo, generado en cada nueva iteracion, sera inme-diatamente usado para la toma de las siguientes decisiones y repetir el procesode aprendizaje.

IL con una polıtica aleatoria en una aplicacion esta naturaleza resultarıa en uncomportamiento inferior a cualquiera de los modelos con comunicacion. Ello de-bido a que no existe una etapa previa de entrenamiento que le permita explorarel ambiente sin afectar con ello las respuestas entregadas; las cuales seran natu-ralmente aleatorias por su polıtica de seleccion.

De forma similar, es necesario mencionar el trabajo a futuro que podrıa tomarsea partir del presente trabajo:

1. La presente propuesta ha limitado de forma directa el ambito de comunicacion,pero este podrıa ser gradual. Por medio de la definicion de ß como una variableque delimita la influencia en el medio se podrıa implementar y ampliar la presentepropuesta en 2 niveles.

El primer nivel esta relacionado al modelo formal, en este, la comunicacion noserıa especificada solo como un valor binario, existe o no comunicacion. Sino quepodrıa ser enriquecido como un valor gradual entre 0 y 1. Ello permitirıa definirun ßi,j para la influencia que tendrıa el agente æi sobre el agente æj.

El segundo nivel se darıa respecto a la implementacion, pues la forma en que lavariable podrıa ser variada ha de depender del problema en el que se aplique.

2. Se ha notado tambien la posibilidad de definir una representacion distinta delmundo, (S,A), para cada agente. Ello en base a la pregunta ¿Es realmente elmundo el mismo para todos?. Un cuestionamiento totalmente valido si analizamosla forma en que 2 entes distintos pueden interactuar con su entorno, incluso si elmedio es compartido.

Por ejemplo, un elefante y un perro corriendo por una pista. Esta claro quehay diferencias notables para cada caso, en principio las dimensiones de ambos.Para una misma representacion del mundo, si el elefante ocupa un solo estado

Programa de Maestrıa en Ciencia de la Computacion - UCSP 87

Page 112: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

del mundo, ¿seria real que el perro ocupe uno tambien ?,¿ podrıa ocupar 0.2estados?. Es claro que la representacion del mundo no es la misma para 2 entesdiferentes.

3. Como se adelanto en las conclusiones, es necesario ampliar el paradigma propues-to a otras opciones. La integracion de otras propuestas podrıa resultar en nuevosparadigmas de aprendizaje para MAS que resulten beneficiosos en diferentes as-pectos, como lo fue la integracion de IL e IVRL.

4. Dado que el foco de la presente investigacion fue el desarrollo de un modelo y unparadigma formal no se vio la necesidad de enfocarse en la solucion de proble-mas especıficos. En este sentido es recomendable el desarrollo de aplicaciones enproblemas puntuales a fin de explorar nuevos aportes.

88 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 113: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Bibliografıa

Abdallah, S. y Lesser, V. (2007). Multiagent Reinforcement Learning and Self-Organization in a Network of Agents. In Proceedings of the Sixth InternationalJoint Conference on Autonomous Agents and Multi-Agent Systems, pages 172–179,Honolulu. IFAAMAS.

Acharyya, R. y Ham, F. M. (2007). A New Approach for Blind Separation of Convo-lutive Mixtures. International Joint Conference on Neural Networks.

Amato, C., Chowdhary, G., et al. (2013). Decentralized Control of Partially ObservableMarkov Decision Processes. In Decision and Control (CDC), 2013 IEEE 52nd AnnualConference on, pages 2398–2405.

Angeline, P. J. y Pollack, J. B. (1993). Competitive Environments Evolve Better So-lutions for Complex Tasks. In Proceedings of the 5th International Conference onGenetic Algorithms, pages 264–270, San Francisco, CA, USA. Morgan KaufmannPublishers Inc.

Balch, T. (1997). Learning Roles: Behavioral Diversity in Robot Teams. pages 7–12.AAAI.

Balch, T. (1999). Reward and Diversity in Multirobot Foraging. In In IJCAI-99Workshop on Agents Learning About, From and With other Agents.

Banerjee, D. y Sen, S. (2007). Reaching Pareto-Optimality in Prisoner’s Dilemma UsingConditional Joint Action Learning. Autonomous Agents and Multi-Agent Systems,15(1):91–108.

Barrios-Aranibar, D. y Goncalves, L. M. G. (2007). Learning from Delayed RewardsUsing Influence Values Applied to Coordination in Multi-Agent Systems. VIII SBAI-Simposio Brasileiro de Automac ao Inteligente.

Barrios Aranibar, D. y Goncalves, L. M. G. (2009). Aprendizado por Reforco com Va-lores de Influencia em Sistemas Multi-Agente. Universidade Federal do Rio Grandedo Norte.

Bellman, R. (1957). A Markovian Decision Process. Indiana Univ. Math. J., 6:679–684.

Bellman, R. (1978). Artificial Intelligence: Can Computers Think? Thomson CourseTechnology.

89

Page 114: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

BIBLIOGRAFIA

Bernstein, D. S., Givan, R., et al. (2002). The Complexity of Decentralized Control ofMarkov Decision Processes. Mathematics of Operations Research, 27(4):819–840.

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.

Bowling, M. y Veloso, M. (2001). Rational and Convergent Learning in StochasticGames. In Proceedings of the 17th International Joint Conference on Artificial Inte-lligence - Volume 2, IJCAI’01, pages 1021–1026, San Francisco, CA, USA. MorganKaufmann Publishers Inc.

Boyan, J. A. y Littman, M. L. (1994). Packet Routing in Dynamically ChangingNetworks: A Reinforcement Learning Approach. In Advances in Neural InformationProcessing Systems 6, pages 671–678. Morgan Kaufmann.

Bradley, P. S., Fayyad, U. M., et al. (1998). Scaling Clustering Algorithms to LargeDatabases. In Knowledge Discovery and Data Mining, pages 9–15.

Brafman, R. I. y Tennenholtz, M. (2003). Efficient Learning Equilibrium. In Becker,S., Thrun, S., et al., editors, Advances in Neural Information Processing Systems 15,pages 1635–1642. MIT Press.

Busoniu, L., Babuska, R., et al. (2008). A Comprehensive Survey of Multiagent Rein-forcement Learning. IEEE Transactions on Systems, Man, And Cybernetics-Part C:Applications and Reviews, 38 (2), 2008.

Camargo Monroy, J. Alejandro and Barrios-Aranibar, Dennis (2016). δ-Radius Uni-fied Influence Value Reinforcement Learning, pages 125–135. Springer InternationalPublishing, Cham.

Charniak, E. y McDermott, D. (1985). Introduction to Artificial Intelligence. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA.

Claus, C. y Boutilier, C. (1998). The Dynamics of Reinforcement Learning in Coope-rative Multiagent Systems. In Proceedings of the Fifteenth National/Tenth Con-ference on Artificial Intelligence/Innovative Applications of Artificial Intelligence,AAAI ’98/IAAI ’98, pages 746–752, Menlo Park, CA, USA. American Associationfor Artificial Intelligence.

David Poole, A. M. y Goebel, R. (1998). Computational Intelligence: A Logical Ap-proach. Oxford University Press.

De Hauwere, Y.-M., Vrancx, P., et al. (2010). Learning Multi-Agent State Space Re-presentations. In the 9th International Conference on Autonomous Agents and Mul-tiagent Systems, pages 715–722, Toronto, Canada.

Defays, D. (1977). An Efficient Algorithm for a Complete Link Method. The ComputerJournal, 20(4):364–366.

Elaine Rich, K. K. y Nair, S. B. (2009). Artificial Intelligence. Tata McGraw-Hill, 3edition.

90 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 115: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

BIBLIOGRAFIA

Feng, Y., Xu, S., et al. (2015). Consensus of Heterogeneous First-and Second-OrderMulti-Agent Systems with Directed Communication Topologies. International Jour-nal of Robust and Nonlinear Control, 25(3):362–375.

Gordon, G. J. (2007). Agendas for Multi-Agent Learnig. Artificial Intelligence - Foun-dations of Multi-Agent Learning, 171:363–452.

Guestrin, C., Venkataraman, S., et al. (2002). Context-Specific Multiagent Coordina-tion and Planning with Factored MDPs. In Proceedings of the Eighteenth NationalConference on Artificial Intelligence and Fourteenth Conference on Innovative Ap-plications of Artificial Intelligence, July 28 - August 1, 2002, Edmonton, Alberta,Canada., pages 253–259.

Hartigan, J. y Wong, M. (1979). Algorithm AS 136: A K-means clustering algorithm.Applied Statistics, pages 100–108.

Haugeland, J. (1985). Artificial intelligence: The very idea. MIT Press.

Hu, J. y Wellman, M. P. (2003). Nash Q-learning for General-sum Stochastic Games.J. Mach. Learn. Res., 4:1039–1069.

Huhns, M. y Singh, M. (1998). Agents and Multiagent Systems: themes, approachesand challenges. Readings in Agents, page 1–23.

Jung, T.-P., Makeig, S., et al. (2000). Removing Electroencephalographic Artifacts byBlind Source Separation. Psychophysiology, 37:163–178.

Junmin, L. y Jinsha, L. (2014). Fully Distributed Adaptive Iterative Learning Controlof Multi-Agent Systems with Second-Order Nonlinear Dynamics. Control Conference(CCC), 2014 33rd Chinese, pages 1452–1457.

Kaelbling, L. P., Littman, M. L., et al. (1996). Reinforcement Learning: A Survey.Journal of Artificial Intelligence Research, 4:237–285.

Kuhn, S. (2014). Prisoner’s Dilemma. In Zalta, E. N., editor, The Stanford Encyclopediaof Philosophy. Fall 2014 edition.

Kulkarni, A. J. y Tai, K. (2010). Probability collectives: A multi-agent approach forsolving combinatorial optimization problems. Appl. Soft Comput., 10(3):759–771.

Kurzweil, R. (1990). The Age of Intelligent Machines. MIT Press, Cambridge, MA,USA.

Lauer, M. y Riedmiller, M. (2000). An Algorithm for Distributed Reinforcement Lear-ning in Cooperative Multi-Agent Systems. In In Proceedings of the SeventeenthInternational Conference on Machine Learning, pages 535–542. Morgan Kaufmann.

Li, L., Martinoli, A., et al. (2004). Learning and Measuring Specialization in Colla-borative Swarm Systems. Adaptive Behavior - Animals, Animats, Software Agents,Robots, Adaptive Systems, 12(3-4):199–212.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 91

Page 116: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

BIBLIOGRAFIA

Li, Z., Wen, G., et al. (2015). Designing Fully Distributed Consensus Protocols forLinear Multi-Agent Systems with Directed Graphs. IEEE Transactions on AutomaticControl, 60(4):1152–1157.

Lippmann, R. P. (1988). An Introduction to Computing with Neural Nets. SIGARCHComput. Archit. News, 16(1):7–25.

Littman, M. L. (1994). Markov Games as a Framework for Multi-Agent ReinforcementLearning. In Proceedings of the 11th International Conference on Machine Learning(ML-94), pages 157–163. Morgan Kaufman.

Livingston, K. (2012). Independent Learning, pages 1526–1529. Springer US, Boston,MA.

Luger, G. y Stubblefield, W. A. (1993). Artificial Intelligence: Structures and Strategiesfor Complex Problem Solving. Benjamin/Cummings Pub. Co.

Ma, T., Lewis, F. L., et al. (2015). Exponential Synchronization of Nonlinear Multi-Agent Systems with Time Delays and Impulsive Disturbances. International Journalof Robust and Nonlinear Control.

Mataric, M. (1994). Learning to Behave Socially. In From Animals to Animats: In-ternational Conference on Simulation of Adaptive Behavior, pages 453–462. MITPress.

Monekosso, N., Remagnino, P., et al. (2002). An Improved Q-learning Algorithm UsingSynthetic Pheromones, page 197–206. Springer Berlin Heidelberg.

Neumann, J. V. y Morgenstern, O. (1944). Theory of Games and Economic Behavior.Princeton University Press.

Nilsson, N. (1998). Artificial Intelligence: A New Synthesis. The Morgan KaufmannSeries in Artificial Intelligence Series. Morgan Kaufmann Publishers.

Nowe, A., Verbeeck, K., et al. (2001). Learning Agents in a Homo Egualis Society.Technical Report March 2001 - Computational Modeling Lab - VUB. TechnicalReport March 2001 - Computational Modeling Lab - VUB.

Oppy, G. y Dowe, D. (2016). The Turing Test. In Zalta, E. N., editor, The StanfordEncyclopedia of Philosophy. Spring 2016 edition.

Panait, L. y Luke, S. (2005). Cooperative Multi-Agent Learning: The State of the Art.Autonomous Agents and Multi-Agent Systems, 11(3):387–434.

Paruna, H. V. D. (1996). Applications of Distributed Artificial Intelligence in Industry.G. M. P. O’Hare and N. R. Jennings.

Peng, Z., Wang, D., et al. (2014). Distributed Neural Network Control for AdaptiveSynchronization of Uncertain Dynamical Multiagent Systems. Neural Networks andLearning Systems, IEEE Transactions on, 25(8):1508–1519.

92 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 117: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

BIBLIOGRAFIA

Pini, G., Gagliolo, M., et al. (2013). Task Partitioning in a Robot Swarm: A Study onThe Effect of Communication. Swarm Intelligence, 7(2):173–199.

Quinlan, J. R. (1986). Induction of Decision Trees. Mach. Learn., 1(1):81–106.

Quinn, M., Smith, L., et al. (2002). Evolving Formation Movement for a HomogeneousMulti-Robot System: Teamwork and Role-Allocation with Real Robots. CognitiveScience Research Paper.

Quinonez, Y., Maravall, D., et al. (2012). Application of Self-Organizing Techniques forthe Distribution of Heterogeneous Multi-Tasks in Multi-Robot Systems. In Electro-nics, Robotics and Automotive Mechanics Conference (CERMA), 2012 IEEE Ninth,pages 66–71.

Rokach, L. y Maimon, O. (2008). Data Mining with Decision Trees: Theroy and Ap-plications. World Scientific Publishing Co., Inc., River Edge, NJ, USA.

Royer, E. M. y Toh, C.-K. (2002). A Review of Current Routing Protocols for Ad-HocMobile Wireless Networks . IEEE Personal Communications, 6:46–55.

Rummery, G. A. y Niranjan, M. (1994). On-Line Q-Learning Using ConnectionistSystems. Technical report.

Russell, S. y Norvig, P. (2009). Artificial Intelligence: A Modern Approach. PrenticeHall Press, Upper Saddle River, NJ, USA, 3rd edition.

Schalkoff, R. (1990). Artificial Intelligence: An Engineering Approach. Schaums OutlineSeries in Computers. McGraw-Hill.

Steeb, R., Cammarata, S., et al. (1988). Distributed Intelligence for Air Fleet Control:Architectures for Distributed Air Traffic Control. In Bond, A. H. y Gasser, L., editors,Readings in Distributed Artificial Intelligence, pages 90–101. Kaufmann, San Mateo,CA.

Stone, P. y Veloso, M. (2000). Multiagent Systems: A Survey from a Machine LearningPerspective. Autonomous Robots, 8(3):345–383.

Sutton, R. S. y Barto, A. G. (1998). Introduction to Reinforcement Learning. MITPress, Cambridge, MA, USA, 1st edition.

Tong, S. y Koller, D. (2002). Support Vector Machine Active Learning with Applica-tions to Text Classification. J. Mach. Learn. Res., 2:45–66.

Wang, X. y Sandholm, T. (2002). Reinforcement Learning to Play an Optimal NashEquilibrium in Team Markov Games. In in Advances in Neural Information Proces-sing Systems, pages 1571–1578. MIT Press.

Watkins, C. J. C. H. y Dayan, P. (1992). Q-Learning. 8(3-4):279–292.

Programa de Maestrıa en Ciencia de la Computacion - UCSP 93

Page 118: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

BIBLIOGRAFIA

Weihmayer, R. y Brandau, B. (1990). A Distributed AI Architecture for CustomerNetwork Control. In Global Telecommunications Conference, 1990, and Exhibition.’Communications: Connecting the Future’, GLOBECOM ’90., IEEE, pages 656–662vol.1.

Weiss, G., editor (2013). Multiagent Systems: A Modern Approach to Distributed Ar-tificial Intelligence. MIT Press, Cambridge, MA, USA, 2nd edition.

Weiß, G. (1997). Distributed Artificial Intelligence Meets Machine Learning : Learningin Multi-Agent Environments. Lecture Notes in Artificial Intelligence -1221.

Wen, G., Zhao, Y., et al. (2016). Containment of Higher-Order Multi-Leader Multi-Agent Systems: a Dynamic Output Approach. IEEE Transactions on AutomaticControl, 61(4):1135–1140.

Whitehead, S. D. (1991). A Complexity Analysis of Cooperative Mechanisms in Rein-forcement Learning. In Proc. of AAAI-91, pages 607–613, Anaheim, CA.

Winston, P. H. (1992). Artificial Intelligence (3rd Edition). Addison-Wesley LongmanPublishing Co., Inc., Boston, MA, USA.

Yoav Shohan, R. P. (2007). If Multiagent Learning is the Answer, What’s the Question?Artificial Intelligence - Foundations of Multi-Agent Learning, 171:392–401.

Zhang, C. y Lesser, V. (2013). Coordinating Multi-Agent Reinforcement Learning withLimited Communication. In Ito, J. y Gini, S., editors, Proceedings of the 12th Interna-tional Conference on Autonomous Agents and Multiagent Systems, pages 1101–1108,St. Paul, MN. IFAAMAS.

Zhang, T., Ramakrishnan, R., et al. (1996). BIRCH: An Efficient Data ClusteringMethod for Very Large Databases. SIGMOD Rec., 25(2):103–114.

Astrom, K. (1965). Optimal Control of Markov Processes with Incomplete State Infor-mation. Journal of Mathematical Analysis and Applications, 10(1):174 – 205.

Ilker Yıldırım y Yolum, P. (2009). Hybrid Models for Achieving and MaintainingCooperative Symbiotic Groups. Mind & Society- Cognitive Studies in Economicsand Social Sciences, 8(2):243–258.

94 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 119: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1:Resultados de Dilema de losPrisioneros

95

Page 120: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.1: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.0

96 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 121: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.2: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.2

Programa de Maestrıa en Ciencia de la Computacion - UCSP 97

Page 122: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.3: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.4

98 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 123: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.4: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.6

Programa de Maestrıa en Ciencia de la Computacion - UCSP 99

Page 124: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.5: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.8

100 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 125: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.6: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 1.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 101

Page 126: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.7: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.0

102 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 127: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.8: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.2

Programa de Maestrıa en Ciencia de la Computacion - UCSP 103

Page 128: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.9: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.4

104 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 129: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.10: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.6

Programa de Maestrıa en Ciencia de la Computacion - UCSP 105

Page 130: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.11: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.8

106 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 131: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.12: Dilema de los Prisioneros Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 1.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 107

Page 132: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.13: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.0

108 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 133: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.14: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.2

Programa de Maestrıa en Ciencia de la Computacion - UCSP 109

Page 134: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.15: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.4

110 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 135: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.16: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.6

Programa de Maestrıa en Ciencia de la Computacion - UCSP 111

Page 136: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.17: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.8

112 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 137: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.18: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 1.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 113

Page 138: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.19: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.0

114 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 139: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.20: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.2

Programa de Maestrıa en Ciencia de la Computacion - UCSP 115

Page 140: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.21: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.4

116 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 141: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.22: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.6

Programa de Maestrıa en Ciencia de la Computacion - UCSP 117

Page 142: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

Figura 9.23: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.8

118 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 143: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 1

Figura 9.24: Dilema de los Prisioneros Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 1.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 119

Page 144: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Dilema de los Prisioneros

120 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 145: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2 :Resultados de Problema deSeleccion Multiple

121

Page 146: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.25: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.0

122 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 147: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.26: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.2

Programa de Maestrıa en Ciencia de la Computacion - UCSP 123

Page 148: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.27: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.4

124 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 149: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.28: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.6

Programa de Maestrıa en Ciencia de la Computacion - UCSP 125

Page 150: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.29: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 0.8

126 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 151: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.30: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.5 Softmax Value = 1.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 127

Page 152: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.31: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.0

128 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 153: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.32: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.2

Programa de Maestrıa en Ciencia de la Computacion - UCSP 129

Page 154: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.33: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.4

130 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 155: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.34: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.6

Programa de Maestrıa en Ciencia de la Computacion - UCSP 131

Page 156: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.35: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 0.8

132 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 157: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.36: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.5 β = 0.75 Softmax Value = 1.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 133

Page 158: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.37: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.0

134 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 159: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.38: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.2

Programa de Maestrıa en Ciencia de la Computacion - UCSP 135

Page 160: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.39: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.4

136 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 161: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.40: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.6

Programa de Maestrıa en Ciencia de la Computacion - UCSP 137

Page 162: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.41: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 0.8

138 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 163: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.42: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.5 Softmax Value = 1.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 139

Page 164: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.43: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.0

140 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 165: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.44: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.2

Programa de Maestrıa en Ciencia de la Computacion - UCSP 141

Page 166: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.45: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.4

142 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 167: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.46: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.6

Programa de Maestrıa en Ciencia de la Computacion - UCSP 143

Page 168: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Resultados de Problema de Seleccion Multiple

Figura 9.47: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 0.8

144 Programa de Maestrıa en Ciencia de la Computacion - UCSP

Page 169: -radius IVRL : Paradigma de Integracion de Aprendizaje por Refuerzo …repositorio.ucsp.edu.pe/bitstream/UCSP/15401/1/CAMARGO... · 2019-12-27 · -radius IVRL : Paradigma de Integracion

Anexo 2

Figura 9.48: Problema de Seleccion Multiple Coordinada Configuracion :Reward Rate = 0.75 β = 0.75 Softmax Value = 1.0

Programa de Maestrıa en Ciencia de la Computacion - UCSP 145