diseno e-implementacion-equipo-robots-autonomos-decisiones-tiempo-real

64
1 “DISEÑO E IMPLEMENTACIÓN DE UN EQUIPO DE ROBOTS AUTÓNOMOS CON DECISIONES EN TIEMPO REAL: FÚTBOL ROBÓTICO - COMPONENTE INTELIGENTE”

Upload: gustavo-cornejo

Post on 09-Aug-2015

26 views

Category:

Engineering


0 download

TRANSCRIPT

1

“DISEÑO E IMPLEMENTACIÓN DE UN EQUIPO DE ROBOTS AUTÓNOMOS CON DECISIONES EN TIEMPO REAL:

FÚTBOL ROBÓTICO - COMPONENTE INTELIGENTE”

2

Contenido

• Introducción y Objetivos.• Motivaciones.• Técnicas de movimiento utilizadas por el equipo

FUROEC en las competiciones de la FIRA 2002 World Cup.

• Control de movimiento de los micro-robots en la MIROSOT.

• Aprendizaje por refuerzo aplicado al fútbol robótico.• Contribuciones.• Futuros Trabajos.

3

Contenido

• Introducción y objetivos.

4

Introducción

MóduloRadio

Frecuencia

Componente de Visión

Robots:Componente Electromecánico

ComponenteInteligente

5

Objetivos

• Desarrollo del componente inteligente.

• Utilizar y reforzar técnicas y métodos existentes.

• Implementar algoritmos de orientación, definición de trayectorias y métodos de aprendizaje.

• Incursionar en diversas áreas de investigación.

6

Contenido

• Introducción y objetivos.

• Motivaciones.

7

Motivaciones

• Plataforma excelente para el estudio y desarrollo de los Sistemas Multiagente.

• Formar jóvenes investigadores en el campo de la robótica, visión e inteligencia artificial.

• Resolver problemas de alta complejidad.

• Pertenecer a una comunidad científica de investigadores a nivel mundial.

8

Contenido

• Introducción y objetivos.

• Motivaciones.

• Técnicas de movimiento utilizadas por el equipo FUROEC en las competiciones de la FIRA 2002 World Cup.

9Técnicas de movimiento utilizadas por el equipo FUROEC

Ambiente

Sensores

Efectores

Percepciones

Acciones

Agente

10

- Sistemas multiagente homogéneos.

-Comunicativos y no comunicativos.

- Sistemas multiagente heterogéneos.

-Comunicativos y no comunicativos.

Técnicas de movimiento utilizadas por el equipo FUROEC

Clasificación de los Sistemas Multiagente

11

Sistema Multiagente Homogéneo No Comunicativo

Técnicas de movimiento utilizadas por el equipo FUROEC

12Técnicas de movimiento utilizadas por el equipo FUROEC

Sistema Multiagente Homogéneo Comunicativo

13

Sistema Multiagente Heterogéneo No Comunicativo

Técnicas de movimiento utilizadas por el equipo FUROEC

14

Sistema Multiagente Heterogéneo Comunicativo

Técnicas de movimiento utilizadas por el equipo FUROEC

15

Clasificación de Sistemas de Fútbol Robótico

Sistemas sin inteligencia Sistemas con inteligencia

Técnicas de movimiento utilizadas por el equipo FUROEC

16

Clasificación de Sistemas de Fútbol Robótico

Técnicas de movimiento utilizadas por el equipo FUROEC

17

Estrategia general del equipo.

Técnicas de movimiento utilizadas por el equipo FUROEC

18

Estrategia general del equipo.

Técnicas de movimiento utilizadas por el equipo FUROEC

19

Algoritmo básico para patear la pelota

x

y

arco d el eq u ip ocon trario

Xd x'

d y'

d y

d x

targ et.x= b all.p os ition .x+ d x’targ et.y= b all.p os ition .y+ d y ’

targ et(x,y )

B U E N A U B IC AC IO N (T AR G E T ) P AR A P AT E AR L A P E L O T A

p elota

Técnicas de movimiento utilizadas por el equipo FUROEC

20

Algoritmo para salir de los bordes del campo de juego

Técnicas de movimiento utilizadas por el equipo FUROEC

21

Algoritmo del arquero de acuerdo a la posición de la pelota

#define G_OFFSET 15estimado_x=borde_izq + G_OFFSETestimado_y=(borde_inf - borde_sup)/2 -((borde_inf + borde_sup)/2 - pelota_x) *G_OFFSET/(borde_der - pelota_x)

Utilizando algoritmos deposic ionamiento se llegaal punto estimado donde

iría la pelota.

borde superior

borde derechoborde izquierdo

borde inferior

a)

dis tancia > 50 unidades

G_OFFSET

Puntoestimado

b)

Técnicas de movimiento utilizadas por el equipo FUROEC

22

Algoritmo del arquero de acuerdo a la posición de la pelota

c)

Punto estimado

estimado_x= borde_izq +G_OFFSETestimado_y=pelota_y

Puntoestimado

distancia > 50 unidades

estimado_x=pelota_xestimado_y=pelota_y

d)

Técnicas de movimiento utilizadas por el equipo FUROEC

23

Estrategia general del equipo

Técnicas de movimiento utilizadas por el equipo FUROEC

Zonaatacante 1

zonaatacante 2

zonadefensa 1

zonadefensa 2

zona

arqu

ero

MODOS DE ATAQUE

DEFENSA

NORMAL

ATAQUE

ZONAS DE JUEGO INDIVIDUALES

24

Estrategia general del equipo

Técnicas de movimiento utilizadas por el equipo FUROEC

25

Contenido

• Introducción y Objetivos.• Motivaciones.• Técnicas de movimiento utilizadas por el

equipo FUROEC en las competiciones de la FIRA 2002 World Cup.

• Control de movimiento de los micro-robots en la MIROSOT.

26

Cinemática del robot

L r

V LV C

V R

Y

X C

Y C

XO

C

Control de movimiento de los micro-robots en la MIROSOT.

27

Parámetros de ubicación del robot

d y

d x

22 d yd xd

p u n to d esead o

a n g u loe le ne rro r

d is ta n c ialae ne rro rd

v R

v L

d

d

**

**

kk

kk

p

p

V c +

V c -

.

.

Kp:ganancia de realimentación proporcional

Kd: ganancia de realimentación derivada del tiempo

Control de movimiento de los micro-robots en la MIROSOT.

28

Objetivo:

Generación de campos potenciales para determinar la posición final y evadir obstáculos en tiempo real.

???

a) b) c)

obstaculos

robot

pelotaobstaculos

robot

pelota

trayectoria

Método de campos potenciales para posicionamiento y orientación del robot

Control de movimiento de los micro-robots en la MIROSOT.

29

Método de campos potenciales para posicionamiento y orientación del robot.

Implementación del campo potencial de repulsión para evitar obstáculos.

Control de movimiento de los micro-robots en la MIROSOT.

Implementación del campo potencial de atracción para patear la pelota.

30

x

g r

n

N(p)

13

2

4

5

6

78

9

10

12

11

(p)

direccióndeseada

de lapelota

y

Implementación del campo potencial de atracción para patear la pelota

Campo para una posición g deseada.

dtdθ.

θ

cθ(p)θθKθpKω

)(

N.

d

pgprnpgp

Control de movimiento de los micro-robots en la MIROSOT.

31

Implementación del campo potencial de atracción para patear la pelota

Control de movimiento de los micro-robots en la MIROSOT.

g

g '

n

N(p)

r'ancho del

robot direccióndeseada de la

pelota

p(x,y)

r

campo para la posición deseada g.

32

Implementación del campo potencial de atracción para patear la pelota

Control de movimiento de los micro-robots en la MIROSOT.

33

Implementación del campo potencial de atracción para patear la pelota

Control de movimiento de los micro-robots en la MIROSOT.

34

Control de movimiento de los micro-robots en la MIROSOT.

Método de campos potenciales para posicionamiento y orientación del robot.

Implementación del campo potencial de atracción para patear la pelota.

Implementación del campo potencial de repulsión para evitar obstáculos.

35

Implementación del campo potencial de repulsión para evitar obstáculos

Lp

R (p)

tR o

ob s tá cu lo

Generación del campo univectorial de repulsión para evitar un obstáculo

Control de movimiento de los micro-robots en la MIROSOT.

36

Implementación del campo potencial de repulsión para evitar obstáculos

Control de movimiento de los micro-robots en la MIROSOT.

Ro Moo(x,y) g(objetivo)

p(x,y)

Zona del campo univectorial R(p) que permite evitar un obstáculo

37

Implementación del campo potencial de repulsión para evitar obstáculos

Control de movimiento de los micro-robots en la MIROSOT.

38

Implementación del campo potencial de repulsión para evitar obstáculos

Control de movimiento de los micro-robots en la MIROSOT.

Ro

d

(ox,oy)

obstáculo(gx,gy)

pelota

(px,py)

robot

39

Implementación del campo potencial de repulsión para evitar obstáculos

Control de movimiento de los micro-robots en la MIROSOT.

40

Control de movimiento de los micro-robots en la MIROSOT.

Método de campos potenciales para posicionamiento y orientación del robot.

Implementación del campo potencial de atracción para patear la pelota.

Implementación del campo potencial de repulsión para evitar obstáculos.

Función de predicción para estimar la trayectoria de la pelota.

41

Función de predicción para estimar la trayectoria de la pelota (1)

Control de movimiento de los micro-robots en la MIROSOT.

42

Función de predicción para estimar la trayectoria de la pelota (2)

Control de movimiento de los micro-robots en la MIROSOT.

43

Contenido

• Introducción y Objetivos.• Motivaciones.• Técnicas de movimiento utilizadas por el equipo

FUROEC en las competiciones de la FIRA 2002 World Cup.

• Control de movimiento de los micro-robots en la MIROSOT.

• Aprendizaje por refuerzo aplicado al fútbol robótico. • Contribuciones.• Futuros Trabajos.

44

Aprendizaje por refuerzo aplicado al fútbol robótico.

Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.

Aplicación del aprendizaje Q modular.

45

Clasificación de Aprendizaje de Maquina

Supervisado

Es implementado en situaciones donde es posible percibir las entradas y salidas.

No Supervisado

Es implementado en ambientes donde no se tiene certeza de cuales serán las salidas.

Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.

46

Conceptos generales de aprendizaje por refuerzo y aprendizaje Q

Aprendizaje por Refuerzo

Descripción

Modelo de Aprendizaje por Refuerzo

Aprendizaje Q

Algoritmo de Aprendizaje Q

47

Aprendizaje por Refuerzo

DescripciónEs considerado como un tipo de aprendizaje no supervisado.

Hacer que un agente aprenda una conducta a través de iteraciones de pruebas y errores en un ambiente dinámico.

Usa las recompensas de una satisfactoria función de

agente.

Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.

48

Modelo de Aprendizaje por Refuerzo

T: F. de Transiciones

B: Agente

I: F. de Entradas

R: F. de Recompensas

i: Entrada sensorial

s: Estado actual

r: Recompensa

a: Acción

Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.

49

Aprender una política, que para cada estado, indique cuál es la mejor acción a ejecutar para alcanzar un objetivo dado.

El agente aprende una función acción –valor que para cada acción ejecutada en un estado obtiene un

valor, llamado valor Q, el cual se guarda en la tabla Q.

El valor Q expresa la utilidad esperada al emprender una acción en un estado determinado.

Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.

Aprendizaje Q

50

Para cada par (s , a) inicializar la tabla Q(s,a) a [0 , 0.02]. Observar el estado actual s. Repetir n veces:

• Seleccionar una acción a y ejecutarla • Recibir el refuerzo inmediato r • Observar el nuevo estado s' • Actualizar la entrada de la tabla, Q(s,a) con la

ecuación:  

• Asignar a s el estado s'

])a',[s'Q'maxγ(rαa][s,)Q'α(1a][s,Q' 1na'n1nnn

Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.

Algoritmo de Aprendizaje Q

51

Aprendizaje por refuerzo aplicado al fútbol robótico.

Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.

Aplicación del aprendizaje Q modular.

52

Aplicación del aprendizaje Q modular

Arquitectura del aprendizaje Q Modular

Región de Conflicto.

Agentes Individuales y Agentes Acoplados

Fases de Aprendizaje

Individual y Modular

Estados

Acciones

Resultados del Aprendizaje - fase aprendizaje individual

Resultados del Aprendizaje - fase Q modular

53

Arquitectura del aprendizaje Q Modular

RECOMPENSA

ESTADO AMBIENTE

AGENTE

MODULO 1 DEAPRENDIZAJE

MODULO 2 DEAPRENDIZAJE

MODULO 3 DEAPRENDIZAJE

MODULOMEDIADOR

ACCION

Aplicación del aprendizaje Q modular

54

Región de Conflicto

Y

X

Area Oponente

Atacante

DefensaArq

ue

ro

Re

gió

n 1

Pelota

Aplicación del aprendizaje Q modular

55

Agentes Individuales y Agentes Acoplados

Agente 2

Agente 1Pelota

Agente Acoplado

(b)

Agente 2

Agente 1

Pelota

AgentesIndividuales

(a)

Aplicación del aprendizaje Q modular

56

Fases de Aprendizaje (1)

Existen 2 fases de aprendizaje:

Individual y Modular

En la fase de aprendizaje individual cada agente explora el ambiente de trabajo para obtener información de los estados, el jugador cambia su acción de forma aleatoria cada vez que se encuentra con la pelota, para actualizar de esta manera la tabla Q con valores reales.

Aplicación del aprendizaje Q modular

57

Estos valores son usados por el módulo mediador en la fase de aprendizaje modular, para seleccionar la acción que considere más adecuada

d a),(sQ )d,a),,f(Q(s iiiiiiiiii

Fases de Aprendizaje (2)

Aplicación del aprendizaje Q modular

58

Estados (1)

Aplicación del aprendizaje Q modular

59

Estados (2)

Aplicación del aprendizaje Q modular

60

La tabla muestra la lista de acciones que el agente acoplado puede seleccionar en la Región 1. Por ejemplo, si la Acción 0 es seleccionada, el robot_1 será atacante y el robot_2 será defensa.

Acciones

Aplicación del aprendizaje Q modular

61

Resultados del

Aprendizaje -fase aprendizaje individual

Aplicación del aprendizaje Q modular

62

Resultados del Aprendizaje - fase Q modular

Aplicación del aprendizaje Q modular

63

Contenido

• Introducción y Objetivos.• Motivaciones.• Técnicas de movimiento utilizadas por el equipo

FUROEC en las competiciones de la FIRA 2002 World Cup.

• Control de movimiento de los micro-robots en la MIROSOT.

• Aprendizaje por refuerzo aplicado al fútbol robótico. • Contribuciones.• Futuros Trabajos.

64

Contribuciones

• Movimiento rápido del robot para patear la pelota.• Habilidad mejorada para salir de los bordes de la

cancha.• Algoritmo optimizado para definir el

comportamiento del arquero usando estimación de trayectorias.

• Especificación de las condiciones para aplicar campos potenciales univectoriales.

• Aplicación del algoritmo de aprendizaje Q modular.• Logros adicionales obtenidos con la ejecución de este

proyecto.