teoria de juegos juegos dinamicos
TRANSCRIPT
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
1/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
JUEGOS DINAMICOS DE INFORMACIÓN COMPLETA
Juego Dinámico
Un juego dinámico, es un juego secuencial (a diferencia de los juegos estáticos), donde los
jugadores adquieren nueva información, respecto a lo realizado por los demás jugadores,mientras el juego se desarrolla. En los juegos dinámicos la estructura secuencial del juego tiene
relevancia, es por ello que se recomienda utilizar la forma extensiva para poder analizar un
juego dinámico.
Juego de informci!n com"#e$
Al igual que en los juegos estáticos de información completa, tanto la estructura del juego, la
racionalidad de los jugadores los futuros pagos, de acuerdo a las estrategias utilizadas, son de
conocimiento com!n.
Un juego dinámico de información completa puede ser representado mediante la forma normal
o estrat"gica, sin em#argo al utilizar esta representación podemos encontrar los equili#rios de
$as%, tal como se %a estudiado en la parte de juegos estáticos de información completa. &in
em#argo, en el caso de juegos dinámicos (como se dijo en la definición de juego dinámico)
resulta más apropiado contar con una representación del juego que muestre la estructura
secuencial del juego. 'a representación en su forma extensiva de un juego incorpora
explcitamente la estructura secuencial. Utilizando esta representación de los juegos dinámicos
podemos encontrar lo que se conoce como Equilibrio de Nash perfecto en subjuegos , el cual es
el concepto de solución en juegos dinámicos (a diferencia de los Equili#rios de $as% en juegos
estáticos) que será explicado más adelante.
E%em"#o &' Di#em de# Pri(ionero )diferenci en$re %uego( e($á$ico( * dinámico(+
ecordemos el enunciado del dilema del prisionero, el cual se representa en su forma normal de
la siguiente manera
*+
NC C
*
NC (2,2) (0,3)
C (3,0 ) (1,1 )
-ara poder representarlo en su forma extensiva utilizaremos el diagrama de ár#ol. -ara este caso
como a %emos entrado a la parte de juegos dinámicos %aremos una distinción en la forma
extensiva de representar un juego estático dinámico, para ello representamos el dilema del
prisionero en su forma extensiva donde
-anel A /ilema del prisionero en juegos estáticos
-anel 0 /ilema del prisionero en juegos dinámicos. -ara esta versión del
dilema del prisionero, tenemos que el jugador elige primero su acción, la cual es
o#servada por el jugador + antes de que "l de#a elegir su acción. Es por ello que se les
conoce como juegos secuenciales.
A continuación la forma extensiva del dilema del prisionero
Página 1 de 1
Panel A! J"ego es#á#ico Panel $! J"ego diná%ico
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
2/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
'as lneas punteadas del panel A que unen los nodos de decisión del jugador + nos %ace
referencia a que el juego es un juego estático, donde el plan de acción se toma al inicio del
juego (por am#os jugadores) mientras que el juego representado en el panel 0 nos muestra la
secuencialidad del juego, donde el jugador + decidirá qu" estrategia usar dependiendo de la
estrategia tomada por el jugador .
Diferencia entre acción y estrategia
En los juegos estáticos vistos anteriormente no exista diferencia entre acción estrategia. 'a
estrategia de un jugador consista en la elección de una acción. &in em#argo, en los juegos
dinámicos una estrategia es mu diferente a una acción. 'os jugadores pueden ir tomando
distintas acciones a lo largo del juego. 'a estrategia de un jugador es un plan contingente
completo de acción.
Re"re(en$ci!n e,$en(i-
'a definición matemática de un juego en su forma extensiva consiste en la descripción de los
elementos que lo componen
. Un conjunto finito de jugadores N .
Un conjunto finito de acciones A=×i∈ N A i .
Un conjunto finito de nodos X .
A continuación se utiliza el ejemplo anterior donde se representan los nodos los cuales están
encerrados con un crculo rojo
Página & de 1
J 2J 2
J 1
J 1
J 2
C N
N C N C
(22) (03) (30) (11)(11)(30)(03)(22)
C N C N
N C
J 2
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
3/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
+. Una función p: X que especifica en !nico inmediato predecesor de cada nodo.
1a dos tipos de nodos
• Nodos terminales T ={ x∈ X } que no pertenecen a ning!n jugador, sino que
representan los resultados del juego a los que se asocian los pagos
correspondientes de cada jugador.
• 'os demás nodos X ∖T son los nodos de decisión, donde alg!n jugador es
requerido a tomar una acción. /entro de ellos está el nodo inicial x
0 donde el
juego empieza.
2. Una funciónγ : X ∖{ x0 }→ A que asigna la acción que lleva %acia cada nodo (no
inicial) x desde su inmediato predecesor.
3. Una colección de conjuntos de información H una función H : X ∖T → H que
a cada nodo de decisión x le asigna un conjunto de información h= H ( x )∈ H .
4. Una función I : H → N que a cada conjunto de información le asigna un jugador. El
conjunto de información de i se denota H i={h∈ H : i= I (h ) } .'a interpretación de un conjunto de información es que un jugador no puede distinguir
en qu" nodo está entre los nodos que pertenecen a un mismo conjunto de información
cuando elige una acción cualesquiera de ellos. -or lo tanto, se requiere que todos los
nodos de decisión asignados a un mismo conjunto de información tengan las mismas
acciones disponi#les.
Página ' de 1
Panel A! J"ego es#á#ico Panel $! J"ego diná%ico
J 2
J 2
J 1
J 1
J 2
C N
N C N C
(22) (03) (30) (11)(11)(30)(03)(22)
C N C N
N C
J 2
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
4/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
As, podemos definir el conjunto de acciones disponi#les en cada conjunto de
información h : A (h )= {a∈ A : a∈ A ( x ) para x∈h }
A continuación se utiliza el ejemplo anterior donde se se5alan los conjuntos de información del
jugador +
6. Una colección de pagos v={v1 (∙ ) , … , vn (∙ ) } que a cada jugador le asigna un pago en
cada nodo terminal v i :T → R .
-or lo tanto, podemos definir un juego dinámico en su forma extensiva por la colección de todos
sus elementos Γ E= ⟨ X , A , N , p ( ∙ ) , γ ( ∙ ) , H , H ( ∙ ) , I ( ∙ ) , v ⟩ .
&e %an asumido N A finitos ( por lo tanto X finito), pero la definición se puede
extender directamente al caso más general. Un juego dinámico se dice finito si X es finito
(que implica N A finitos)
Información perfecta e imperfecta
Un juego extensivo es de información perfecta si cada conjunto de información contiene un
!nico nodo. /e lo contrario, es un juego de información imperfecta. As, el juego del dilema del
Página ( de 1
Panel A! J"ego es#á#ico Panel $! J"ego diná%ico
J 2J 2
J 1
J 1
J 2
C N
N C N C
(22) (03) (30) (11)(11)(30)(03)(22)
C N C N
N C
J 2
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
5/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
prisionero que vimos anteriormente (-anel A) es un juego de información imperfecta, mientras
que la versión del juego en su forma dinámica (-anel 0) es un juego de información perfecta.
E($r$egi Pur
Definición
Una estrategia pura para el jugador i es una función si : H i → A tal que
si ( h )∈ A (h ) ,∀h∈ H i . Al conjunto de estrategias puras de i lo denotamos por S i .
Es importante enfatizar que una estrategia especifica una acción para todos y cada uno de los
conjuntos de información del jugador. Ello incluso si de acuerdo a la estrategia alg!n conjunto
de información no va a ser alcanzado en el juego.
En concreto, sean h h ' dos conjuntos de información que pertenecen al jugador i
donde h ' se encuentra en una etapa posterior en el juego que h . Una estrategia del
jugador i de#e asignar una acción a h ' aun cuando la acción especificada en h
impida que se llegue a h ' durante el juego. 'a idea detrás de una estrategia en un juego
dinámico es que de#e especificar qu" %ara el jugador en cada nodo de decisión del juego. Es
por ello que una estrategia en un juego dinámico es un plan contingente completo de acción.
/os planes contingentes completos de acción que se diferencian sólo en una acción constituen
dos estrategias diferentes. -or lo tanto, es com!n que los jugadores tengan muc%as posi#les
estrategias en juegos dinámicos. Especficamente, si | A (h )| es el n!mero de acciones
disponi#les del jugador i en el conjunto de información h , entonces el n!mero de
estrategias puras de dic%o jugador es
|Si|=∏h∈ H
i
| A (h )|
E%em"#o &. Di#em de# Pri(ionero )e($r$egi( en %uego( en (u form e,$en(i-+
ecordemos el enunciado del dilema del prisionero
Página de 1
Panel A! J"ego es#á#ico Panel $! J"ego diná%ico
J 2J 2
J 1
J 1
J 2
C N
N C N C
(22) (03) (30) (11)(11)(30)(03)(22)
C N C N
N C
J 2
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
6/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
En el juego del dilema del prisionero (-anel A), cada jugador tiene sólo un conjunto de
información (aunque el jugador tiene un !nico nodo de decisión en el suo el jugador + tiene
dos nodos de decisión), en el cual dos acciones están disponi#les NC C . &us
estrategias de#en especificar qu" acción tomar en dic%o conjunto de información. El conjunto
de todas las estrategias puras posi#les de cada jugador son entonces S1= { NC , C }
S2= { NC , C } . 7emos que estos son iguales a los conjuntos de acciones de los jugadores
A1= { NC , C } A2= { NC , C }. Es en este sentido que mencionamos anteriormente que
no %a diferencia práctica entre acción estrategia en los juegos estáticos.
En cam#io, el juego del dilema del prisionero presentado en el -anel 0 es un juego dinámico.
En este caso el jugador sigue teniendo un !nico conjunto de información su conjunto de
estrategias puras sigue siendo S1= { NC , C }. &in em#argo, el jugador dos tiene dos
conjuntos de información aqu"l al que se llega luego de que el jugador juegue NC
aqu"l al que se llega luego de que el jugador juegue C . Una estrategia pura del jugador +
de#e especificar qu" acción va a tomar en cada uno de sus conjuntos de información. /efinimos
una estrategia pura del jugador + como un vector ( X , Y ) , donde X indica la acción a
tomar si el jugador juega NC e Y indica la acción a tomar si el jugador juega C .
El conjunto de estrategias puras del jugador + será entonces
S1=
{( NC , NC ) , ( NC , C ) , (C , N C ) , (C , C ) } . El n!mero de estrategias puras del jugador +es 3, que es lo que se o#tiene al calcular
|S2|=∏h∈ H
2
| A (h )|=2 × 2=4
E($r$egi Mi,$
Definición
Página ) de 1
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
7/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
Una estrategia mixta i para el jugador i es (al igual que para juegos estáticos) una
distri#ución de pro#a#ilidad so#re su conjunto de estrategias purasS i .
Representación Normal de Juegos Extensivos
&iempre es posi#le reducir un juego en su forma extensiva a un juego en su forma normal o
estrat"gica, donde los pagos están asociados a perfiles de estrategias en lugar de a nodos
terminales. Un perfil de estrategias puras lleva a un !nico nodo terminal. &ea ! s∈T el !nico
nodo terminal asociado con el perfil de estrategias puras s . Entonces
"i (s )=vi (! s ) ,∀ i∈ N . Asimismo, el pago esperado asociado al perfil de estrategias mixtas
es
# i ( )=∑s∈ S (∏ $∈ N $ ( s $ ))vi ! s
En la práctica, veremos que para juegos dinámicos es muc%as veces más conveniente considerar
las estrategias de comportamiento de los jugadores en lugar de sus estrategias mixtas.
E($r$egi de Com"or$mien$o
Definición
Una estrategia de comportamiento i ( A (h) ) para el jugador i es una distri#ución de
pro#a#ilidad so#re sus acciones disponi#les en cada uno de sus conjuntos de información
h∈ H i . En otras pala#ras, asumimos que un jugador asigna pro#a#ilidades a sus decisiones
en cada uno de sus conjuntos de información, en lugar de asignar pro#a#ilidades a sus
estrategias puras. Am#as definiciones son equivalentes #ajo el supuesto, que vamos a mantener,
que los jugadores tienen 8memoria perfecta9 un jugador no puede olvidar lo que %izo en una
etapa anterior del juego (este resultado es conocido como el teorema de :u%n).
CONCEPTOS DE SOLUCIÓN
E/UILI0RIO DE NAS1
ecordemos la definición de equili#rio de $as% dada anteriormente un equili#rio de $as% es un
perfil de estrategias ¿
tal que para cada jugador i
# i ( i¿
, −i¿ )% # i ( i , −i
¿ ) ,∀ i∈ &i .
Sendero de E2ui#i3rio
Página * de 1
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
8/15
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
9/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
J 1
AAA 2,0 1,1 0,2
AAR 2,0 1,1 0,0
ARA 2,0 0,0 0,2
ARR 2,0 0,0 0,0
RAA 0,0 1,1 0,2
RAR 0,0 1,1 0,0
RRA 0,0 0,0 0,2
RRR 0,0 0,0 0,0
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
10/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
no sea óptimo para *, * jugara rec%azar si *+ juega (1−1 ) . Este nodo no está en el sendero
de equili#rio por lo que sólo constitue una 8amenaza9 de *. &in em#argo, es una amenaza no
cre#le porque, de darse el caso, * actuara de manera óptima aceptando la propuesta (1−1 )
de *+. As *+ preferira jugar (1−1 ) o#tener en lugar de jugar (0−2 ) o#tener 0 .
-or su puesto, *+ puede realizar esta misma deducción por lo tanto, no esperaramos que el
equili#rio de $as% ( ARR , (0−2 ) ) se d" en realidad.
Analicemos otro de estos E$, por ejemplo ( ARA , (0−2 ) )
J 2
=Es este equili#rio secuencialmente racional>
-ara encontrar los equili#rios de $as% que son secuencialmente racionales podemos aplicar el
procedimiento conocido como inducción hacia atr!s. -osteriormente vamos a explicar
detalladamente este procedimiento. -or a%ora, sólo lo ilustramos aplicándolo al ejemplo
anterior. Empezamos determinando las acciones óptimas de * en los !ltimos nodos de decisión
A luego de (2−0 ) , A luego de (1−1 ) tanto A como R luego de
(0−2 ) . En seguida vamos %acia atrás determinamos qu" es lo óptimo para *+ en el primer
nodo de decisión dado que anticipa correctamente lo que óptimamente va a %acer * en cada
uno de los nodos finales de decisión. ;omo luego de (0−2 ) tanto A como R son
óptimos para *, de#emos tratar cada uno de estos casos por separado. En caso de que * juegue
A luego de (0−2 ) , lo óptimo para *+ es jugar (0−2 ) . En caso de que * juegue
R luego de
(0−2 ), lo óptimo para *+ es jugar
(1−1 ). As, vemos que en el ejemplo
previo sólo %a dos E$ secuencialmente racionales
Página 1 de 1
(1−1 ) (0−2 )(2−0 )
J 1
J 1J 1
R R R A A A
0 12 000
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
11/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
EN = ( AAA , (0−2 ) ) , ( AAR , (1−1 ) )}
En #ase a estos resultados podemos identificar tres posi#les casos de acuerdo a las acciones
óptimas para el jugador
. &iempre Acciones de color celeste
+. ;aso Acción de color verde (En caso de que * juegue A luego de (0−2 ) , lo
óptimo para *+ es jugar (0−2 ) )
2. ;aso + Acción de color naranja (En caso de que * juegue R luego de (0−2 ) , lo
óptimo para *+ es jugar (1−1 ) )
/e igual manera podemos identificar los casos para el jugador + de acuerdo a sus acciones
óptimas
. ;aso Acción de color verde (En caso de que * juegue A luego de (0−2 ) , lo
óptimo para *+ es jugar (0−2 ) )
+. ;aso + Acción de color naranja (En caso de que * juegue R luego de (0−2 ) , lo
óptimo para *+ es jugar (1−1 ) )
El juego en su forma extensiva quedara de la forma
J 2
-or lo tanto los equili#rios de $as% secuencialmente racionales son los a %allados.
1emos visto cómo se puede aplicar el principio de racionalidad secuencial en un ejemplo de un
juego finito de información perfecta. El concepto de solución que incorpora este principio de
Página 11 de 1
(1−1 ) (0−2 )(2−0 )
J 1
J 1J 1
R R R A A A
0 12 001
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
12/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
manera más general es conocido como equilibrio de Nash perfecto en "ubjuegos Antes de
presentar este concepto, necesitamos primero definir qu" es un su#juego.
Su3%uego
/ado un juego en forma extendida, un su#juego es cualquier su#conjunto de nodos queconstitue un juego por derec%o propio. Ello significa que de#e satisfacer dos condiciones
. ;omienza con un conjunto de información que contiene un !nico nodo contiene todos
los sucesores (inmediatos su#siguientes) de este nodo. El su#juego no contiene otros
nodos además de "stos.
+. &i el su#juego contiene el nodo x , entonces contiene todos los nodos que están en el
mismo conjunto de información que x . (Es decir, no %a conjuntos de información
8rotos9)
Página 1& de 1
Panel A! J"ego es#á#ico Panel $! J"ego diná%ico
J 2J 2
J 1 J 1
J 2
C N
N C N C
(22) (03) (30) (11)(11)(30)(03)(22)
C N C N
N C
J 2
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
13/15
Universidad Nacional del Callao - FCE TEORIA DE JUEGOS
-odemos identificar que el -anel A (juego estático) cuenta con un !nico su#juego que es el
juego mismo. El panel 0 (juego dinámico) cuenta con tres su#juegos el juego mismo cada
su#juego que comienza en un nodo de decisión del jugador +.
-uesto que un su#juego es un juego en s mismo podemos aplicarle los conceptos de solución
usuales. -recisamente eso es lo que %ace el equili#rio de $as% -erfecto en &u#juegos.
E2ui#i3rio de N(6 Perfec$o en Su3%uego(
/ado un juego en su forma extensiva, un perfil de estrategias ¿
es un equili#rio de $as%
-erfecto en &u#juegos (E$-&) si induce un equili#rio de $as% (E$) en todos los su#juegos del
juego (incluendo el juego original).
$otese que si ¿
es un E$-&, entonces tam#i"n es un E$ (dado que el juego original
tam#i"n es un su#juego). -ero no todo E$ es un E$-&. -or lo tanto, el conjunto de los E$-& es
un su#conjunto del conjunto de los E$ { EN(S }⊆ { EN } . As, el E$-& nos #rinda una
predicción más precisa so#re los resultados que ca#en esperar en un juego dinámico.
El procedimiento de inducción %acia atrás que ilustramos previamente es clave porque #rinda un
m"todo para encontrar los E$-&. /ado que en cada su#juego los jugadores eligen sus acciones
óptimas anticipando correctamente las acciones óptimas de los demás, a ning!n jugador le
conviene desviarse de su estrategia , por lo tanto, estamos encontrando un E$ en cada
su#juego.
/etallamos los pasos del m"todo de inducción %acia atrás para juegos finitos de información
perfecta
. Encontrar las acciones óptimas en los !ltimos nodos de decisión.
+. Encontrar las acciones óptimas en los pen!ltimos nodos de decisión dado que los
jugadores anticipan correctamente las acciones óptimas que van a ser tomadas en los
!ltimos nodos de decisión.
2. As sucesivamente %asta llegar al nodo inicial.
&i nunca se encuentra más de una acción óptima en cada nodo, entonces el procedimiento
#rinda un !nico E$-&. En caso contrario, todos los E$-& se encuentran repitiendo el
procedimiento para cada acción óptima identificada.
-ara esta categora de juegos, contamos con el siguiente teorema
Teorem de 7erme#o
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
14/15
-
8/16/2019 Teoria de Juegos Juegos Dinamicos
15/15