background image

第二部分

 — 

:完全信息扩展式博弈

动态博弈

1. 例子:斯塔克伯格模型

2. 多阶段可观察行为博弈

0 阶段: 

 

每一个博弈者可以独立选择一个行动 .   

1 阶段: 

 

在本阶段前的历史 决定了本阶段每一个博

弈者可以选

择的行动的范围.   每一个博弈者再独立选择

一个行动.

…………

 阶段: 

 

在本阶段前的历史 决定了本阶段每一个博弈者可以选择的

行动的范围.   每一个博弈者再独立选择一个行动.
…………

博弈在 阶段后中止.(我们允许 为无穷,此时博弈可能进行无

限阶段.

   

)每一个博弈者获得的收益取决于博弈的全部历史 : .

(不一定每一个博弈者在任何一个阶段 和历史时都要做选择. 此时

我们只要让即可.)

3. 多阶段可观察行为博弈的策略式博弈表示

策略空间:   每一个博弈者的策略是一个完整的计划,包括了在所有

的阶段 和所有可能发生的历史时会采取怎样的相应行动(想象一

本理想化的棋谱). 

收益函数:  对于任何一个所有博弈者的策略的组合,我们可以逐阶

的找出相应博弈者行动的历史,从而决定每一个博弈者获得的收益.

4. 多阶段可观察行为博弈的求解

对任何一个多阶段可观察行为博弈,我们首先可以找出它的策略式

弈的 Nash 均衡. 但是其中可能含有不合理的解,我们需要对 Nash 

衡进行挑选(精炼). 

4.1. 逆向归纳法:  仅适用于具有完美信息的有限阶段的博弈.

i

i

A

a

0

)

,

,

(

0

0

1

0

1

n

a

a

a

h

=

=

)

(

1

h

A

i

)

(

1

1

h

A

a

i

i

)

,

,

,

(

1

1

0

=

k

k

a

a

a

h

)

(

k

i

h

A

)

(

k

i

k

i

h

A

a

)

,

,

,

(

1

0

1

K

K

a

a

a

h

=

+

)

(

1

+

=

K

i

i

h

u

u

k

h

1

)

(

=

k

i

h

A

k

h