第二部分

—

：完全信息扩展式博弈

动态博弈

1. 例子：斯塔克伯格模型

2. 多阶段可观察行为博弈

0 阶段:

每一个博弈者可以独立选择一个行动 .

1 阶段:

在本阶段前的历史决定了本阶段每一个博

弈者可以选

择的行动的范围. 每一个博弈者再独立选择

一个行动.

…………

k 阶段:

在本阶段前的历史决定了本阶段每一个博弈者可以选择的

行动的范围. 每一个博弈者再独立选择一个行动.
…………

博弈在 K 阶段后中止.（我们允许 K 为无穷，此时博弈可能进行无

限阶段.

）每一个博弈者获得的收益取决于博弈的全部历史： .

（不一定每一个博弈者在任何一个阶段 k 和历史时都要做选择. 此时

我们只要让即可.)

3. 多阶段可观察行为博弈的策略式博弈表示

策略空间: 每一个博弈者的策略是一个完整的计划，包括了在所有

的阶段 k 和所有可能发生的历史时会采取怎样的相应行动(想象一

本理想化的棋谱).

收益函数: 对于任何一个所有博弈者的策略的组合，我们可以逐阶

段

的找出相应博弈者行动的历史，从而决定每一个博弈者获得的收益.

4. 多阶段可观察行为博弈的求解

对任何一个多阶段可观察行为博弈，我们首先可以找出它的策略式

博

弈的 Nash 均衡. 但是其中可能含有不合理的解，我们需要对 Nash

均

衡进行挑选(精炼).

4.1. 逆向归纳法: 仅适用于具有完美信息的有限阶段的博弈.

i

i

A

a

∈

0

)

,

,

(

0

0

1

0

1

n

a

a

a

h



=

=

)

(

1

h

A

i

)

(

1

1

h

A

a

i

i

∈

)

,

,

,

(

1

1

0

−

=

k

k

a

a

a

h



)

(

k

i

h

A

)

(

k

i

k

i

h

A

a

∈

)

,

,

,

(

1

0

1

K

K

a

a

a

h



=

+

)

(

1

+

=

K

i

i

h

u

u

k

h

1

)

(

=

k

i

h

A

k

h