第二部分
—
:完全信息扩展式博弈
动态博弈
1.
例子:斯塔克伯格模型 (FT 3.1)
2.
多阶段可观察行为博弈 (FT 3.3.2)
0 阶段:
每一个博弈者可以独立选择一个行动 .
1 阶段:
在本阶段前的历史 决定了本阶段每一个博
弈者可以选
择的行动的范围. 每一个博弈者再独立选择
一个行动.
…………
k 阶段:
在本阶段前的历史 决定了本阶段每一个博弈者可以选择的
行动的范围. 每一个博弈者再独立选择一个行动.
…………
博弈在 K 阶段后中止.(我们允许 K 为无穷,此时博弈可能进行无
限阶段.
)每一个博弈者获得的收益取决于博弈的全部历史 : .
(不一定每一个博弈者在任何一个阶段 k 和历史时都要做选择. 此时
我们只要让即可.)
3. 多阶段可观察行为博弈的策略式博弈表示(FT 3.3.2)
策略空间: 每一个博弈者的策略是一个完整的计划,包括了在所有
的阶段 k 和所有可能发生的历史时会采取怎样的相应行动(想象一
本理想化的棋谱).
收益函数: 对于任何一个所有博弈者的策略的组合,我们可以逐阶
段
的找出相应博弈者行动的历史,从而决定每一个博弈者获得的收益.
4. 多阶段可观察行为博弈的求解(FT 3.5)
对任何一个多阶段可观察行为博弈,我们首先可以找出它的策略式
博
弈的 Nash 均衡. 但是其中可能含有不合理的解,我们需要对 Nash
均
衡进行挑选(精炼).
4.1. 逆向归纳法: 仅适用于具有完美信息的有限阶段的博弈.
i
i
A
a
∈
0
)
,
,
(
0
0
1
0
1
n
a
a
a
h
=
=
)
(
1
h
A
i
)
(
1
1
h
A
a
i
i
∈
)
,
,
,
(
1
1
0
−
=
k
k
a
a
a
h
)
(
k
i
h
A
)
(
k
i
k
i
h
A
a
∈
)
,
,
,
(
1
0
1
K
K
a
a
a
h
=
+
)
(
1
+
=
K
i
i
h
u
u
k
h
1
)
(
=
k
i
h
A
k
h