好文档 - 专业文书写作范文服务资料分享网站

行为混合策略局中人i一个行为混合策略在他每一个信息集

天下 分享 时间: 加入收藏 我要投稿 点赞

行为混合策略:局中人i的一个行为混合策略在他每一个信息集所能选取的着之集合给出一个概率分布(pi1,pi2,…),其中pij是他采用第j着的概率。

在有完美记忆的博弈中,每一个混合策略都对应于唯一一个行为混合策略,每一个行为混合策略都对应于一组混合策略。通常,混合策略集的维数高于行为混合策略集的维数。

当局中人采用行为混合策略时,博弈的结果和他们采用对应的混合策略是一样的。因此从Nash均衡的存在定理可以推出:

每一个有限的扩展型博弈存在至少一个行为混合策略Nash均衡。

用数学归纳法可以证明:每一个有限的扩展型博弈存在至少一个行为混合策略子博弈完美Nash均衡。 例子:

第二章:不完整信息博弈

第一节:基本概念

1 我们只研究有限的有完美记忆的博弈。称一个博弈为不完整信息博弈,如果至少有一个局中人不知道某些对手的赢得函数。今后总是假定,在不完整信息博弈中,每个局中人对每个对手的赢得函数都有个主观估计,通常表示为几个确定的赢得函数上的一个概率分布;相应地把这个对手看成有几种不同的类型。如果把每个对手的类型看作由自然界以相应的概率选定,那么就将不完整信息博弈化为完整信息但非完美信息的博弈。由此算出的Nash均衡又叫做贝叶斯均衡。

2 例子:

第二节:拍卖理论简介

1 English Auctions and Dutch Auctions

2 First Price Sealed-Bid Auctions

一个卖主,拍卖品对他价值为0;n个买主,每人知道拍卖品对自己的确定价值vi?[0, 1],而卖主和其他买主都认为在区间[0, 1]上有均匀分布。

每个买主同时将自己的出价写在一个纸片上折叠好交给卖主。卖主看过所有纸片后将拍卖品卖给出价最高者,价格就是这个买主的出价。

每个买主根据拍卖品对自己的价值出价,出价函数bi = Bi(vi)可以假定为严格递增可导函数,记其反函数为vi = Vi(bi)。可以假定在均衡时,每个买主的出价函数相同,记为b = B(v), 而反函数记为v = V(b)。现在我们来推导这个出价函数。

假定除买主1外,其他n-1个买主都依照B(v)来出价。假定买主1出价值x。当且仅当

x > bj, j = 2, …, n

的时候,买主1能够赢得拍卖。我们来推算这个事件的概率。

对于某个特定的j,x > bj等价于V(x) > vj, 而这个事件的概率就是V(x)。由于v2,…,vn相互独立,因此,

prob(x > bj, j = 2, …, n) = [V(x)]n-1

于是买主1的期望赢得为:

E(x,v1) = (v1-x) [V(x)]n-1

根据均衡假定,当x = B(v1)的时候,这个买主的期望赢得最大,等于E(B(v1),v1),它依赖与参数v1。

根据包络定理,

dE(B(v),v)/dv = ?E(x,v)/?v =

由此得到:

E(B(v1),v1) = (v1)n/n + c

当v1 = 0时,E(B(v1),v1)必须为0;所以c=0。最后从

(v1-B(v1))(v1)n-1 = (v1)n/n

解出:

B(v1) = (n-1)v1/n

因此Nash bidding rule is: B(v) = (n-1)v/n。

1

1

1

1

1

[V(x)]n?1|x?B(v1)?(v)1n?1

下面计算卖主的期望赢得:在n个买主对拍卖品的最高估值落在微小区间[v,v+dv)上的概率。因为每个买主i的估值都有可能落在这个区间,其概率是dv;而同时还必须有所有其他买主的估值都小于v,其概率为vn-1。因此上述事件的概率为nvn-1dv。这个事件实现时,卖主的赢得是(n-1)v/n。因此,买主在拍卖中的期望赢得是:

1(n?1)vn?1(n?1)vnnvdv?(n?1)vdv??0n?1 ?0n1n?1|10?n?1n?1

Second Price Sealed-Bid Auction: 象First Price Sealed-Bid Auction 一样,每个买主将出价写在纸片上交给卖主,出价最高者得到拍卖品,但他只须付出第二高的出价。

容易论证,每个买者的最优策略都是让出价等与估值。

在Second Price Sealed-Bid Auction中,卖主的期望赢得计算稍微复杂些。

先决定第二高的估值落在区间[v, v+dv)上的概率:n个买主每人的估值都以dv的概率落在这个区间上;同时,必须有其他(n-1)人的估值落在区间[v+dv,1]上,对他们每一

行为混合策略局中人i一个行为混合策略在他每一个信息集

行为混合策略:局中人i的一个行为混合策略在他每一个信息集所能选取的着之集合给出一个概率分布(pi1,pi2,…),其中pij是他采用第j着的概率。在有完美记忆的博弈中,每一个混合策略都对应于唯一一个行为混合策略,每一个行为混合策略都对应于一组混合策略。通常,混合策略集的维数高于行为混合策略集的维数。当局中人采用行为混合策略时,博弈的结果和他们采用对应的混合
推荐度:
点击下载文档文档为doc格式
61gyu5a38q3bj0w6iip07zlrl1bk8m012x0
领取福利

微信扫码领取福利

微信扫码分享