胡松瀛数模讲义
对策与决策模型
古人云:“世事如棋。”人生就像下棋一样,每天都要面对许多的 对策与决策问题。有些是生活琐事的对策与决策,如要不要买你看中 的一件商品;今天中午你点什么菜,喝什么酒?有些则可能是决定你 命运的重大事情的对策与决策,如高考填志愿你该填什么学校,什么 专业?许多人在竞争某一职位,你应当怎样做才能最好的表现自己, 使自己脱颖而出?等等,等等。对策与决策问题都要求你面对几种方 案做出选择,不同之处在于遇到对策问题时,你面对的是一个或几个 与你一样可以可以选择行动方案的对手;而遇到决策问题时则不然, 你面对的并非一些对手,而是将来会出现的几种可能结果,它们虽不 会故意为难你(即不会和你博弈),但你一般却不知道究竟哪一种结 果会真正出现。当然,两类问题也有一定的联系,不必分得过于清楚。 例如,在某些情况下,如果我们把可能出现的若干种情况看成是竞争 对手可以采取的几种策略,那么求解对策问题的方法也可以用来求解 决策问题。
对策问题
对策论的思想早就有之,我国战国时期的“田忌赛马”就是一例。 传说齐王
欲与大将田忌赛马,双方约定每人挑选上、中、下三个等级 的马个一匹进行比赛,每局赌局诶一千金。齐王同等级的马均比田忌 的马略胜一筹,似乎必胜无疑。田忌的朋友孙膑给他除了一个主意, 让他用下等马对齐王的上等马,上等马对齐王的中等马,中等马对齐 王的下等马,结果田忌两胜一败,反而赢得了一千金。然而,对策论 作为一门真正独立的学科,其发展的历史却并不久远。 1912 年,策 墨罗利用集合论思想研究下棋, 发表了题为 《关于集合论在象棋对策 中的应用》的论文。1928 年与 1937 年著名美籍匈牙利科学家冯 .诺伊 曼和摩根斯藤合著了 《对策论与经济行为》 一书。这些研究成果被公 认为是对策论作为一门学科创立的标志, 他们引进了严格的定义, 构 建了对策论的理论框架, 使对策论研究走上了系统化、 公理化的道路。 1950 年,美国数学家纳什将冯 .诺伊曼等人的合作对策理论发展到非 合作对策情况, 提出了纳什平衡点概念 (纳什本人也因此而获得了诺 贝尔经济学奖)。此后,对策论围饶着纳什平衡点这一核心问题发展, 又有了新的重大突破。
对策问题的参与者为利益相互冲突的各方, 其结局不取决于其中 任意一方的努力而是各方所采取的策略的综合结果。
究竟什么是对策问题呢?让我们先来考察两个简单的实例。 例 1 (囚犯的困惑)警察同时逮捕了两人,并将他们分别关押 在两处,逮捕的原因是他们持有大量伪币。警方怀疑他们伪造钱币, 但尚未找到充分的证据, 希望他们能自己供认。 这两个人都知道: 如 果他们双方都不供认, 将被以持有和使用大量伪币罪各判刑 18个月; 如果双方都供认伪造了钱币, 将因伪造钱币罪各判刑 3 年;如果一方 供认另一方不供认, 则供认方将被从宽处理仅关押半年, 但未供认一 方将被判刑 7 年。将嫌疑犯 A、B 被判刑的几种可能情况如表一所示。
嫌疑犯B 供认 嫌疑犯A 不供认 (0.5, 7) (1.5,1.5) 供认 不供认 (3, 3) (7, 0.5) 表中每对数字表示嫌疑犯A、B被判刑的年数。
让我们来分析一下囚犯们会怎样决策。 囚犯A也许会这样想:若 B招认了,我如果不招认会被判7年,但我也招认的话只有3年;若 B不招认,我如果招认判刑只有半年,而不招认则被判刑
1?5年。也
就是说,不论B招认还是不招认,对A来说,招认都比不招认要好。 既然如此,除非A是傻瓜,他肯定会采取招认的策略。同样道理,如 果B不是傻瓜,他也会这样想,从而采取招认的策略。看来这一案件 的最终结果一定是,A、B均供认并各被判刑3年,不管他们真的有 没有伪造钱币。由此可以看出,在这种情况下,过分的强调了坦白从 宽、抗拒从严,即使不使用刑罚,也完全有可能制造冤案,这就是为 什么法律界人士要再三强调量刑时应当重事实、重证据的原因之一。
在上面这个简单实例的分析中,我们其实已经先验地做了一条假 设:“防人之心不可无”,不管对方怎么做,我们的策略应当保证我不 会成为牺牲品。例如,假如 A、B都不招认,他们都只需服刑1?5年 (而不是3年)。可是双方都会这样想,凭什么我要相信对方,有什 么对东西能保证对方不会出卖我呢?
“囚徒的困惑”是一个很出名的实例,它之所以出名是因为它揭 示了一种
现象,即在自然状态下,动物(包括人)是趋利避害的。假
如你将一批猴子关进笼子里并每天从中选出一只来杀掉,你只要稍加 留意就会发现,在你选猴子的时候,猴子们非常紧张,一动都不敢动 生怕引起你的注意,而当你选中一只准备杀时,被选中的猴子拼命挣 扎,其余的猴子却在笼子里幸灾乐祸的观望,可能庆幸自己未被选中。 不少人认为,认总是利己的,只要不出伤害别人就算是好人了(经济 学中将这种人称为“理性人”)。其实不然,如果不崇尚奉献精神,人 人都事不关己高高挂起,人人都满足于当“理性人”,就会对整个社 会带来灾难,最后也一定会殃及作为社会一员的个人。例如,我们经 常看到有消息报道,某处罪犯正在作案,旁观看热闹的人不少,却没 有人挺身而出去加以制止(或只有很少的几个见义勇为者),大概就 是因为事不关己吧。这些人和关在笼子里的猴子没有多大区别,他们 的举动其实在助长犯罪分子的威风,如果每一个人都能挺身而出,罪 犯的气焰就不会这样嚣张了,敢于犯罪的人也就少了。
例2 (商业竞争)两家生产相同产品的工厂在竞争市场,甲厂 拟定了三套行动计划a., ?,如,乙厂拟定了四套行动计划02, 03,角。预测在甲厂采
2
取方案⑦,而乙厂釆取方案Q时,甲已两厂 的市场盈利分别为(勺,0\)(注:前者为甲厂盈利,后者为乙厂盈 利)。问两厂各应采取哪一种策略才能使本厂的盈利最大。
在例2中,根据预测我们得到的其实是一个赢得“矩阵”(注: 我们给矩阵两字加了引号是因为,严格地讲,它并不是矩阵,因为其 每一个元素是一个向量而不是一个数):
(ail?^ll )…
(。|4,勺4
厦=(。21'“21)…(。24'“24) _(。31,“31)…(。34上34)_
分析上面两个对策问题的实例,我们可以发现一些共同的规律。
一、对策问题的基本要素
给定一个对策问题的实例必须给定以下信息:
(1)
局中人。参加对策的各方被称为决策问题的局中人,一个 对策
问题可以包含两名局中人(如棋类比赛等),也可以包含多于两 名局中人(如大多数商业中的竞争、政治派别间的斗争等)。每一局 中人都必须拥有可供其选择并能影响最终结局的策略,在例1中,局 中人是川、〃两名疑犯,警方不是局中人。两名疑犯最终被如何判刑 取决于他们各自釆取的态度,警方不能为他们做出选择。
(2)
策略集合。局中人能釆取的可行方案称为策略,每一局中
人存在着一个策略集合,而每一策略集合中至少要有两个策略,否则 该局中人可从此对策问题中删去,因为对他来讲,不存在选择策略的 余地。应当注意的是,所谓策略是指在整个竞争过程中对付他方的完 整方法,而并非指竞争过程中某步所采取的具体局部办法。例如,下 棋中的某一步只能看作一个完整策略的组成部分,而不能看成一个完 整的策略。当然,有时可将它看成一个多阶段对策中的子对策。策略 集合可以是有限集也可以是无限集。策略集合为有限集时被称为有限 对策,否则被称为无限对策。
(3)
赢得函数(或称支付函数)。记局中人i的策略集合为S,。 当
对策问题的各方都从各自的策略集合中选定了一个策略后,各方采