纯技术贴 Civ4是个很单纯的小游戏（博弈论分析）[翻译完毕]

啊孟 · 发表于 2008-9-27 19:18:03

纳什均衡经典案例：囚徒困境
（1950年，数学家塔克任斯坦福大学客座教授，在给一些心理学家作讲演时，讲到两个囚犯的故事。）
假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。表2.2给出了这个博弈的支付矩阵。
表2.2  囚徒困境博弈
——————————————————————————
　　　　　　　　┃　　　　 B　　  ┃　　　　 B　　 ┃
————————┃————————┃————————┃
　　　　　　　　┃　　　　坦白　 ┃　　　　抵赖　 ┃
————————┃————————┃————————┃
A　　坦白　　 ┃　　 –8, –8　 ┃　　　0, –10　 ┃
————————┃————————┃————————┃
A　　抵赖　　  ┃　　–10, 0　　 ┃　　　 –1, –1　┃
————————┃————————┃————————┃

关于案例，显然最好的策略是双方都抵赖，结果是大家都只被判1年。但是由于两人处于隔离的情况，首先应该是从心理学的角度来看，当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论，假设每个人都是“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他坦白，我抵赖，得坐10年监狱，坦白最多才8年；他要是抵赖，我就可以被释放，而他会坐10年牢。综合以上几种情况考虑，不管他坦白与否，对我而言都是坦白了划算。两个人都会动这样的脑筋，最终，两个人都选择了坦白，结果都被判8年刑期。

基于经济学中Rational agent的前提假设，两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被释放就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局，纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战：按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。

很经典很精致的分析

heshl · 发表于 2008-10-23 09:28:35

好专业的帖子呀，我不但看了中文，也看了英文，长达6页的对话也看过了，不来贫两句实在难受

首先表达一下崇拜之情

其次，嘿嘿

我一向反科学（虽然我也是理工科出身），科学是西方的舶来品，同我心有戚戚中华文化是有差别的，所以中国人搞不好科学是正常的，特别是整个科研思想和体制都是对西方照猫画虎形成的。

西方科学人为割裂了世界的联系，结论往往是理想状态下的，有一定适应范围。比如牛顿力学定律，在微观、宏观及要考虑空气阻力的情况都不适用。而博弈论由于涉及社会科学，其适用范围更为狭小。若要应用，首先要割裂世界，隔离各式各样的外部条件，创造一个适用范围；当然，还有另一个办法，那就是针对某一环境创造模型，比如纳什均衡不行了，就用别的什么均衡。

感觉西方科学有时候都很接近问题的本质了，但是就是到不了本质。比如这篇文章，感觉很接近“文明”的本质了，但是还是水中月、镜中花。至于由此衍生出的其他平衡，虽然也许可以解决问题，但是离问题的本质渐行渐远。

其实，什么也不懂，一点拙见

西艾薇.I.王子 · 发表于 2008-10-24 08:43:48

请问一下楼主，文明这个游戏有 多个胜利条件

所谓的纳什均衡一定存在，意思是不是，对某个玩家，一定有一个 最佳的胜利方式

又或者是说，所谓的多个胜利条件，只是一个幌子，游戏真正的目标，是以最高的分数获胜？

[ 本帖最后由西艾薇.I.王子于 2008-10-24 08:47 编辑 ]

langdu · 发表于 2008-10-25 08:50:01

原帖由 西艾薇.I.王子 于 2008-10-24 08:43 发表
请问一下楼主，文明这个游戏有多个胜利条件

所谓的纳什均衡一定存在，意思是不是，对某个玩家，一定有一个最佳的胜利方式

又或者是说，所谓的多个胜利条件，只是一个幌子，游戏真正的目标，是以最高的 ...

我只能说你没看懂rp男的意思。。。。。整个楼里很多人都没看rp男写的什么意思啊
其实最简单来说rp男的意思就是文明这个游戏虽然元素众多很难摸到头脑但其实是数学上是可解的
如果有足够的计算能力再初始条件相同的情况下每盘游戏都可以通过精确的选择策略来再游戏达成胜利条件时达到至少一个或多个均衡，其实所谓的均衡就是大家没有更好的选择，哪怕可能对任何人来说都不是最好的——这不正是文明游戏的魅力的来源么，比如说倒卖科技，虽然你卖给他很便宜可是你不卖别人也要卖不如赶紧卖。。。
拿上面rp男举例的选择打兔子和打鹿的例子来说这只是一个回合而文明是把这个选择继续下去后面还有其他的选择而选择都再影响下一轮选择
rp男的这个帖子不是一个游戏技术贴。。。从某种程度说可能是想给我们分享他学习的乐趣罢了吧
同时也想探讨下文明这个游戏的博弈方式吧。。。任何人你说要rp男给你解开文明的纳什均衡估计是没希望了
我解不了高深的数学，不过我理解这些理论要表达的意义。。。

西艾薇.I.王子 · 发表于 2008-10-25 18:29:51

谢谢，我想我也理解这些理论的意义

我的意思是，假若游戏有本质上不同的多个胜利条件，而这些胜利条件又都是完全平等的，比如说我做出选择A，对胜利条件1来说，效用很差，但是对胜利条件2来说，效用很高，还有其他的胜利条件3，4，5……这样一来，还能说纳什均衡一定存在吗？

PS，楼上的用户名难道是“狼毒”？

langdu · 发表于 2008-10-25 20:30:09

恩。。。。很久以前科幻世界上的小说
我觉得按照楼上的意思可能有时候不止一个纳什均衡按照前面rp的意思貌似纳什均衡的数量和初始条件应该是相关的

???? · 发表于 2008-10-26 23:25:02

WB 最优
S/L 次之
挑图更次
意识殿底

RP_MAN · 发表于 2008-10-27 13:23:10

原帖由 西艾薇.I.王子 于 2008-10-25 18:29 发表
谢谢，我想我也理解这些理论的意义

我的意思是，假若游戏有本质上不同的多个胜利条件，而这些胜利条件又都是完全平等的，比如说我做出选择A，对胜利条件1来说，效用很差，但是对胜利条件2来说，效用很高，还 ...

恩……其实这是一个很好，也非常深刻的问题——我在写原文的时候，是忽略（或者说assumed it away）了这一点。
全开的话，有6个胜利方式。其实，如果把N多的输掉得方式也算进去的话，那最后游戏结果有N+6个（根据前面的论证，因为这个游戏的玩家的策略集是有限的，N+6也是有限的。如果无限的话，可能会麻烦一点，要用到Nash的另外一个定理，这里不讨论。）
其实博弈论，或者说微观经济的最根本是每个玩家对这N+6个结果有一个preference relation。比如说，我prefer conquest victory> (可以是等于)domination victory>...>time victory>任何输掉的结果（假设你不在乎怎么输，只要是输了都一样。），而你喜欢domination victory>space victory>...>culture victory>任何输掉。甚至你可以假设有人最喜欢输掉都没有问题。对于rational preference relation，一般来说，只要满足三个基本假设（见附1）就好了。
其实博弈论的最根本解法是: Given the strategy of every other player, 每个玩家选择最佳的对应策略，来获取自己最喜欢、且能达到的结果。（这个结果未必是你的top preference，就像囚徒困境中，纳什均衡的结果不是top preference。）所以即使每个玩家喜欢胜利方式不同，纳什均衡也是存在的。
我写原文的时候，心中的假设每个玩家对每个胜利方式获得的效用是一样的，但是如上所述，即使不同，原文中的结论依然不受影响。

附1
rational preference 三大假设： Let X be a choice set, a rational preference relation needs to satisfy
1) completeness: For any pair of elements {x,y} in X, there is always a preference relation defined on such a pair. I.e either x<y, or y<x, or x=y.
2) reflexivity: For all x in X, x=x. (Any one element is always as good as itself.)
3) transitivity: For any x, y, z in X, if x>y, y>z, then it must be that x>z. (无法打出来，不过这里>代表大于等于 “at least as good as.”)

RP_MAN · 发表于 2008-10-27 13:26:37

原帖由 langdu 于 2008-10-25 08:50 发表

我只能说你没看懂rp男的意思。。。。。整个楼里很多人都没看rp男写的什么意思啊
其实最简单来说rp男的意思就是文明这个游戏虽然元素众多很难摸到头脑但其实是数学上是可解的
如果有足够的计算能力再初始 ...

嗯，你的理解是非常赞的

original_sin · 发表于 2008-10-28 06:23:31

很好，但请注意对于单机玩家（例如我）来说，我的对手是一个预先设置好的程式，也就是说它们其实不会寻找自己的纳什均衡，所以整个游戏事实上是让一些宅男根据AI的程式尽力找一个最优解而已

另外，即使无限的游戏也会有纳什均衡，只要其策略集是有限的~~~

[ 本帖最后由 original_sin 于 2008-10-28 06:26 编辑 ]

langdu · 发表于 2008-10-28 11:06:44

不过因为AI的策略是事先编制的程序
从某种程度上说你可以认为AI有某种爱好，比如某人喜欢征服和战争，有人偏向于宗教
仍然可以认为AI是再追求他所遵循的程序所指向的平衡

original_sin · 发表于 2008-10-28 11:12:13

不对,因为AI是事先编好的,所以基本不会因为玩家策略的改变而改变,也不会因为不同玩家所做的同一行为而有不同反应,所以我认为AI没有追求平衡,或者说,AI没有一个固定的价值观

langdu · 发表于 2008-10-31 10:56:43

准确的说AI是一个比较简单比较单纯的“玩家”

original_sin · 发表于 2008-10-31 14:18:07

我只能说AI灰常不RATIONAL

西艾薇.I.王子 · 发表于 2008-10-31 17:17:30

原帖由 original_sin 于 2008-10-31 14:18 发表
我只能说AI灰常不RATIONAL

AI是最rational的，只是它的rational在我们眼中很弱罢了

original_sin · 发表于 2008-10-31 22:39:07

为什么这样说呢?

西艾薇.I.王子 · 发表于 2008-10-31 22:41:53

好吧，理性的意思是有清楚明确的、前后一致的偏好，固定的程序毫无疑问比善变的人类要更加满足这个条件了

RP_MAN · 发表于 2008-10-31 23:10:32

其实博弈论中的理性还牵涉到backward induction,因为对于动态游戏而言，一般找的是子博弈精炼均衡 (subgame perfect Nash equilibrium)或贝叶斯精炼均衡（Perfect Bayesian equilibrium）或者别的精炼均衡概念。而这样的均衡要求能做到彻底的“走一步想100步” （这是比喻而已……），但是AI做不到……
其实人类也做不到……
所以……只能是理论上证明存在这些均衡……

original_sin · 发表于 2008-10-31 23:38:23

问题是,如果给人类有足够的计算能力他能做到,而AI我可以保证他做不到
另,理性不等于固执,某种程度上善变更是理性的表现
再另,个人认为LZ说的平衡存在于文明这个游戏系统而不是文明这个游戏中

[ 本帖最后由 original_sin 于 2008-10-31 23:40 编辑 ]

langdu · 发表于 2008-11-3 10:26:01

如果能完全的理性其实从某种程度上说和固执差不多了
只不过我们很多时候并不能充分的掌握初始条件也没有精力去做足够的演算所以凭借经验来判断
lz所说的平衡的确存在或许可以把ai的存在和他们的行动方式看做是一个能力不健全的玩家如果人类玩家有足够的资源的话应该可以得到所谓的均衡

		自动登录	找回密码
密码			注册

[原创] 纯技术贴 Civ4是个很单纯的小游戏（博弈论分析）[翻译完毕]

回复 #104 langdu 的帖子