反直觉事实(14):在这个冷酷的宇宙里,善良是怎么活下来的?
付费文章重复囚徒困境:好人有好报,不是因为天理,而是因为数学
一、 在经典的囚徒困境里,理性的选择永远是背叛。 两个囚犯被分开审讯。 如果都不招供(合作),各判1年。 如果都招供(背叛),各判5年。 如果一个招供一个不招供,招供者无罪释放,不招供者判10年。
二、 无论对方怎么选,我背叛都比合作收益高。
- 如果对方合作,我背叛:我无罪释放(最好结果)
- 如果对方背叛,我背叛:我判5年(比判10年好) 所以,背叛是占优策略。
三、 但如果两个人都这么想,结果就是双双背叛,各判5年。 明明双双合作只判1年是更好的结果。 但理性让他们走向了次优。 善良是理性的敌人。
四、 这个结论让人绝望。 如果这是宇宙的底层逻辑,那为什么现实世界里充满了合作? 为什么人们排队?为什么商人守信?为什么没有变成所有人对所有人的战争?
五、 答案是:现实不是"一次性博弈"。 而是重复博弈(Iterated Prisoner's Dilemma)。 你要和同一个人打无数次交道。 今天你背叛他,明天他就会报复你。 这就改变了一切。
六、 1980年,政治学家罗伯特·阿克塞尔罗德做了一个著名实验。 他邀请全世界的博弈论专家、数学家、经济学家,编写计算机程序参加一场"重复囚徒困境"锦标赛。 各种策略登场:
- 总是合作的"圣母"
- 总是背叛的"恶棍"
- 随机行动的"疯子"
- 先合作后背叛的"老六"
- 复杂的统计分析策略
七、 结果令所有人意外。 获胜的程序是所有参赛者中最简单的一个,只有四行代码: 以牙还牙(Tit for Tat)。
八、 它的策略极其简单:
- 第一局,选择合作(善良)
- 之后,完全复制对方上一局的动作(报复/奖励) 你合作,我就合作。你背叛,我就背叛。 你改邪归正,我立刻原谅。
九、 为什么它赢了? 阿克塞尔罗德总结了它的四个特质:
- 善良(Nice):从不主动背叛
- 可激怒(Provocable):被背叛后立即报复
- 宽恕(Forgiving):对方改正后立
登录以继续阅读
这是一篇付费内容,请登录您的账户以访问完整内容。
所有内容独家内容随时取消
AI实践知识库