神经现实|一度输得只剩内裤的机器人,为何能反转战胜美国顶尖牌局玩家?

文章图片
卡内基梅隆大学的计算机科学家托马斯·桑多姆(TuomasSandholm)既不玩牌 , 也不怎么看人打牌 。 他对扑克牌着迷的原因和博弈论大师冯·诺依曼的很相似 。 冯·诺依曼于1957年去世 , 他把扑克视为研究人类决策的理想模型 , 用以寻找那种伴随我们一切抉择的 , 技术与运气间的平衡 。 他把扑克看作终极策略考验 , 其中既包含了象棋等游戏中的数学元素 , 也融合了那些难以建模的 , 人类独有的心理因素 。 多年以后 , 桑多姆在他的人工智能研究中 , 也持有同样的见解 。
“扑克牌是测试不完全信息博弈的主要基准项目 。 ”2018年春天一个温暖的午后 , 桑多姆在匹兹堡的办公室与我会面时这样说道 。 原来扑克牌已经成为了人工智能开发中的试金石 。
桑多姆又高又瘦 , 戴着金属边眼镜 , 整齐的头发衬着一张和善的脸 。 他主持研发了三个能与人类扑克牌选手较量的电脑程序:Claudico , Libratus和最新的Pluribus(我们见面时Libratus还处于蹒跚学步的阶段 , 而Pluribus尚未出世) 。 研究的目的并不是破解扑克牌的玩法 , 而是要创造出能够应对扑克博弈中不完整的信息 , 以及那些随机、不可预知的局面的算法 。 进而将他们的决策能力应用于其他随机领域 , 比如军事、金融、政治、信息安全 , 甚至医疗健康 。 
文章图片
-Freepik-
尽管第一个程序Claudico很快就被人类玩家击败了——一位旁观者将程序称为“输得只剩内裤的机器人” 。 Libratus却在一系列双人对局中战胜了美国顶尖的线上玩家 。
Libratus得益于三个主要模块 。 第一个模块里包含整个游戏的基本战术纲领 , 使它能比上一代程序更快地到达纳什均衡 。 其中使用了一种叫做蒙特卡罗反事实遗憾最小化(MonteCarloCounterfactualRegretMinimization)的算法 , 这种算法对所有可能的行动进行评估 , 从而找出带来最少遗憾的一种 。 遗憾是人类天生的情感 。 对电脑而言 , 遗憾仅仅意味着知道某个未被选择的行动本应比实际采取的行动带来更好的结果 。 “直观地说 , 遗憾代表了人工智能因为过去没有做出某一选择而后悔的程度 。 ”桑多姆说 。 遗憾值越高 , 下一次选择这一行动的几率也就越大 。
这是一种实用的思维方式——但人类的心灵很难将其付诸实践 。 我们预测情绪的能力是出了名的低下 。 我们会对一件事感到多么后悔?我们会对没做某件事感到多么后悔?对我们而言 , 这种计算背负着情绪的重量 , 使我们往往无法正确地求解 。 对电脑而言 , 这一切无非是数值的运算 。 它最后悔没做的事 , 不正是本该产生最佳预期收益的那一件吗?
第二个模块是子游戏解析器 。 它把对手过去犯下的失误纳入考量 , 并且顾及每一种可能的手牌组合 。 最后一个模块是自我改良器——这就是大数据和机器学习能派上用场的地方了 。 试图利用对手的弱点是危险的——这会将你的弱点暴露给对方 , 使你反被利用 。 当电脑程序与人类对手博弈时 , 人类更精通于此 。 所以自我改良器并不尝试这样做 , 而是让对手的行动告诉程序该把关注点放在哪里 。 “让对手用行动告诉我们 , (他们)认为我们战术的破绽在哪儿 。 ”桑多姆解释道 。 这能帮助算法构建一个整体战术 , 以填补那些漏洞 。
这其实是一种颇具人性的调整方式 。 我不会一上来就想着占你便宜 , 而是要看看你想怎么占我便宜 , 然后再随机应变 。 孙子一定会赞同这个做法 。 要关注别人怎样看你 , 而不是你怎样看待自己 。 毕竟你的对手们才是观察者 , 而他们的观点 , 不论正确与否 , 才是你在安排战术时唯一需要考虑的那个 。 一夜之间 , 算法就能根据分析的结果 , 将整体战术修补完善 。 
文章图片
-JacopoRosati-
Libratus还能做到最后一件事:在概率不明的情形下进行博弈 。 博弈论里有一个概念叫做“颤抖的手(tremblinghand)”:在最优策略下 , 游戏树里有一些分支是理论上永远无法到达的 。 然而身为凡人 , 你的对手有一定的几率会手抖 , 他们犯了个错误 , 结果你一下子就身处一种全然陌生的境地 。 以前 , 这会给电脑带来严重的麻烦 , 因为在游戏树中尚未涉足的区域里 , 程序不知道该如何应对 。 但如今 , 我们有了对策 。
当然 , 完美的算法并不存在 。 Libratus打扑克时 , 本质上是在一个零和环境下工作 。 它赢了 , 对手就输了 。 对手赢了 , 他就输了 。 尽管现实生活中确实有一些零和的往来——我想到的是信息战——其余诸多情形并没那么直截了当:我赢了 , 不见得你就输了 , 我们不是在争夺固定总量的奖励 , 这种交互或许更接近正和(positive-sum)博弈 。 
文章图片
-MatéFranchi-
此外 , 在现实生活中我们还需面对扑克牌游戏中不涉及的问题:决策中的不同因素的权重 。 在扑克比赛里 , 这无非就是一个利益最大化的问题 。 但在人类世界中 , “利益”指的是什么呢?桑多姆协助策划世界第一次肝肾交换移植时 , 就曾面临过这一问题 。 你是想追求效率 , 以最快的速度交换最多的器官呢?还是想追求公平 , 却因此降低效率呢?你是想尽可能救助更多人——还是说有什么比数量本身更重要吗?等待肾脏时间长的患者应该优先吗?孩子们应该优先吗?诸如此类 。 桑多姆说 , 把目的和手段区分开至关重要 。 在寻找手段之前 , 人必须明确自己的目的是什么 。
推荐阅读
- 天花板|姚沐希承认已分手,终究还是败给现实,“奇闻CP”才是恋综天花板
- 信号|《信号》难再有“奇闻CP”!第三季姚沐希彭措分手,直言因为现实
- 娱乐小仔|被赵薇说矫情,杨幂力捧多年仍不红,她的傲气堪称现实版顾里
- 孤风婉史|女硕士留学7年回村种地,被当成神经病,大学生回家务农有错吗?
- 韩版|韩版《乘风破浪的姐姐》?现实韩国女团比这还要残酷!
- 蠢萌新闻|权相佑得意结婚12年没听到老婆放屁,这是现实版麦瑟尔夫人吗?
- 现实娱乐家|刘恺威酒后曝出
- 小沐说八卦|才刚在节目牵手成功,姚沐希彭措就官宣分手,分开原因过于现实
- 度假村|马来西亚怡保一度假村发生土崩 华裔男女不幸身亡
- 整机|【深度】三一重能冲刺风电第一梯队,是美梦还是可触及的现实?
