【雅达利】DeepMind的AI再次打败人类玩家，“攻下”57款雅达利游戏 |人工智能|自动推

Agent57为我们构建更加强大的AI决策模型奠定了基础。
AI打游戏会比普通人优秀？DeepMind给了肯定的答案。近日， DeepMind宣布它们的智能体Agent57首次在所有57款雅达利游戏上超越人类玩家。

本文插图

近年来， DeepMind一直在研究提高智能体在游戏环境下的智能性，通常情况下，智能体在游戏中能够应对的环境越复杂，它在真实环境中的适应能力也会越强。
此次Agent57挑战的街机学习环境（Arcade Learning Environment ， ALE）包括57款游戏，为智能体的强化学习提供了复杂的挑战。
而之所以会选择雅达利游戏作为训练的数据集， DeepMind表示雅达利游戏足够多样化，可以评估智能体的泛化性能，其次它可以模拟在真实环境中可能遇到的情况，并且雅达利游戏是由独立的组织构建，可以避免实验偏见。
据悉， Agent57在多台计算机上并行执行，并启用强化学习算法（Reinforcement learning ， RL）驱动智能体采取行动，使得奖励的效果最大化。此前，强化学习在游戏领域就取得不少进展，比如OpenAI的OpenAI Five和DeepMind的AlphaStar RL智能体分别打败了99.4%的Dota 2玩家和99.8%的星际2玩家。

本文插图

图 | Agent57的框架
雅达利游戏中的Montezuma、Revenge和Pitfall都很难， AI必须先尝试多种不同的策略，才能找到可行的方法。而在Solaris和Skiing游戏中，需要一段时间才能显示决策结果，这意味着AI必须在相当长的时间内收集尽可能多的信息。
Agent57通过让不同的计算机研究游戏的各个方面来克服了这些难题，然后将收集到的信息反馈给一个控制器，由控制器对所有这些因素进行分析以制定出最佳策略。
DeepMind将Agent57与当前最先进的算法MuZero、R2D2和NGU做了比较， Agent57显示出了更高的平均性能（100）。

本文插图

研究团队表示， “这并不意味着雅达利游戏研究的结束，我们不仅要关注数据效率，也需要关注总体表现，未来的主要改进可能会是Agent57在探索、规划和信度分配上。 ”比如减少AI运行的算力，在集合中的一些较简单的游戏中变得更好。
Agent57在雅达利游戏中取得超越人类玩家的成绩，为我们构建更加强大的AI决策模型奠定了基础：AI不仅可以自动完成重复性的任务，也可以自动推理环境。
【【雅达利】DeepMind的AI再次打败人类玩家，“攻下”57款雅达利游戏】 更多优质内容，请持续关注镁客网~

本文插图

【雅达利】DeepMind的AI再次打败人类玩家，“攻下”57款雅达利游戏

推荐阅读

『军武次位面』美军研发微型无人机，士兵用榴弹发射器就发射，突破常规

车企几个亿研发的智能座舱，为何干不掉一个Carplay

跨省团队旅游恢复，国内跟团游、自由行瞬时搜索量激增500%

#时代之说#对于不同人，要做好两件事情应对风险，未来不会进入大萧条

栀子花@北方养栀子花，需要多花心思，满足“2个度”，保障顺利开花

新华社客户端|换季肠胃容易“闹情绪”？专家：注意保暖、加强锻炼

桃子的用途

『北京市』这所二本大学分数比一般一本还高，低调到像大专，毕业全是公务员

「高速」交通部新通知：从1月份起，高速收费“大改革”，好消息

本草养生|能让头发变黑吗？，为啥年纪轻轻的就有白头发？多吃黑芝麻

春秋点将堂|德国专家直言：俄罗斯应向中国学习，美国航母频繁上门挑衅

担心AI抢饭碗？李彦宏、周鸿祎、刘庆峰重磅发声

快讯！港警国安处深夜发布：警方首次主动出击！三男一女涉违反国安法被捕

高拉特|中超金靴杀出大黑马！1米96锋霸踢疯了，轰赛季第6球，空翻庆祝

PS简单快速抠图抠头发方法，10分钟搞定，操作简单，人人可学

红茶的市场价,绿茶膏的功效与作用

中年工信部通报！这58款APP侵害用户权益含世纪佳缘等

红酒开瓶方法打火机红酒开瓶的方法

『等级』湖北发布最新疫情风险等级评估全省继续保持低风险

李连杰|同样是李连杰基因，把黄秋燕女儿和利智女儿一对比