强化学习：10种真实的奖励与惩罚应用( 三 )

本文插图
游戏中的强化学习
让我们看一下游戏前沿中的一个应用程序，特别是AlphaGo Zero 。通过强化学习， AlphaGo Zero可以从零开始学习围棋游戏。它通过与自己对战来学习。经过40天的自我训练， Alpha Go Zero战胜了击败世界排名第一的Ke Jie的Alpha Go大师版。它仅使用板上的黑白石头作为输入功能和单个神经网络。依靠单个神经网络的简单树搜索用于评估位置移动和样本移动，而无需使用任何Monte Carlo展开。
实时出价-marketing营销和广告中的强化学习应用程序
在文章（链接：
https://arxiv.org/pdf/1802.09756.pdf?ref=hackernoon.com）中，作者提出了采用多主体强化学习的实时出价。使用聚类方法并为每个聚类分配一个战略投标代理来处理大量广告商。为了平衡广告商之间的竞争与合作之间的权衡，提出了分布式协调多代理竞标（DCMAB）。
在营销中，准确定位个人的能力至关重要。这是因为正确的目标显然会带来高投资回报。文章（链接：http://taobao.com/?ref=hackernoon.com）基于中国最大的电子商务平台“淘宝网” 。所提出的方法优于最新的单主体强化学习方法。

本文插图
机器人操纵中的强化学习
深度学习和强化学习的使用可以训练具有抓握各种物体能力的机器人，甚至包括那些在训练中看不见的物体。例如，这可以用于装配线中的建筑产品。
这是通过将大规模分布式优化与称为“ QT-Opt”的“深度Q学习”变体相结合来实现的。 QT-Opt对连续动作空间的支持使其适用于机器人问题。首先对模型进行离线训练，然后在实际的机器人上进行部署和微调。
Google AI将这种方法应用于机器人技术，从而使7个真实世界的机器人在4个月的时间内运行了800个小时。
在此实验（链接：https://www.youtube.com/watch?v=W4joe3zzglU&ref=hackernoon.com）中， QT-Opt方法成功地完成了700次针对以前看不见的物体的抓取尝试中的96％的抓取尝试。 Google AI以前的方法成功率为78％。

本文插图
总结
尽管强化学习仍然是一个非常活跃的研究领域，但是在推进该领域并将其应用于现实生活方面已经取得了重大进展。
在本文中，我们几乎没有涉及到强化学习的应用领域。希望这激发了人们的好奇心，驱使您进一步深入该领域
原文链接：https://hackernoon.com/how-i-got-a-job-at-facebook-as-a-machine-learning-engineer-rk2u3way
本文由AI科技大本营翻译，转载请注明出处

本文插图

本文插图
【强化学习：10种真实的奖励与惩罚应用】

强化学习：10种真实的奖励与惩罚应用( 三 )

推荐阅读

招聘|宁招专科男、不要名校女，不少招聘要求让人心酸，难道出生就输了

Boos游戏解说|他有妲己的控制，婉儿的伤害，小乔的消耗，星耀实力才敢玩！

短发|15款流行女发，不管长发短发，剪完效果就是美

TikTok|观察者网：TikTok能不能获得“临时性”胜利？

王者小数点■吕布获得史诗级加强！坦克版本中的他或将成边路一哥！

苟晶|山东通报苟晶反映被顶替上学情况，苟晶回应：这件事要查清

电影|多国学校警告不要让孩子看《鱿鱼游戏》：内容过于暴力引学生模仿

十铨内存条序列号解读十铨内存颗粒怎么看

天天吃葛根粉好处,女性喝菊花茶的好处

环球时报新媒体|不愿花钱是美国最大劣势，美媒：中美半导体行业投资1000比1

『电竞深扒客』GO:ESL欧洲：蜜蜂对决NIP，FaZe轻松碾压North，CS

洛丽塔|扔掉格纹打歌服吧，最近lo圈流行“花嫁打歌服”，仙美梦幻少女感十足

满怀|诗意满怀向远方（专版）

足球|中甲升班马外援遭狂吐槽，25岁无职业比赛经历，出自市级业余联赛

「mate20」最值得买的华为旗舰，2K曲面屏+3D人脸+8GB跌至2999！

中国最“神奇”省会，GDP省内排名第四，还能是新一线城市

智通财经|农业银行(01288)2019年度末期股息每10股1.819元

广西正在规划新高速，连接钦州、北流，打造又一条出省大通道

简约风新房硬装大功告成，入户就被灯饰迷住，柜子打得多就是实用

干的冬虫夏草要不要放冰箱干的冬虫夏草需要放冰箱吗