强化学习:10种真实的奖励与惩罚应用( 三 )
本文插图
游戏中的强化学习
让我们看一下游戏前沿中的一个应用程序 , 特别是AlphaGo Zero 。 通过强化学习 , AlphaGo Zero可以从零开始学习围棋游戏 。 它通过与自己对战来学习 。 经过40天的自我训练 , Alpha Go Zero战胜了击败世界排名第一的Ke Jie的Alpha Go大师版 。 它仅使用板上的黑白石头作为输入功能和单个神经网络 。 依靠单个神经网络的简单树搜索用于评估位置移动和样本移动 , 而无需使用任何Monte Carlo展开 。
实时出价-marketing营销和广告中的强化学习应用程序
在文章(链接:
https://arxiv.org/pdf/1802.09756.pdf?ref=hackernoon.com)中 , 作者提出了采用多主体强化学习的实时出价 。 使用聚类方法并为每个聚类分配一个战略投标代理来处理大量广告商 。 为了平衡广告商之间的竞争与合作之间的权衡 , 提出了分布式协调多代理竞标(DCMAB) 。
在营销中 , 准确定位个人的能力至关重要 。 这是因为正确的目标显然会带来高投资回报 。 文章(链接:http://taobao.com/?ref=hackernoon.com)基于中国最大的电子商务平台“淘宝网” 。 所提出的方法优于最新的单主体强化学习方法 。
本文插图
机器人操纵中的强化学习
深度学习和强化学习的使用可以训练具有抓握各种物体能力的机器人 , 甚至包括那些在训练中看不见的物体 。 例如 , 这可以用于装配线中的建筑产品 。
这是通过将大规模分布式优化与称为“ QT-Opt”的“深度Q学习”变体相结合来实现的 。 QT-Opt对连续动作空间的支持使其适用于机器人问题 。 首先对模型进行离线训练 , 然后在实际的机器人上进行部署和微调 。
Google AI将这种方法应用于机器人技术 , 从而使7个真实世界的机器人在4个月的时间内运行了800个小时 。
在此实验(链接:https://www.youtube.com/watch?v=W4joe3zzglU&ref=hackernoon.com)中 , QT-Opt方法成功地完成了700次针对以前看不见的物体的抓取尝试中的96%的抓取尝试 。 Google AI以前的方法成功率为78% 。
本文插图
总结
尽管强化学习仍然是一个非常活跃的研究领域 , 但是在推进该领域并将其应用于现实生活方面已经取得了重大进展 。
在本文中 , 我们几乎没有涉及到强化学习的应用领域 。 希望这激发了人们的好奇心 , 驱使您进一步深入该领域
原文链接:https://hackernoon.com/how-i-got-a-job-at-facebook-as-a-machine-learning-engineer-rk2u3way
本文由AI科技大本营翻译 , 转载请注明出处
本文插图
本文插图
【强化学习:10种真实的奖励与惩罚应用】
推荐阅读
- 家长|80后奶爸做榜样陪娃学习、一次性通过法考:孩子成绩稳居班级后半段
- 小米12|联想陈劲:友商小米12行业领先 持续学习
- 俞敏洪|俞敏洪称新东方营收减少80%:新一年我会努力工作、学习、寻找新的方向
- 沉迷|“依法带娃”新规今日实施:家长要合理安排未成年人学习娱乐 预防沉迷网络
- 雷军|雷军:大学里最重要的是培养学习能力
- 短视频|抖音正式上线学习频道!涵盖汽车、科技、人文等领域
- 驾校|2030年禁售燃油车!英国汽车协会:新手司机无需再学习手动挡
- 雷军|雷军自曝周末看书学习:同款一套2000元、收录100辆顶级神车
- 人工智能|科学家培育出新型人类大脑:学习速度甩出人工智能几条街
- 哪吒汽车|共提供10种车身配色 哪吒S实车曝光!网友:选择困难症犯了
