12个场景应用,百余种算法,AI是如何攻占经济学的?( 五 )


12个场景应用,百余种算法,AI是如何攻占经济学的?
本文插图
[118]采用了不同的强化学习方法 , 例如DDPG方法、最近策略优化(PPO)方法和PG方法 。 这些方法能够获得与连续行动空间中的金融投资组合相关的策略 。 他们结合中国资产市场对模型在不同环境下的表现进行了比较 , 结果表明PG模型在股票交易中比其他两种模型更有利 。 本研究还提出了一种新颖的对抗性训练方法 , 能够提高训练效率和平均回报 。
[119]研究设计了无模型卷积神经网络(model-less RNN) , 其中输入是来自加密货币交易所的历史资产价格 , 目的是产生一组投资组合权重 。
[15]研究通过充分利用DPG方法来引入奖励函数 , 以优化累积收益 。 模型包含了独立评估器集成拓扑结构( Independent Evaluators topology) , 在权值分担方面结合了大的神经网络集 。 另外 , 为防止梯度损坏 , 还采用了投资组合矢量存储器(Portfolio Vector Memory) 。
Yu等人[120]在自动交易的意义上设计了一种新的基于模型的深度强化学习方案 , 能够采取行动并做出与全局目标相关的顺序决策 。 该模型体系结构包括注入预测模块(IPM)、生成性对抗性数据增强模块(DAM)和行为克隆模块(BCM) , 能够用于处理设计的回溯测试 。
3、深度强化学习下的在线服务
在线服务主要集中于推荐算法 , 当前的多种推荐方法 , 如基于内容的协同过滤(collaborative filtering)、因式分解机器(factorization machines)、多臂老虎机等 。 但是这些方法大多局限于用户和推荐系统的静态交互 , 并且关注的是短期奖励 。
采用深度强化学习方法目前的进展如下:
12个场景应用,百余种算法,AI是如何攻占经济学的?
本文插图

12个场景应用,百余种算法,AI是如何攻占经济学的?
本文插图
[121]设计的推荐算法使用了行动者-批评者(actor-critic model)模型 , 可以在连续的决策过程中显式地获取动态交互和长期回报 。
[122]重点研究了实时竞价(RTB)在与用户行为和竞价策略相关的复杂随机环境下的付费搜索(SS)拍卖 。 另外 , 基于阿里巴巴拍卖平台的线上线下评价的实证结果表明了该方法的有效性 。
[123]中提出了一种基于电子商务平台的MDP(马尔科夫链决策过程)框架下的定价算法 。 由于能够有效地应对动态的市场环境变化 , 可以设置与复杂环境相关联的有效奖励函数 。
[124]使用DQN( deep Q-network)方案进行在线新闻推荐 , 能够同时获得当前和未来的奖励 。 本模型在考虑用户活跃度的同时 , 还采用Duling Bandit梯度下降法来提高推荐准确率 。
招 聘
AI 科技评论希望能够招聘 科技编辑/采访人员 一名
办公地点:北京/深圳
职务:以参与学术顶会报道、人物专访为主
工作内容:
1、参加各种人工智能学术会议 , 并做会议内容报道;
【12个场景应用,百余种算法,AI是如何攻占经济学的?】2、采访人工智能领域学者或研发人员;
3、关注学术领域热点事件 , 并及时跟踪报道 。
要求:
1、热爱人工智能学术研究内容 , 擅长与学者或企业工程人员打交道;
2、有一定的理工科背景 , 对人工智能技术有所了解者更佳;
3、英语能力强(工作内容涉及大量英文资料);
4、学习能力强 , 对人工智能前沿技术有一定的了解 , 并能够逐渐形成自己的观点 。
感兴趣者 , 可将简历发送到邮箱:cenfeng@leiphone.com


推荐阅读