大数据文摘■生成描述性文字的新平台,用语言加强AI在动态环境的学习


大数据文摘专栏作品
作者:Christopher Dossman
编译: Joey、O livia、Andy
呜啦啦啦啦啦啦啦大家好 , 本周的AI Scholar Weekly栏目又和大家见面啦!
AI ScholarWeekly是AI领域的学术专栏 , 致力于为你带来最新潮、最全面、最深度的AI学术概览 , 一网打尽每周AI学术的前沿资讯 。
每周更新 , 做AI科研 , 每周从这一篇开始就够啦!
本周关键词:RoboTHOR、ML Bazaar、BabyAI++
本周最火学术研究
一个开放的模拟到现实具身AI平台
在本文中 , 研究人员介绍了RoboTHOR , 这一框架可以使交互且具身的视觉AI研究更加“民主化” 。 RoboTHOR是AI2-THOR框架内的一种环境 , 旨在帮助开发者开发具身AI智能体 。
结果:作为这方面研究的首个基准 , 实验表明 , 同样都是在模拟环境下训练的模型 , 当同时对模型在模拟环境和精心构造的真实环境进行测试时 , 这些模型表现出很大差异性 。
潜在用途:RoboTHOR提供了一个能够对比模拟环境和对应真实环境的框架 , 为未来的研究人员系统地探索和克服从模拟到真实转移的挑战提供了一个平台 , 全球研究人员可以在此平台上远程测试他们的具身模型在物理世界中的表现 。
研究人员希望RoboTHOR能够刺激计算机视觉的下一阶段发展 。 您可以在此处访问RoboTHOR代码、可视化Demo和面临的挑战:
https://ai2thor.allenai.org/robothor/
了解更多:
https://arxiv.org/abs/2004.06799v1
能够检测多种语言仇恨言论的深度学习模型
仇恨言论、政治宣传和虚假新闻是全球范围内的大问题 。 虽然 , 研究人员一直在努力开发强大的检测算法 , 但由于大多数可用数据集只有一种语言:英语 , 所以这仍然是一个具有挑战性的问题 。
在本文中 , 研究人员对多语言仇恨言论进行了首次大规模分析 。 他们使用来自9种语言的16个数据集 , 使用深度学习模型来开发用于多语言仇恨言论分类的分类器 。
结果:他们在各种条件下(低资源和高资源 , 单语和多语环境)针对多种语言进行了许多实验 。 结果表明 , 对于低资源 , LASER + LR更有效 , 而对于高资源BERT模型 , 更有效 。
潜在用途:该拟议框架可以用作数据资源不足语言的有效解决方案 。 这些模型还可以作为将来多语言仇恨言论检测任务的良好基准 , 并将对未来多语言仇恨言论检测的研究有所帮助 。
GitHub 链接:
https://github.com/punyajoy/DE-LIMIT
了解更多:
https://arxiv.org/abs/2004.06465v2
ML集市:利用ML生态系统进行有效的系统开发
ML Bazaar是一个可组合的框架 , 用于基于ML软件和算法生态系统的层次结构和统一API来开发ML和AutoML系统 。
在这篇论文中 , 研究人员声称ML Bazaar使开发ML系统变得更加容易 。 他们通过描述5个现实用例(其中ML Bazaar当前用于创建ML和AutoML系统)来为该论点提供证据 。 通过这些工业应用 , 他们研究了以下问题:ML Bazaar是否支持ML系统开发人员的需求?如果没有 , 扩展的难易程度如何?
在整个研究过程中 , 他们为数据科学家、数据工程师和其他从业人员建立了抽象模型、接口和软件组件 , 以有效地开发机器学习系统 。
潜在用途:开发人员可以使用ML Bazaar组建一次性管道、可调管道模板或成熟的AutoML系统 。 研究人员可以贡献单个的ML或AutoML雏形 , 并使它们易于作为基础构件被广泛用到 , 以包含在端到端解决方案中
了解更多:
https://arxiv.org/abs/1905.08942v4
用于生成动态环境及对应描述性文本的BabyAI++
本文主要研究了描述性文字帮助代理实现动态环境泛化的效果 。
研究人员提出了一个新平台BabyAI++ , 以生成各种动态环境和对应的描述性文本 。 研究表明 , 描述性文本能帮助智能体学习语言基础来实现对有动态变化环境的泛化 。


推荐阅读