and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测


北京联盟_本文原题:CVPR 2020 开源论文 | 多种可能性行人未来路径预测
?PaperWeekly 原创 · 作者|梁俊卫
学校|卡耐基梅隆大学博士生
研究方向|计算机视觉
在这篇文章里我将介绍我们最新在 CVPR'20 上发表的工作: The Garden of Forking Paths: Towards Multi-Future Trajectory Prediction, 主题是关于多种可能性的行人未来路径预测 。 我们的数据集和代码已经全部开源 , 里面包括完整的在 3D 模拟器中重建多种可能性未来行人路径的 tutorial , 欢迎尝试 。
and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测
本文插图

论文标题:The Garden of Forking Paths: Towards Multi-Future Trajectory Prediction
论文链接:https://arxiv.org/abs/1912.06445
代码链接:https://github.com/JunweiLiang/Multiverse
行人未来路径预测问题:你能预测下面行人的未来路径吗?
and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测
本文插图

在这篇文章里 , 我们研究的是多种可能性的行人未来预测问题 。 从下面的例子可以看到 , 这个人可能会走向几个不同的方向:
and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测
本文插图

我们提出新的数据集:The Forking Paths Dataset
在真实世界的视频中 , 我们只能看到一种可能的事件发生 , 比如上面的例子中 , 红框中的人是一直往前走 , 但也许在另一个平行宇宙中 , 他可能走向另外一个不同的方向 , 但我们在真实视频中无法观察到 。
为了能够取得一个能够量化评估多种可能性路径预测模型的数据集 , 我们使用基于游戏引擎-虚幻 4 的 3D 模拟器(CARLA [3])创建了一个新的 trajectory prediction 数据集 。
在这个数据集中 , 我们重建了真实世界的场景和动态事件 , 然后让标注者控制 agents 走到设置好的目标点 , 记录下这些能反映真实人类在同样情况下可能会走的路径 。
and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测
本文插图

▲ 重建真实动态场景到3D模拟器中3
多名人类标注者观察该场景 4.8 秒后就可以以第一人称或者第三人称控制 agent 走到目的地 。 我们希望在这种方式下 , 可以在同样的场景中 , 捕捉到人类真实的反应以及可能选择的路线 。
and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测
本文插图

▲ 标注界面
以下是我们数据集的展示:
and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测
本文插图

在我们的设定中 , 标注者会先观察 4.8 秒时间(如下图中的黄色路线) , 然后就可以控制 agent 走到目的地点 。 整个标注过程限时 10.4 秒 , 然后如果跟其他 agent 碰撞到的话会要求重新标注 。
and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测
本文插图
【and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测】

标注完成后 , 我们在 3D 模拟器中选择多个摄像头位置和角度进行数据录取 , 可以模拟一般的 45 度角监控视频的角度 , 也有头顶的无人机视频角度 。 我们甚至可以使用不同的天气状况和光照条件 。
and|CVPR 2020 开源论文 | 多种可能性行人未来路径预测
本文插图

整个数据集 , 代码 , 以及 3D assets 都已经开源 , 详见我们的 Github repo[4] 。 里面包含了一个详细的建立这个数据集的 tutorial , 对 3D 视觉和模拟器感兴趣的同学可以尝试一下 。


推荐阅读