学习微美全息/谷歌/Facebook深度学习算法助力AI+AR商业化落地( 三 )


为此 , Facebook构建了PyTorch3D函数库以推动3D深度学习研究 , 与PyTorch为2D识别任务提供高度优化的函数库一样 , PyTorch3D通过提供批处理以及对3D运算符和损失函数的支持来优化训练和推理 。 为了简化3D模型批处理的复杂度 , Facebook创建了Meshes格式 , 这是一种专为深度学习应用程序设计 , 用于批处理的异构网格模型数据结构 。
这种数据结构可以让研究人员轻松地将基础网格模型数据快速转换成不同的视图 , 以使运算符与数据的最有效表示方式相匹配 。 更重要的是 , PyTorch3D为研究人员和工程师提供了能够灵活地在不同的表示视图之间进行有效切换的方式 , 并访问不同的网格属性 。
渲染是计算机图形学中的核心内容 , 它可将3D模型转换为2D图像 。 这也是在3D场景属性(scene properties)和2D图像像素之间建立桥接的常规手段 。 不过传统渲染引擎无法进行微分 , 因此它们不能被合并至深度学习工作管道中 。 所以 , Facebook在PyTorch3D内置了高度模块化的可微分渲染器 , 能用来处理可微分的3D数据 。 此功能的实现由可组合单元组成 , 允许用户轻松扩展渲染器以支持自定义照明或阴影效果 。
Facebook将这些功能打包成工具包 , 并提供了运算符、异构批处理功能和模块化可微分的渲染API等 , 帮助研究人员进行复杂的3D神经网络应用研究 。
目前 , 深度学习是最接近人类大脑的智能学习方法 , 深度学习引爆了一场革命 , 将人工智能带上了一个新的台阶 , 将对一大批产品和服务产生深远影响 。 未来 , 深度学习将继续解决各种识别相关的问题 , 比如视觉(图像分类、分割 , 计算摄影学) , 语音(语音识别) , 自然语言(文本理解);同时 , 在能够演绎的方面如图像文字描述、语音合成、自动翻译、段落总结等也会逐渐出现突破 。
(责任编辑:何一华 HN110)


推荐阅读