辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心( 三 )
研究者建立了通用的基础架构 , 以通过将模型并行到Fairscale中来容纳无法在单个GPU上安装的大型模型 , 并且是基于ZeRO优化器、层内模型并行性和管道模型并行性构建的 , 以训练大型模型 。
但是仅将模型扩展到数十亿个参数还不够 。 为了能够将此模型应用于生产 , 需要以高速训练尽可能高效地扩展模型 。 例如 , 许多现有研究使用多模型集成 , 其中训练了多个模型并将其用于同一个源句以生成翻译 。 为了降低训练多个模型所需的复杂度和计算量 , 研究者探索了多源自集成技术 , 该技术可将源句子翻译成多种语言以提升翻译质量 。 此外 , 研究者还在该研究中引入了LayerDrop和Depth-Adaptive , 以用常规主干和一些语言特定参数集来共同训练模型 。
这种方法对于多对多模型非常有效 , 因为它提供了一种按照语言对或语言族来拆分模型的自然方法 。 通过将模型容量的密集扩展与特定于语言的参数结合 , 该研究提供了大型模型的优势以及学习不同语言的特定层的能力 。
研究者表示 , 他们将继续通过整合此类前沿研究来提升模型 , 探索方法以负责任地部署MT系统 , 并创建更专业的计算架构将模型投入实际使用 。
【辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心】原文链接:https://ai.facebook.com/blog/introducing-many-to-many-multilingual-machine-translation/
推荐阅读
- 三星公司发布2021款数字座舱 集成诸多高科技
- 刚有望“出人头地”就被三大科技巨头围剿,“挺川者”新阵地下线
- 谷歌建立新AI系统 可开发甜品配方
- 柔性电子市场广阔,领头羊柔宇科技获更多关注
- 曝LG也将推出卷轴屏手机 你怎么看?
- AI战疫、真5G来了,十大最热门科技应用演绎速度与温度
- 又爆炸!联电科技传来一声巨响,或把8 英寸晶圆市场"炸"了
- 唐山四维智能科技有限公司:双臂机器人引领人机协作新纪元
- 国家超算郑州中心首批重大科技专项启动
- 青岛海科展:五年磨一剑,科技力量助力海洋强国
