加入收藏 | 设为首页 | 会员中心 | 我要投稿 唐山站长网 (https://www.0315zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

100种语言互译,脸书推出「 M2M-100」模型

发布时间:2020-11-22 16:24:41 所属栏目:动态 来源:互联网
导读:多年来,人工智能研究人员一直在努力构建一个能够理解所有语言的通用模型。这样一个支持所有语言或方言的通用模型将为所有人提供更好的服务,令人满意的翻译将打破数十亿人的语言壁垒,让他们更加平等的了解这个世界。这项工作使我们更加接近了这一目标。 在

多年来,人工智能研究人员一直在努力构建一个能够理解所有语言的通用模型。这样一个支持所有语言或方言的通用模型将为所有人提供更好的服务,令人满意的翻译将打破数十亿人的语言壁垒,让他们更加平等的了解这个世界。这项工作使我们更加接近了这一目标。

  在长久的研究中,我们在预训练语言模型,微调和自我监督学习等方面发展迅速,研究成果振奋人心。这一系列的研究将进一步提高我们的系统使用未标记的数据来理解低资源语言文本的能力。例如,XLM-R 是一个强大的多语言模型,它可以仅从一种语言数据中进行学习,然后扩展到 100 种语言。针对多语言 BART 任务,mBART 是首次预训练全模型之一。最近,我们提出新的自我监督方法 CRISS,通过许多不同语言的未标记数据来挖掘不同语言的并行句子,迭代训练更好的多语言模型。
 

我们将该模型与双语基准模型和以英语作为过渡的多语言模型进行比较,如上图所示。第一行表示由 24 个编码器层和 24 个解码器层组成的包含 12 亿参数的基线模型,第二行是以英语为过渡的的多语言翻译模型。接下来,分别是包含 12 亿参数和 120 亿参数的 M2M-100 模型,可以看到,更多参数的模型 BLEU 提升 1.2。

  通过增加 Transformer 的层数以及每层的宽度,我们训练得到更大的模型,该模型依然训练高效、收敛快递。值得注意的是,该多对多翻译系统首次应用了 Fairscale——一个是专用于 pipeline 和张量并行运算的新的 PyTorch 库。我们建立了通用架构,以通过 Fairscale 并行训练大型模型,避免了单 GPU 的限制。同时,我们应用 ZeRO 优化器层内模型并行和 pipeline 模型并行来加快模型训练。
 

在并行挖掘过程中,会得到一些低质量、低资源的翻译数据,基于此,我们采用反向翻译方法对这类数据进行扩充,该方法帮助我们在2018年和2019年的 WMT 国际机器翻译比赛中获得第一名。具体而言,如果我们的目标是训练汉语到法语的翻译模型,那么我们首先会训练法语到汉语的模型,然后将法语反译成汉语。我们发现,在数据规模较大时(如上亿语句)该方法非常有效。本研究中,我们使用反向翻译的合成数据对挖掘数据集进行扩充,同时,我们还使用反向翻译为那些未标注的语言对创建训练数据。

  总体而言,相比仅依赖挖掘数据训练的模型,结合过渡策略和反向翻译的训练数据学习到的模型在 100 个反向翻译任务中 BLEU 平均提升约 1.7。有了丰富、高质量的训练数据集,多对多翻译模型成为可能。

  此外。我们还发现,对于没有训练数据的一个语言对,零样本(zero-shot)想过显著。例如,如果模型的训练数据只有法语-英语和德语-瑞典语,通过 zero-shot 我们可以在法语和瑞典语之间实现翻译。我们的 M2M-100 模型也表明,对于没有训练数据的语言对,融合 zero-shot 的多语言模型表现优于以英语作为过渡的多语言模型。
 

构建包含 100 种语言的 75 亿句子对的多对多 MMT 数据集是艰巨的任务,由于我们多年来积累了不同的数据挖掘资源,包括 ccAlignedccMatrix 和 LASER,因此构建该数据集是可行的。为此,我们创建了新的 LASER 2.0,改进了 fastText 语言识别,从而提高挖掘质量,相关的训练与评估脚本也会开源。当然,所有这些数据都是开源合法的。

  Facebook AI 提出的多对多的多语言模型是多年研究的结晶,MT 模型、数据资源和优化技术等方面均是开创性的。本文会重点介绍一些主要成就。除此之外,我们通过挖掘 ccNET 创建了庞大的训练数据集,该数据集是基于 fastText 的(fastText 是处理单词表示的重要方法);基于 CCMatrix 的 LASER 库可将句子嵌入多语言嵌入空间中;CCAligned 则能够根据 URL 匹配来对齐文档。进一步,我们开发了改进版本 LASER 2.0。

  即使使用 LASER 2.0 等先进技术,挖掘 100 种不同语言/4450 种可能语言对中的任意一类训练数据也需要大量的计算。由于数据规模巨大,为方便管理,我们首先关注翻译请求最多的语言。因此,我们综合数据规模和数据质量对挖掘目标进行优先排序,舍弃了对极冷门语言的数据挖掘,如冰岛语-尼泊尔语或僧伽罗语-爪哇语。

  接下来,我们引入一种新的过渡挖掘策略,该策略根据地理和文化相似性将语言分为 14 个语言组。之所以这样做,是因为相同国家或地区中的人们会有更多的交流,这样的翻译数据质量更高。例如,将印度地区的语言分为一组,包括孟加拉语,北印度语,马拉地语,尼泊尔语,泰米尔语和乌尔都语。类似的,我们系统挖掘了不同组的全部语言对。
 

  • 由于英语训练数据非常广泛,之前的中法翻译模型会分别训练中文与英语以及英语与法语的翻译模型,通过英语作为中间环节实现翻译。本文模型直接应用中文与法语的训练数据,以更好保留语义。计算 BLEU 指标,表明其高于以英语中转的系统约 10 个百分点。

  • M2M-100 总共使用 2200 种语言进行训练,这比但之前最好的以英语为中心的多语言模型要多 10 倍。通过 M2M-100 模型,将有助于十亿人的翻译工作,对于低资源语言的翻译提升更加显著。

  • Facebook AI 经多年在机器翻译方面的耕耘,如今终于实现该里程碑式的结果。接下来,我们将介绍具体的研究工作,包括为 100 种语言建立的翻译训练数据、模型的细节和训练。同时,我们还将开源该模型,并发布模型的训练和评估设置,以方便其他研究人员的复现,以此为基础进一步推动多语言模型的发展。

  机器翻译(MT)能够打破语言障碍,将不同语种的人团结起来,为不同人群提供有关 COVID 的权威信息以帮助他们避免感染。得益于我们在低资源机器翻译翻译质量评估的最新研究与进展,现在,我们每天能够在 Facebook News Feed 上提供近 200 亿次翻译。

  典型的 MT 系统需要对不同语言和任务单独构建翻译模型,然而,这样的方式却并不适合 Facebook,因为在 Facebook 上,有超过 160 种语言发布的数十亿条内容。现在的多语言系统虽然可以一次处理多种语言,但却是通过英语数据作为源语言和目标语言之间的中转,从而降低了准确性。因此,我们需要一个真正的多语言机器翻译(MMT)模型,该模型可以在任何语言之间直接进行翻译,这将为我们的社区提供更好的服务。

  我们已经在 Facebook 对 MT 进行了多年的研究,现在终于可以自豪的宣布:我们首次构建了一个的大型 MMT 模型,该模型可以在 100 种不同语言之间直接进行翻译,而无需依赖英语作为中转语言。同时,我们的多语言模型的表现完全不弱于传统的双语模型,甚至要比以英语为中转的多语言模型提高了 10 个 BLEU 点。

(编辑:唐山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读