皇冠bet平台150亿参数大杀器!Facebook开源机器翻译新模型,同传人员或失业

  • 时间:
  • 标签:

在将中文翻译成法文时,最好皇冠bet平台的多语模式是将中文翻译成英文,将英文翻译成法文,因为英文的训练数据最多。

Facebook研究院的模型是根据中文到法文的数据直接训练的,这样更好的保留了语义。

在评价机器翻译中广泛使用的BLEU指数时,比皇冠bet平台以英语为中心的系统性能高出10皇冠bet平台个百分点。

M2M-100已经培训了2200种“语言对”,比过去以英语为中心的最佳多语言模式高出10倍。M2M-100的部署将提高数十亿人的翻译质量,特别是那些缺乏语言资源的人。

这种新模式是Facebook AI研究院多年来在机器翻译方面基础工作的新里程碑。

Facebook还分享了如何为100种语言构建更加多样化的机器翻译训练数据集和模型的细节,如模型、训练和评估设置等,以帮助其他研究者复制和促进多语言模型的进一步发展。

一个典型的机器翻译系统需要为每种语言和任务建立一个单独的AI模型,但是这种方法在Facebook上无法有效扩展。

在Facebook上,人们可以通过数十亿条帖子发布160多种语言的内容。高级多语言系统可以同时处理多种语言,但是依靠英语数据来弥合源语言和目标语言之间的差距会降低准确性。

因此,Facebook需要一个多语言机器翻译(MMT)模型,可以翻译任何语言,更好地为社区服务,因为使用的语言有近三分之二不是英语。

研究人员采用全新的挖掘策略创建翻译数据,建立了第一个真正的“多对多”数据集,包括100种语言的75亿句。

同时使用几种缩放技术构建一个150亿参数的通用模型,从相关语言中获取信息,反映更多样的语言、词法、句法等。

挖几亿句,找几千个语言方向

构建多对多MMT模型的最大障碍之一是为任何不涉及英语的翻译方向准备大量高质量的句子对(也称平行句)。因为找到汉译英、英译法比找到法译汉要容易得多。

另外,随着我们支持的语言数量的增加,训练所需的数据量也增加了一个平方。例如,如果我们在每个方向上需要10M个句子对,我们需要挖掘10种语言的1B句子对和100种语言的100B句子对。

作为这项工作的一部分,Facebook创建了一个新的激光2.0和改进的fastText语言徽标,这提高了挖掘的质量,包括开源培训和评估脚本。所有使用的数据挖掘资源都使用公开的数据,并且都是开源的。

即使使用像激光2.0这样的底层技术,挖掘100种不同语言(或4450种可能的语言对)的大规模训练数据也需要大量的计算能力。

为了使这种规模的数据挖掘更容易处理,Facebook首先关注翻译请求最多的语言。

他们优先选择数据质量最高、数据量最大的数据挖掘方向,避开需要少量翻译的方向,比如冰岛语-尼泊尔语或者僧伽罗语-Java。

接下来,Facebook推出了新的“桥梁挖掘”策略,根据语言分类、地理和文化相似性,将语言分为14个“语言群”。

这是因为生活在使用相同语言的国家的人往往更经常地交流,并受益于高质量的翻译。

例如,一个语言群体包括在印度说的语言,如孟加拉语、印地语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。研究人员系统地探索了每组中所有可能的语言对。

为了连接不同群体的语言,Facebook工作人员确定了少量的“桥接语言”,通常是每个群体的一到三种主要语言。

在上面的例子中,印地语、孟加拉语和泰米尔语将成为21个印度雅利安语分支的桥梁语言。然后为这些桥接语言的所有可能组合挖掘并行训练数据。

使用这种技术,训练数据集最终得到75亿个平行句,相当于2200个方向。

为了补充低资源语言和低翻译质量的并行数据,Facebook还使用了流行的反向翻译方法。

总的来说,“桥接策略和反向翻译”的组合比单独挖掘数据的训练方法高1.7 BLEU。

同时,研究人员还发现了零射学习的设置。

例如,如果用法语-英语和德语-瑞典语训练模型,则可以在法语和瑞典语之间执行零镜头翻译。当多对多模式在非英语方向之间翻译时,比以英语为中心的多语言模式好得多。

将机器翻译模型扩展到150亿个参数,速度快,质量高

多语言翻译的挑战之一是单一的模型必须捕获多种不同语言的信息。为了解决这个问题,扩展模型的容量和添加特定于语言的参数是非常重要的。

扩展模型大小对于资源丰富的语言尤其有用,因为它们拥有最多的数据来训练更大的模型容量。

当模型大小扩展到120亿个参数时,所有语言的平均BLEU增加1.2个点。扩展模型的大小和特定语言的稀疏参数(32亿)的组合使我们能够创建一个具有150亿参数的更好的模型。

为了增加模型的大小,Facebook还增加了Transformer网络中的层数和每层的宽度。结果表明,大模型收敛速度快,训练数据效率高。

值得注意的是,这个多对多系统是第一个使用“Fairscale”的系统,它是一个新的PyTorch库,专门设计用来支持Pipeline和Tensor的并行化。

作为这项工作的一部分,我们已经看到在预培训语言模型、微调和自我监控方面取得了令人难以置信的快速进展。

多年来,人工智能研究人员一直在努力构建一个通用模型,可以在不同的任务中理解所有的语言。支持所有语言和方言的单一模式将更好地为更多的人服务,使翻译结果保持最新,并为数十亿人创造平等的新体验,这使其更接近这一目标。

项目地址:

https://github.com/py torch/fair seq/tree/master/examples/m2m _ 100

  • 浏览: 19
  • 来源: 365体育