当前位置: 首页 > 资讯

【原创】迈向神经网络:Facebook的完美翻译官

机器人网       2017-08-07

【原创】迈向神经网络:Facebook的完美翻译官

全世界约有2000多种语言拥有书面文字,假如各种文字之间无法翻译,互联网——这一当今人们唏嘘平常的名词,或许根本无法存在。曾经,人们通过创造世界语这样的人工语言来方便交流,而如今,更加智能化的机器翻译的出现,使得网络上对其他一无所知的人也能打破语言障碍,畅谈天地。随着神经机器翻译的发展——各国间普通人的文化和生活,正以前所未有的速度彼此靠近。

作为超过20亿人的沟通和分享平台,Facebook一直致力于提供跨语际的网络服务。然而要提供高精度的翻译体验并不容易,需要考虑的因素包括上下文、笔误、缩写、各类俚语和包含情感的深刻语义等等。为了提高翻译质量,Facebook从基于短语的机器翻译模型转向了神经网络翻译,它能够胜任日常生活中超过2000种、4.5亿条的不同翻译,并且更加准确和流畅。这使得用户在浏览Facebook时,对非母语的内容也能拥有极佳的阅读体验。

利用上下文:专注于义项间的长短期记忆(Sequence-to-sequence LSTM)

以前基于短语的统计技术尽管也有用,但是却具有局限性。基于短语系统的主要缺点在于他们将句子拆分为独立的单词或短语,因此只能考虑到局部,这样生成的语句不符合目标语言的语法,是乱序的。

神经网络的机器翻译恰好能弥补这一缺点,通过义项间的LSTM(长短期记忆),它能够考虑源语句的上下文和所有相关内容。比如,下面的英语和土耳其语之间翻译时的整句重排。

【原创】迈向神经网络:Facebook的完美翻译官

把上面基于短语的翻译与下面基于神经网络的翻译对比:

【原创】迈向神经网络:Facebook的完美翻译官

可以看出新系统的BLEU(bilingual evaluation understudy,一种广泛使用的判断机器翻译精度的标准)相对平均增长了11%。

处理未知词汇

许多源语句中的单词在目标词汇表中并无直接对应的翻译。这种情况下,神经系统将为未知词汇生成占位符,利用警告机制在源词和目标词间产生的间接对应将源词直接转移到目标句中。然后再从训练数据构建的双语词典中查找该词的翻译,替换目标句中的未知词汇。特别对于杂乱的原始语句而言,这种方法比使用传统词典更加强大。例如,英语译西班牙语时,我们可以将“tmrw”(明天)翻译成“mañana”。虽然增加词典,只能带来BLEU得分的微弱提高,但是对于Facebook用户来说却大大提高了翻译准确度。

vocabulary reduction(减少词汇量)

经典的神经机器翻译模型会计算出目标词汇组所有单词的概率分布。分布中包含了越多单词,计算所用时间越多。使用名为vocabulary reduction的建模方法能够减少训练和推演时间。

使用vocabulary reduction,我们能将目标词汇组中最常出现的单词与给定句子中单个单词可能对应的一整组翻译候选项相结合,减少目标词汇总量。过滤目标词汇能够减小输出投影层,加快计算的同时使其质量不至于过低。

调整模型参数

【原创】迈向神经网络:Facebook的完美翻译官

神经网络总有可调参数,如模型的学习速率等等。然而这对于规模化的机器翻译却是不小的挑战,因为每个翻译方向都由其自身的一组唯一的超参数模型进行表示。由于每个模型的最优值很可能不同,因此必须对生成中的每个系统分别进行调试。几个月来进行的数千次端对端翻译实验,利用FBLearner Flow平台微调超参数,如学习速率,关注类型和整体大小等,对系统产生了重大影响。我们见证了优化模型超参数的情况之下,英译西的BLEU相对提高了3.7%。

用Caffe2转换神经机器翻译

要使模型在Facebook庞大规模所需的速度和效率之下运行,是过渡到神经网络的巨大挑战。在深入学习框架Caffe2下实施该翻译系统,它稳定的结构和灵活性使我们能在GPU和CPU上都能够调试模型的表现。

实施了内存优化,比如blob回收及blob重新计算,有助于大规模快速完成训练。关于推理,则利用专门的向量数学库和权重化来提高计算效率。现有模式的早期标准表明,支持2000多种翻译方向的计算资源将极度缺乏。然而,Caffe2的灵活性和优化提高了2.5倍效率,从而使神经机器翻译模型得以部署到生产中去。

遵循在机器翻译中常用的解码时使用波束搜索的做法,根据模型改进对最高似然输出语句的预估。利用Caffe2中递归神经网络(RNN)的抽象一般性实现波束搜索,并将其直接作为独立的前向计算,这给我们提供了快速有效的推论。

在这项工作的过程中开发了RNN模块,如LSTM,乘法集成LSTM和警示,这些都是Caffe2的一部分,可供研究者和开源社区学习使用。

更多工作,在路上

Facebook人工智能研究(FAIR)团队最近发表了使用卷积神经网络(CNN)进行机器翻译的一项研究。Facebook Code团队与FAIR合作密切,使该技术从研究到系统首次使用仅仅花了不到三个月时间。他们推出了英译法和英译德的CNN模型,与以前的系统相比,BLEU质量提升分别提高了12.0%(+4.3)和14.4%(+3.4)。

多样的翻译语境。神经网络开辟了许多的未来发展路径,这些路径大多与上下文密切相关,例如伴随文章文本的照片。

多向的语种翻译模式。这有助于解决特定语言的单个系统的微调问题,还可以通过共享训练数据带来质量收益。

【原创】迈向神经网络:Facebook的完美翻译官

完成从短语到神经机器翻译的过渡,是Facebook向所有人提供更加完美体验的里程碑之举。只有不断突破神经机器翻译技术的界限,才能为Facebook上的每个人提供个性化的翻译,而这也是互联网真正联动全球的必需品。

关键词:Facebook