机器翻译中的一些名词解释

机器翻译中的⼀些名词解释

1、语⾔模型（language model）与翻译模型（translate model）

经常接触两个名词，语⾔模型（LM）和翻译模型（TM），这⼀概念最早是从统计机器翻译中来的，统计机器翻译的⾸要任务是为语⾔的产⽣构造某种合理的统计模型，并在此统计模型基础上，定义要估计的模型参数，并设计算法。早期的基于词的统计机器翻译采⽤的是（⽣成式模型），采⽤最⼤似然准则进⾏⽆监督训练，⽽近年来常⽤的基于短语的统计机器翻译则采⽤⽅法，⼀般来说需要参考语料进⾏有监督训练。

噪声信道模型假定，源语⾔中的句⼦（信宿）是由⽬标语⾔中的句⼦（信源）经过含有噪声的信道编码后得到的。那么，如果已知了信宿和信道的性质，我们可以得到信源产⽣信宿的概率，即。⽽寻最佳的翻译结果也就等同于寻：

个人述职报告格式利⽤，并考虑对给定，为常量，上式即等同于

由此，我们得到了两部分概率：

1. ，指给定信源，观察到信号的概率。在此称为翻译模型。

2. ，信源发⽣的概率。在此称为

可以这样理解翻译模型与语⾔模型，翻译模型是⼀种语⾔到另⼀种语⾔的词汇间的对应关系，⽽语⾔模型则体现了某种语⾔本⾝的性质。翻译模型保证翻译的意义，⽽语⾔模型保证翻译的流畅。从中国对翻译的传统要求“信达雅”三点上看，翻译模型体现了信与达，⽽雅则在语⾔模型中得到反映。

原则上任何均可以应⽤到上述公式中，因此以下讨论集中于翻译模型。在IBM提出的模型中，翻译概率被定义为：

词对齐⽰例

深圳保龄球馆其中的被定义为隐含变量——词对齐（Word Alignment），所谓词对齐，简⽽⾔之就是知道源语⾔句⼦中某个词是由⽬标语⾔中哪个词翻译⽽来的。例如右图中，⼀个词可以被翻译为⼀个或多个词，甚⾄不被翻译。于是，获取翻译概率的问题转化为词对齐问题。IBM系列模型及HMM, Model 6都是词对齐的参数化模型。它们之间的区别在于模型参数的数量，类型各不相同。例如IBM Model 1，唯⼀的参数是词翻译概率，与词在句⼦中的位置⽆关。也就是说：

其中是词对齐中的⼀条连接，表⽰源语⾔中的第个词翻译到⽬标语⾔中的第个词。注意这⾥的翻译概率是词之间⽽⾮位置之间的。IBM Model 2的参数中增加了词在句⼦中的位置，公式为：

其中分别为源、⽬标语⾔的句⼦长度。

简单地说，语⾔模型就是⽤来计算⼀个句⼦的概率的模型，利⽤语⾔模型，可以确定哪个词序列的可能性更⼤，或者给定若⼲个词，可以预测下⼀个最可能出现的词语。举个⾳字转换的例⼦来说，输⼊拼⾳串为nixianzaiganshenme，对应的输出可以有多种形式，如你现在⼲什么、你西安再赶什么、等等，那么到底哪个才是正确的转换结果呢，利⽤语⾔模型，我们知道前者的概率⼤于后者，因此转换成前者在多数情况下⽐较合理。再举⼀个机器翻译的例⼦，给定⼀个汉语句⼦为李明正在家⾥看电视，可以翻译为Li Ming is watching TV at home、Li Ming at home is watching TV、等等，同样根据语⾔模型，我们知道前者的概率⼤于后者，所以翻译成前者⽐较合理。

语⾔模型主要包括统计语⾔模型、神经语⾔模型。其中统计语⾔模型主要包括LSI、n-gram(贝叶斯)等，⽽神经语⾔模型主要包括n-

gram(Bengio)、word2vec(skip-gram、CBOW)

翻译模型针对源语⾔到⽬标语⾔的转换过程进⾏⽴即建模，他从真实的训练语料中学习翻译知识，并融合了上下⽂信息。

翻译模型如seq2seq、transformer等

2、反向翻译（back-translation）

参考论⽂：

Rico Sennrich, Barry Haddow, and Alexandra Birch.2016. Edinburgh neural machine translation systems for wmt 16. arXiv preprint arXiv:1606.02891.王劲屹

Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016a. Improving Neural Machine Translation Models with Monolingual Data. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), Berlin, Germany.

3、微调（Fine-tuning）

参考论⽂：Minh-Thang Luong and Christopher D Manning. 2015.Stanford neural machine translation systems for spoken language domains. In Proceedings of the International Workshop on Spoken Language Translation, pages 76–79

阿⾥在WMT2018上的论⽂中提到他们 first train a model on a large out-of-domain corpus and then continue a few epochs only on a small in-domain corpus

注：out-of-domain 和 in-domain ，⽐如在新闻类的翻译模型中，先使⽤体育类语料进⾏训练，再⽤新闻类语料进⾏微调，这⾥体育类语料就是out-of-domain ，⽽新闻类语料为in-domain

4、模型集成（Model ensembling）

将多个模型进⾏集成，阿⾥的⽂章Alibaba’s Neural Machine Translation Systems for WMT18中提到了⼀种基于贪婪策略选择模型的的集成⽅法，称为Greedy Model Selection based Ensembling。定义了两个list，称为keep list，redemption list，先把第⼀个模型放到keep list，然后每次抽⼀个模型，将两个模型进⾏集成，如果bleu值⾼，就加⼊keep list，否则放⼊redemption list，然后keep list 中的模型有⼀定⼏率被淘汰，redemption list中的模型有⼀定⼏率复活就这样。

5、重排序（reranking）

沃德事

典型的端到端Seq2Seq，直接将解码（如beam search）搜索得分最⾼的结果作为输出。但很多时候，由于encoder-decoder模型存在误差，解码时得分最⾼的结果并不⼀定是最好的，重排序对这⼀问题做了优化。具体做法很简单，⽐如说，使⽤beam search解码，保留得分最⾼的前k个候选句⼦，然后，在解码得分的基础上，引⼊若⼲特征（如输出句⼦在外部语⾔模型上的概率得分、与输⼊句⼦的编辑距离），对这k个候选句⼦重新排序，然后选择新的得分最⾼的句⼦作为最终输出。

阿⾥在4中所提论⽂中还提到了⼀种基于贪婪特征选择的重排序⽅法，称为greedy feature selection based reranking。如图所⽰：

上表是挑选出的⼀些特征，全部特征为50+，每次挑出⼀个特征，利⽤的特征进⾏rerank，将得分最⾼的句⼦进⾏输出，得到⼀个BLEU 值，最终选出使BLEU值降低程度最⼤的特征，认为是有效特征，直到剩下的特征数量少于阈值。

也可以⾃⼰⼿动挑⼀些特征出来给句⼦打分，算BLEU值，BLUE值最⾼的，其实是⼀样的。

6、Swish

⼀种新的激活函数，形式为 f(x) = x · sigmoid(x)

7、exposure bias

所有基于seq2seq或RNN、序列模型、翻译模型都会遇到这⼀问题，在应⽤时，下⼀时刻的输出是和上⼀时刻的输出相关的，⽽由于没有标准答案，上⼀时刻犯下的错会迅速累积，称为exposure bias problem

As a result the errors made along the way will quickly accumulate. We refer to this discrepancy as exposure bias which occurs when a model is only exposed to the training data distribution, instead of its own predictions

使⽤Beam Search也会导致exposure bias，因为下⼀个词的概率是由上⼀个词决定的，出现错误会迅速累加。

这种错误是⽆法避免的，只能去减轻，或者利⽤后验去修正。

乙醇胺8、GELU激活函数

参考论⽂：GAUSSIAN ERROR LINEAR UNITS (GELUS)

BERT中⽤到的激活函数，全称为Gaussian error linear units，⾼斯误差线性单元。

GELU函数的定义为：

数据波

或者可以进⾏估计：

论⽂中实验证明，在好⼏个任务中都优于RELU

9、warm up（预热）

深度学习常⽤的⽅法，先⽤⼩的学习率（如0.01）进⾏训练，训练⼀定步数以后再转成正常的学习率（如0.1）也可以⽤⼀些其他的策略，但基本都是先⼩后⼤这样。

本文发布于:2024-09-21 16:23:13，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/601949.html

上一篇：国际语料库翻译研究的新进展——《实证翻译研究方法和理论传统再创新...

下一篇：国外经济类文本翻译研究现状

标签：模型翻译概率特征语料参数输出

留言与评论（共有 0 条评论）