一种面向html标签翻译的机器翻译后处理方法与流程

1.本发明涉及一种机器翻译后的译文处理方法，具体为一种面向html标签翻译的机器翻译后处理方法，属于神经机器翻译技术领域。

背景技术：

2.神经机器翻译以其出的翻译质量成为目前主流的翻译方法。具体而言，其翻译方法是通过接受一个源语言句子作为输入，然后通过端到端的方式输一个目标语言句子。
3.但是，机器翻译引擎在处理网页内容翻译时，却存在一些问题：由于网页内容中含有大量html标签句子，这些句子中的html标签起着对网页文本的格式修饰作用，若机器翻译引擎在翻译文本时，忽略掉这些html标签，则翻译结果就会丢失掉网页的格式信息，用户就可能看到没有任何排版的文本内容，丢失重要的html标签甚至会导致网页加载失败，导致用户无法看到任何信息。

技术实现要素：

4.本发明的目的就在于为了解决上述至少一个技术问题而提供一种面向html标签翻译的机器翻译后处理方法，该机器翻译后处理方法，在翻译网页文本时，不仅正确翻译网页中的文本内容，还将html标签正确地迁移至目标句子中。
5.本发明通过以下技术方案来实现上述目的：一种面向html标签翻译的机器翻译后处理方法，包括以下步骤
6.步骤一、有标签源语言句子，提取带标签的源语言句子中的文本内容，获取输入文本内容的带标签的源语言句子s
tag
；
7.步骤二、无标签源语言句子，使用正则表达式识别s
tag
中所有的标签，并删除所有的标签得到无标签的源语言句子s
no_tag
；
8.步骤三、机器翻译模型，使用训练好的机器翻译模型翻译该源语言句子的文本内容得到机器翻译译文；
9.步骤四、通过合成html数据训练html后处理模型，得到后处理模型pe；
10.步骤五、有标签译文，将有标签源语言句子s
tag
和无标签译文t
no_tag
拼接作为输入，利用训练好的后处理模型pe得到有标签译文t
tag
。
11.作为本发明再进一步的方案：所述步骤三中，具体包括：
12.a.准备平行语料数据(s，t)；
13.b.利用平行语料训练机器翻译模型mt；
14.c.步骤a和b可以替换为使用其他现有的商业机器翻译模型；
15.d.利用机器翻译模型mt将无标签源语言句子s
no_tag
翻译成无标签译文t
no_tag
。
16.作为本发明再进一步的方案：所述步骤四中，具体包括：
17.a.准备平行语料数据(s，t)和短语翻译表数据(s
phrase
，t
phrase
)；
18.b.对平行语料每个句对分别判断其中是否存在一对短语对，并且只出现一次，若
是则在该短语前后分别加上一对随机的标签，得到(s，t，s
tag
，t
tag
)这样的四元组数据；
19.c.对四元组数据按照节点对应关系进行过滤：若源语言s中的短语s
phrase
包含一个子短语，而目标句对应的t
phrase
没有对应的子短语，则删除该数据；
20.d.将四元组数据中的s
tag
和t拼接起来作为html后处理模型的输入，t
tag
作为后处理模型的训练目标训练后处理模型pe。
21.本发明的有益效果是：
22.1)本方法将html页面分为机器翻译阶段和html标签翻译阶段：其中，机器翻译阶段只负责将html页面中的文本内容翻译成目标语言，html标签翻译阶段则负责将html文本中的标签迁移到目标句子中；
23.2)html标签翻译阶段对机器翻译阶段无任何其他要求，从而实现了文本内容翻译和html标签翻译之间的解耦，所以该方法中的机器翻译阶段可以使用任何其他的商业机器翻译引擎，提高了灵活性；
24.3)由于html文本中的标签在机器翻译阶段来说是不可见的，该方法屏蔽html标签对机器翻译质量的影响，从而在整体实现既能实现高质量的机器翻译结果，还能保留翻译结果中包含html标签，从而实现对翻译结果的排版修饰；
25.4)因为html标签翻译阶段的后处理模型还能起到标记原文本和目标文本的内容的作用，因此该方法甚至还可以用于术语替换等其他用途。
附图说明
26.图1为本发明流程示意图。
具体实施方式
27.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
28.实施例一
29.如图1所示，一种面向html标签翻译的机器翻译后处理方法，包括以下步骤
30.第一：对于有标签源语言句子，提取带标签的源语言句子中的文本内容，获取输入文本内容的带标签的源语言句子s
tag
，并且使用正则表达式识别s
tag
中所有的标签，并删除所有的标签得到无标签的源语言句子s
no_tag
；
31.第二：机器翻译模型，使用训练好的机器翻译模型翻译所述源语言句子的文本内容得到机器翻译译文。
32.具体包括：a.准备平行语料数据(s，t)；b.利用平行语料训练机器翻译模型mt；c.步骤a和b可以替换为使用其他现有的商业机器翻译模型(机器翻译模型是由模型结构和模型参数两个部分构成，定义好的模型结构是并不会发生变化，而模型参数是从数据中通过训练学到的，再没有经过训练时，模型参数是随机的，无意义的，这时的机器翻译模型是无法正常使用，所以，所以一个可以起作用的机器翻译模型，都是使用训练数据即，平行语料，训练好的，所有的商业机器翻译引擎都是训练好的，因此，使用公开的商业机器翻译模型可
以替代自己准备数据和训练翻译模型这两个步骤)；d.利用机器翻译模型mt将无标签源语言句子s
no_tag
翻译成无标签译文t
no_tag
。
33.第三：html后处理模型，将带标签的源语言句子和机器翻译译文作为html后处理模型的输入，得到带有标签的机器翻译译文。
34.具体包括：a)训练html后处理模型；b)将有标签源语言句子s
tag
和无标签译文t
no_tag
拼接作为输入；c)利用训练好的后处理模型pe得到有标签译文t
tag
。
35.其中，所述html后处理模型处理过程包括：1)准备平行语料数据(s，t)和短语翻译表数据(s
phrase
，t
phrase
)；2)对平行语料每个句对分别判断其中是否存在一对短语对，并且只出现一次，若是则在该短语前后分别加上一对随机的标签，得到(s，t，s
tag
，t
tag
)这样的四元组数据；3)对四元组数据按照节点对应关系进行过滤：若源语言s中的短语s
phrase
包含一个子短语，而目标句对应的t
phrase
没有对应的子短语，则删除该数据；4)将四元组数据中的s
tag
和t拼接起来作为html后处理模型的输入，t
tag
作为后处理模型的训练目标训练后处理模型pe。
36.需要进一步说明：句对是指一个源语言句子和它对应的目标语言句子(源语言句子s的翻译句子t)；短语是指句子片段(也可以说是较短的句子)；短语对类似句对，是指两个较短的句子片段(源语言句子片段，目标语言句子片段)。
37.s是训练数据源语言句子；t是训练数据目标语言句子；s
tag
为生成的带标签的源语言句子或者html网页中的带标签句子；t
tag
为生成的带标签的目标语言句子或者后处理模型输出的带标签的译文；s
no_tag
为原来有标签的html原文句子，删除标签后的句子，和上述s不同的是，s是训练数据句子，本身并无标签。
38.一对随机的标签是指《a》《/a》，这样随机的一个html开始标签，和对应的html结束标签，分别加在短语前面和后面，将短语包裹住。
39.对于步骤3)，以例子予以说明：
40.原文：for《hb》many rich families《/hb》,the other part of the solution is bodyguards
–
《hr》lots of《/hr》them.
41.译文：对《hb》《hr》许多《/hr》富人家庭《/hb》而言,另一部分应对之策是保镖——人数众多的保镖。
42.其中原文短语《hb》many rich families《/hb》没有子标签，但是译文中对应的短语《hb》《hr》许多《/hr》富人家庭《/hb》还包含子标签《hr》许多《/hr》，因此该数据存在错误，需要删除；
43.实施例二
44.一种面向html标签翻译的机器翻译后处理方法，包括以下步骤：
45.1、输入有标签原文：
46.and the light breeze《hj》moves《hp》me《hk》to caress《/hk》《/hp》《/hj》her long ear
47.该例中，包含《hj》《/hj》、《hp》《/hp》、《hk》《/hk》等三个标签，使用正则表达式，或者第三方html解析工具如beautiful soup等识别出这些标签，并删除，得到无标签的原文。
48.2、清除标签得到无标签原文：
49.and the light breeze moves me to caress her long ear
50.3、使用机器翻译模型翻译得到译文：
51.微风推着我去爱抚它的长耳朵
52.4、将有标签原文和机器翻译译文当做输入，利用后处理模型得到有标签译文：
53.新的输入：
54.and the light breeze《hj》moves《hp》me《hk》to caress《/hk》《/hp》《/hj》her long ear
55.微风推着我去爱抚它的长耳朵
56.后处理模型的输出：
57.微风《hj》推着《hp》我《hk》去爱抚《/hk》《/hp》《/hj》它的长耳朵
58.其中输出中的标签为后处理模型自动输出的结果。
59.工作原理：提取带标签的源语言句子中的文本内容；使用训练好的机器翻译模型翻译该源语言句子的文本内容得到机器翻译译文；将带标签的源语言句子和机器翻译译文作为html后处理模型的输入，得到带有标签的机器翻译译文。
60.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
61.此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

技术特征：

1.一种面向html标签翻译的机器翻译后处理方法，其特征在于，所述机器翻译后处理方法包括以下步骤：1)提取带标签的源语言句子中的文本内容；2)使用机器翻译模型翻译所述源语言句子的文本内容得到机器翻译译文；3)将带标签的所述源语言句子以及所述机器翻译译文作为html后处理模型的输入，得到带有标签的机器翻译译文。2.根据权利要求1所述的机器翻译后处理方法，其特征在于，所述步骤1)中：对于输入的带标签的源语言句子，记为s
tag
；并使用正则表达式识别s
tag
中所有的标签，同时删除所有的标签得到无标签的源语言句子s
no_tag
。3.根据权利要求2所述的机器翻译后处理方法，其特征在于，所述步骤2)具体包括：a)准备平行语料数据(s，t)；b)利用平行语料训练机器翻译模型mt；c)步骤a和b可以替换为使用其他现有的商业机器翻译模型；d)利用机器翻译模型mt将无标签源语言句子s
no_tag
翻译成无标签译文t
no_tag
。4.根据权利要求2所述的机器翻译后处理方法，其特征在于：所述步骤3)中包括：a)训练html后处理模型；b)将有标签源语言句子s
tag
和无标签译文t
no_tag
拼接作为输入；c)利用训练好的后处理模型pe得到有标签译文t
tag
。5.根据权利要求4所述的机器翻译后处理方法，其特征在于：所述html后处理模型包括：1)准备平行语料数据(s，t)和短语翻译表数据(s
phrase
，t
phrase
)；2)对平行语料数据中的每个句对分别判断每个句对中是否存在一对短语对，并且所述一对短语对只出现一次，若是则在该短语前后分别加上一对随机的标签，得到(s，t，s
tag
，t
tag
)这样的四元组数据；3)对四元组数据按照节点对应关系进行过滤：若源语言s中的短语s
phrase
包含一个子短语，而目标句对应的t
phrase
没有对应的子短语，则删除该数据；4)将四元组数据中的s
tag
和t拼接起来作为html后处理模型的输入，t
tag
作为html后处理模型的训练目标训练后处理模型pe。

技术总结

本发明公开了一种面向html标签翻译的机器翻译后处理方法，包括有标签源语言句子、无标签源语言句子、机器翻译模型、html后处理模型、有标签译文。本发明的有益效果是：该方法分成机器翻译阶段和标签翻译阶段，实现了文本内容翻译和html标签翻译之间的解耦，因此几乎不会影响机器翻译的质量。因为机器翻译模型和后处理模型是无关的，所以该后处理模型可以搭配任何其他的商业机器翻译引擎使用，提高了灵活性。除此之外，后处理模型还能起到标记原文本和目标文本的内容，从而还可以用于术语替换等其他用途。其他用途。其他用途。