专利双语句对加工方法及系统

著录项
  • CN201911064809.X
  • 20191101
  • CN110807337A
  • 20200218
  • 北京中献电子技术开发有限公司
  • 张孝飞;张迁;马伟;李帅;马毓昭
  • G06F40/58
  • G06F40/58 G06F40/242 G06F40/166 G06F40/137 G06F40/131

  • 北京市海淀区气象路50号中知大厦
  • 北京(11)
  • 中科专利商标代理有限责任公司
  • 鄢功军
摘要
本发明涉及机器翻译技术领域,尤其涉及一种专利双语句对加工方法及系统;所述方法包括以下步骤:获取专利篇章级双语对齐语料;提取专利双语篇章级文章的内容特征;根据内容特征,对双语对齐篇章级语料进行内容模块的切分并分级处理;根据内容分级模块结果进行段落模块切分;对不同段落模块进行分类整理;根据段落模块的分类整理结果,进行句子级对齐的分类整理。本发明所公开的专利双语句对加工方法及系统,在统计翻译的基础上,从专利领域出发,在对专利文献分析的基础上,形成专利知识库,再结合神经网络翻译,实现了专利双语句对库的自动抽取和生成,极大的提高了效率和准确率,有利于快速建立专利领域双语句对语料库。
权利要求

1.一种专利双语句对加工方法,其特征在于:包括以下步骤:

在专利篇章级双语对齐语料中提取专利篇章级双语对齐语料的内容特征;

根据内容特征,对专利篇章级双语对齐语料进行内容模块的切分,并分级处理成多个内容分级模块;

对各内容分级模块进行段落模块切分,得到多个段落模块;

对多个段落模块分别进行分类整理,并标定各段落模块的类别;

根据各段落模块的类别,进行句子级对齐的分类整理;

根据句子级对齐的分类整理结果,结合专利大数据统计,进行句对齐;

对句对齐结果进行筛选,形成专利双语对齐语料,并添加到语料库中,形成具有专利双语对齐语料的语料库。

2.根据权利要求1所述的专利双语句对加工方法,其特征在于:在专利篇章级双语对齐语料中提取专利双语篇章级文章的内容特征的步骤,具体为:

根据专利的内容特征,形成内容特征对齐库;专利的内容特征包括专利的说明书摘要、摘要附图、说明书、说明书附图以及权利要求书。

3.根据权利要求2所述的专利双语句对加工方法,其特征在于:根据内容特征,对双语对齐篇章级语料进行内容模块的切分,并分级处理成多个内容分级模块的步骤,具体为:

根据专利内容特征对齐库,划分内容模块,分类如下:

一级分类包括说明书摘要、权利要求、说明书、说明书附图;

二级分类包括技术领域、背景技术、发明内容、附图说明、具体实施方式;

三级分类包括摘要附图、实施例。

4.根据权利要求3所述的专利双语句对加工方法,其特征在于:对各内容分级模块进行段落模块切分,得到多个段落模块的步骤,具体为:

将划分的每个内容模块进一步划分为段落模块:如果段落数目一致,将段落模块一一对应,形成段落级别对应双语对齐语料D1、D2、D3…DN;如果段落数目不一致,则返回内容模块对齐,形成内容模块双语对齐语料ND1。

5.根据权利要求4所述的专利双语句对加工方法,其特征在于:对多个段落模块分别进行分类整理,并标定各段落模块的类别的步骤,具体为:

将形成的段落级别对应双语对齐语料D1、D2、D3…DN根据句对数是否一致分为句对数一致库J1、J2、J3…JN和句对数不一致库NJ1、NJ2、NJ3…NJN;

将形成的内容模块双语对齐语料ND1分为内容模块句子级语料库ND1-J3。

6.根据权利要求5所述的专利双语句对加工方法,其特征在于:根据句子级的分类整理结果,结合专利大数据统计结果,进行句对齐的步骤,具体为:

对形成的句对数一致库J1、J2、J3…JN,句对数不一致库NJ1、NJ2、NJ3…NJN以及内容模块句子级语料库ND1-J3分别进行句对齐。

7.根据权利要求6所述的专利双语句对加工方法,其特征在于:对形成的句对数一致库J1、J2、J3…JN进行句对齐的步骤包括:

首先,将中文和英文对照的双语语料形成句子数一致的中文语句列表和英文语句列表;

第二,将中文语句列表与英文语句列表进行一一对应,形成句珠,句珠是一对一的,形成的句珠默认是对应的。

8.根据权利要求7所述的专利双语句对加工方法,其特征在于:对形成的句对数不一致库NJ1、NJ2、NJ3…NJN进行句对齐的步骤包括:

首先,将中文和英文对照的双语语料形成中文语句列表和英文语句列表,中文语句列表与英文语句列表的句子数是不一致的;

第二,将中文语句列表与英文语句列表进行对应,形成句珠,句珠为一对一,一对多或者多对一,形成的句珠默认是对应的。

9.根据权利要求8所述的专利双语句对加工方法,其特征在于:对形成的内容模块句子级语料库ND1-J3进行句对齐的步骤包括:

首先,根据中文语句列表与英文语句列表的句子数不确定的条件,将中文和英文对照的双语语料形成中文语句列表和英文语句列表;

第二,将中文语句列表与英文语句列表进行对应,形成句珠,句珠为一对一,一对多或者多对一,形成的句珠默认是对应的。

10.一种专利双语句对加工系统,其特征在于:包括:

内容获取模块,用于获取不同限定条件下形成的句子级语料库,包括句对数一致库J1、J2、J3…JN,句对数不一致库NJ1、NJ2、NJ3…NJN以及内容模块句子级语料库ND1-J3;

第一句对齐模块,用于将句对数一致库J1、J2、J3…JN,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料;

第二句对齐模块,用于将句对数不一致库NJ1、NJ2、NJ3…NJN,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料;

第三句对齐模块,用于将内容模块句子级语料库ND1-J3,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料。

说明书
技术领域

本发明涉及机器翻译技术领域,尤其涉及一种专利双语句对加工方法及系统。

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译系统按照部署方式分为两种:面向大众用户的开放式系统和面向特定用户的本地化部署系统。

中国专利CN201810845896.1提供了一种神经网络机器翻译模型的训练方法和装置,包括:获取多种高资源语言对和低资源语言对;对高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作;将操作后的每种高资源语言对作为对应的父模型的训练集,将操作后的低资源语言对作为孩子模型的训练集,根据预设顺序对各父模型按照迁移学习的方法进行训练,以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型;根据最后一个训练好的父模型训练所述孩子模型,获得用于翻译低资源语言的神经网络机器翻译模型;有助于在低资源的语言对上训练出来的孩子模型性能上得到明显提升。

然而,双语句对齐平行语料库对于基于神经网络算法的机器翻译来说是非常重要的数据资源,平行对齐语料库是由原文文本及其平行对应的译文文本构成的双语对齐语料库,根据对齐的程度,可以分为词级、句级、段级以及篇章级。但是在原始的数据语料库中,原文与译文并不是一一对应的关系,例如:因为中文与外文文章结构的差异、文章内容表达习惯的不同、文章作者书写习惯的差异、翻译人员翻译习惯的不同,可能会造成中文与外文段落数、句数的不对应,例如10个中文段落对应15个英文段落,10个英文段落对应15个中文段落,10个中文句子可能对应12个英文句子,反过来,10个英文句子也可能对应12个中文句子。

目前,大量准确双语语料库的获取,主要利用统计的翻译方法,加上人工的方式,从而获得一一对应的句子,这种方式需要耗费大量的人工和时间,并且依赖于后台词典,同时在处理过程中,考虑加工人员水平的不同,正确率也存在不确定性,从而不利于句对齐语料库对齐效率和准确率的提高。

因此,为了解决上述问题,急需发明一种新的专利双语句对加工方法。

本发明的目的在于:提供一种专利双语句对加工方法,解决了现有技术中专利双语对齐语料加工方法效率低下、质量不高的问题。

本发明提供了下述方案:

一种专利双语句对加工方法,包括以下步骤:

在专利篇章级双语对齐语料中提取专利篇章级双语对齐语料的内容特征;

根据内容特征,对专利篇章级双语对齐语料进行内容模块的切分,并分级处理成多个内容分级模块;

对各内容分级模块进行段落模块切分,得到多个段落模块;

对多个段落模块分别进行分类整理,并标定各段落模块的类别;

根据各段落模块的类别,进行句子级对齐的分类整理;

根据句子级对齐的分类整理结果,结合专利大数据统计,进行句对齐;

对句对齐结果进行筛选,形成专利双语对齐语料,并添加到语料库中,形成具有专利双语对齐语料的语料库。

优选地,在专利篇章级双语对齐语料中提取专利双语篇章级文章的内容特征的步骤,具体为:

根据专利的内容特征,形成内容特征对齐库;专利的内容特征包括专利的说明书摘要、摘要附图、说明书、说明书附图以及权利要求书。

优选地,根据内容特征,对双语对齐篇章级语料进行内容模块的切分,并分级处理成多个内容分级模块的步骤,具体为:

根据专利内容特征对齐库,划分内容模块,分类如下:

一级分类包括说明书摘要、权利要求、说明书、说明书附图;

二级分类包括技术领域、背景技术、发明内容、附图说明、具体实施方式;

三级分类包括摘要附图、实施例。

优选地,对各内容分级模块进行段落模块切分,得到多个段落模块的步骤,具体为:

将划分的每个内容模块进一步划分为段落模块:如果段落数目一致,将段落模块一一对应,形成段落级别对应双语对齐语料D1、D2、D3…DN;如果段落数目不一致,则返回内容模块对齐,形成内容模块双语对齐语料ND1。

优选地,对多个段落模块分别进行分类整理,并标定各段落模块的类别的步骤,具体为:

将形成的段落级别对应双语对齐语料D1、D2、D3…DN根据句对数是否一致分为句对数一致库J1、J2、J3…JN和句对数不一致库NJ1、NJ2、NJ3…NJN;

将形成的内容模块双语对齐语料ND1分为内容模块句子级语料库ND1-J3。

优选地,根据句子级的分类整理结果,结合专利大数据统计结果,进行句对齐的步骤,具体为:

对形成的句对数一致库J1、J2、J3…JN,句对数不一致库NJ1、NJ2、NJ3…NJN以及内容模块句子级语料库ND1-J3分别进行句对齐。

优选地,对形成的句对数一致库J1、J2、J3…JN进行句对齐的步骤包括:

首先,将中文和英文对照的双语语料形成句子数一致的中文语句列表和英文语句列表;

第二,将中文语句列表与英文语句列表进行一一对应,形成句珠,句珠是一对一的,形成的句珠默认是对应的。

优选地,对形成的句对数不一致库NJ1、NJ2、NJ3…NJN进行句对齐的步骤包括:

首先,将中文和英文对照的双语语料形成中文语句列表和英文语句列表,中文语句列表与英文语句列表的句子数是不一致的;

第二,将中文语句列表与英文语句列表进行对应,形成句珠,句珠为一对一,一对多或者多对一,形成的句珠默认是对应的。

优选地,对形成的内容模块句子级语料库ND1-J3进行句对齐的步骤包括:

首先,根据中文语句列表与英文语句列表的句子数不确定的条件,将中文和英文对照的双语语料形成中文语句列表和英文语句列表;

第二,将中文语句列表与英文语句列表进行对应,形成句珠,句珠为一对一,一对多或者多对一,形成的句珠默认是对应的。

进一步地,本发明还提供了一种专利双语句对加工系统,包括:

内容获取模块210,用于获取不同限定条件下形成的句子级语料库,包括句对数一致库J1、J2、J3…JN,句对数不一致库NJ1、NJ2、NJ3…NJN以及内容模块句子级语料库ND1-J3;

第一句对齐模块220,用于将句对数一致库J1、J2、J3…JN,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料;

第二句对齐模块230,用于将句对数不一致库NJ1、NJ2、NJ3…NJN,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料;

第三句对齐模块240,用于将内容模块句子级语料库ND1-J3,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料。

本发明产生的有益效果:

本发明所公开的专利双语句对加工方法及系统,所述方法包括以下步骤:获取专利篇章级双语对齐语料;提取专利双语篇章级文章的内容特征;根据内容特征,对双语对齐篇章级语料进行内容模块的切分并分级处理;根据内容分级模块结果进行段落模块切分;对不同段落模块进行分类整理;根据段落模块的分类整理结果,进行句子级对齐的分类整理;根据句子级的分类整理结果,结合专利大数据统计结果,进行句对齐;对句对齐结果进行必要的筛选,形成专利双语对齐语料,并添加到语料库中;在统计翻译的基础上,从专利领域出发,在对专利文献分析的基础上,形成专利知识库,再结合神经网络翻译,提出了一套更深入的专利领域双语句对加工方法,实现了专利双语句对库的自动抽取和生成,极大的提高了效率和准确率,有利于快速建立专利领域双语句对语料库。

图1为本发明的专利双语句对加工方法的流程框图。

图2为本发明的专利双语句对加工系统的结构框图。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。

参见图1所示,一种专利双语句对加工方法,包括以下步骤:

S1、获取专利篇章级双语对齐语料;

S2、提取专利双语篇章级文章的内容特征;

S3、根据内容特征,对双语对齐篇章级语料进行内容模块的切分并分级处理;

S4、根据内容分级模块结果进行段落模块切分;

S5、对不同段落模块进行分类整理;

S6、根据段落模块的分类整理结果,进行句子级对齐的分类整理;

S7、根据句子级的分类整理结果,结合专利大数据统计结果,进行句对齐;

S8、S9、S10、对句对齐结果进行必要的筛选,形成专利双语对齐语料,并添加到语料库中。

提取专利双语篇章级文章的内容特征的步骤,具体为:

根据专利的内容特征,形成内容特征对齐库;专利的内容特征包括专利的说明书摘要、摘要附图、说明书、说明书附图以及权利要求书。

根据内容特征,对双语对齐篇章级语料进行内容模块的切分并分级处理的步骤,具体为:

根据专利内容特征对齐库,划分内容模块,分类如下:

一级分类包括说明书摘要、权利要求、说明书、说明书附图;

二级分类包括技术领域、背景技术、发明内容、附图说明、具体实施方式;

三级分类包括摘要附图、实施例。

根据内容分级模块结果进行段落模块切分,对不同段落模块进行分类整理的步骤,具体为:

将划分的每个内容模块进一步划分为段落模块:如果段落数目一致,将段落模块一一对应,形成段落级别对应双语对齐语料D1、D2、D3…DN;如果段落数目不一致,则返回内容模块对齐,形成内容模块双语对齐语料ND1。

根据段落模块的分类整理结果,进行句子级对齐的分类整理的步骤,具体为:

将形成的段落级别对应双语对齐语料D1、D2、D3…DN根据句对数是否一致分为句对数一致库J1、J2、J3…JN和句对数不一致库NJ1、NJ2、NJ3…NJN;

将形成的内容模块双语对齐语料ND1分为内容模块句子级语料库ND1-J3。

根据句子级的分类整理结果,结合专利大数据统计结果,进行句对齐的步骤,具体为:

对形成的句对数一致库J1、J2、J3…JN,句对数不一致库NJ1、NJ2、NJ3…NJN以及内容模块句子级语料库ND1-J3分别进行句对齐。

对形成的句对数一致库J1、J2、J3…JN进行句对齐的步骤包括:

首先,将中文和英文对照的双语语料形成中文语句列表和英文语句列表,中文语句列表与英文语句列表的句子数是一致的;

第二,将中文语句列表与英文语句列表进行一一对应,形成句珠,句珠是一对一的,形成的句珠默认是对应的。

对形成的句对数不一致库NJ1、NJ2、NJ3…NJN进行句对齐的步骤包括:

首先,将中文和英文对照的双语语料形成中文语句列表和英文语句列表,中文语句列表与英文语句列表的句子数是不一致的。

第二,将中文语句列表与英文语句列表进行对应,形成句珠,句珠为一对一,一对多或者多对一,形成的句珠默认是对应的。

对形成的内容模块句子级语料库ND1-J3进行句对齐的步骤包括:

首先,将中文和英文对照的双语语料形成中文语句列表和英文语句列表,中文语句列表与英文语句列表的句子数是不确定的;

第二,将中文语句列表与英文语句列表进行对应,形成句珠,句珠为一对一,一对多或者多对一,形成的句珠默认是对应的。

本实施例中所述的专利双语句对加工方法,具体流程为:

步骤S1:确定篇章级专利双语对应篇章语料;

步骤S2:根据专利的说明书摘要、摘要附图、说明书、说明书附图,权利要求等专利的内容特征,形成内容特征对齐库。

步骤S3:根据专利内容特征对齐库,划分内容模块。例如:

一级分类为:摘要、权利要求、说明书、附图;

二级分类为:技术领域、背景技术、发明内容、附图说明、具体实施方式等;

三级分类为:附图、实施例等。

该步骤S3是在步骤S2的基础上,对专利内容做的进一步的细分。每一级的每一内容模块的分类是建立在专利全数据的统计之上,将每个内容模块的标识词汇做一一对应。例如:专利中文中“背景技术”这一条目,其对应的专利英文可能出现的情况包括“BACKGROUND ART”、“BACKGROUND ARTS”等,将统计得到的内容模块标识词汇导入统计程序,从而实现内容模块的全自动精确分类。

步骤S4:将步骤S3中划分的每个内容模块进一步划分为段落模块。在每个内容模块的内部,根据回车或者换行等标识,将内容模块划分为段落模块,并对段落数目进行统计。包括以下步骤:

S401:如果段落数目一致,将段落模块一一对应,形成段落级别对应双语对齐语料D1、D2、D3…DN;

S402:如果段落数目不一致,返回步骤S3内容模块对齐,形成内容模块双语对齐语料ND1,这里的内容模块对齐语料库ND1是指内容模块内部段落数目不一致的内容模块;

步骤S5:将步骤S401中形成的段落级别对应双语对齐语料D1、D2、D3…DN,将段落级别对应双语对齐语料库D1、D2、D3…DN分为并形成句子级对齐语料库,根据句对数是否一致分为句对数一致库J1、J2、J3…JN和句对数不一致库NJ1、NJ2、NJ3…NJN。在该步骤中,句对一致的判断需考虑句子的切分条件,在中文专利中,一般是以句号、分号等固定词汇做为句子切分的条件,问号、感叹号等不会出现在专利中的标点不在条件之列;在英文专利中,一般以句号、分号、冒号做为句子切分的条件,但需考虑例外情况,例如英文中的“No.”、“U.S.A”等特殊情况需要排除在划分条件之内。

步骤S6:将步骤S402中形成的内容模块双语对齐语料ND1分为句子级语料库ND1-J3.

步骤S7:对上述三种句子级语料库“J1、J2、J3…JN”,“NJ1、NJ2、NJ3…NJN”和“NDl-J3”分别进行句对齐;

步骤S8:对句子级语料库“J1、J2、J3…JN”进行句对齐处理,该类型的语料库为内容模块对齐、段落模块数目对齐和句子数目对齐三个条件下形成的语料库。以中英文对照的双语语料库为例,首先,将中文和英文对照的双语语料形成中文语句列表和英文语句列表,其中,中文语句列表由句子级语料库中的中文原文形成,英文语句列表由句子级语料库中的英文原文形成,中文语句列表与英文语句列表的句子数是一致的。第二,将中文语句列表与英文语句列表进行一一对应,形成句珠,句珠是一对一的,形成的句珠默认是对应的;在该步骤中,为了避免出现遗漏,在句珠的对应中,对于中文语句列表每一个句子在对应的时候,除选择英文语句列表中对应的句子外,在英文语句列表中选取对应句子的前一句和后一句分别形成句珠矩阵A,如下所示:

其中,n为步骤中形成的中文语句列表或英文语句列表中的句子的数量,n的取值范围为n≥1;同时,在句珠相似度矩阵A中,计算每一行中每个对应的句珠内部各自对应的概率和相似程度,进行相乘后选取最大的概率进行对应,矩阵A中的每一行均形成唯一的句珠,通过该步骤最大化的提升了召回率。

在形成唯一句珠对后,对句珠进行准确率的筛选,利用语言学上的约束,例如:句子的长度、句对中对应词汇的翻译等条件,同时采用句子相似度计算,结合专利知识库,计算每一句珠的相似度,并得到对应的相似度列表。在得到相似度列表后,根据专利实际情况确定阈值进行筛选,阈值范围为0-1,筛选完成后得到准确可靠的双语对照语料。该步骤最大化的提升了正确率,损失了一部分的召回率。

步骤S9:对句子级语料库“NJ1、NJ2、NJ3…NJN”进行句对齐处理,该类型的语料库为内容模块对齐和段落模块数目对齐两个条件下形成的语料库。以中英文对照的双语语料库为例,首先,将中文和英文对照的双语语料形成中文语句列表和英文语句列表,其中,中文语句列表由句子级语料库中的中文原文形成,英文语句列表由句子级语料库中的英文原文形成,中文语句列表与英文语句列表的句子数是不一致的。第二,将中文语句列表与英文语句列表进行对应,形成句珠,句珠可以是一对一,一对多或者多对一,形成的句珠默认是对应的。

在“NJ1、NJ2、NJ3…NJN”的语料库中,中文语句列表和英文语句列表句子数目不一致,在形成句珠时,无法形成步骤S8中相对确定的一一对应的句珠,所以在该步骤中,句珠的形成需考虑一对一、一对多和多对一情况。一对一的情况可参照步骤S8形成;一对多和多对一的情况,在形成句珠时,需要考虑源语言语句列表(这里以中文语句列表做为源语言)在对应目标语言语句列表(这里以英文语句列表做为目标语言)时的误差范围,理论上的误差应该在源语言语句列表和目标语言语句列表数目之间的差值范围内,并且该差值i小于源语言语句列表和目标语言语句列表两者中的数值较大值。实际操作中,为了与一对一情况进行区分,此差值i的最小值规定为1,最大值为源语言语句列表和目标语言语句列表两者中的数值较大值。从而对于源语言语句列表中的每一个源语言句,会形成多个在差值i范围内的句珠,形成句珠列B1-----BN,其中,N为源语言句对和目标语言句对两者中的数值较小值。

在句珠列B1-----BN中,计算每一列中每个对应的句珠内部各自对应的概率和相似程度,进行相乘后选取最大的概率进行对应,句珠列B1-----BN中的每一列均形成唯一的句珠,通过该步骤最大化的提升了召回率。

在形成唯一句珠对后,对句珠进行准确率的筛选,利用语言学上的约束,例如:句子的长度、句对中对应词汇的翻译等条件,同时采用句子相似度计算,结合专利知识库,计算每一句珠的相似度,并得到对应的相似度列表。在得到相似度列表后,根据专利实际情况确定阈值进行筛选,阈值范围为0-1,筛选完成后得到准确可靠的双语对照语料。该步骤最大化的提升了正确率,损失了一部分的召回率。

步骤S10:对句子级语料库“ND1-J3”进行句对齐处理,该类型的语料库为内容模块对齐的条件下形成的语料库。以中英文对照的双语语料库为例,首先,将中文和英文对照的双语语料形成中文语句列表和英文语句列表,其中,中文语句列表由句子级语料库中的中文原文形成,英文语句列表由句子级语料库中的英文原文形成,中文语句列表与英文语句列表的句子数是不确定的。第二,将中文语句列表与英文语句列表进行对应,形成句珠,句珠可以是一对一,一对多或者多对一,形成的句珠默认是对应的。

在“ND1-J3”的语料库中,中文语句列表和英文语句列表句子数目不确定,在形成句珠时,无法形成步骤S8中相对确定的一一对应的句珠,所以在该步骤中,句珠的形成需考虑一对一、一对多和多对一情况。一对一的情况可参照步骤S8形成;一对多和多对一的情况,在形成句珠时,需要考虑源语言语句列表(这里以中文语句列表做为源语言)在对应目标语言语句列表(这里以英文语句列表做为目标语言)时的误差范围,理论上的误差应该在源语言语句列表和目标语言语句列表数目之间的差值范围内,并且该差值i小于源语言语句列表和目标语言语句列表两者中的数值较大值。实际操作中,为了与一对一情况进行区分,此差值i的最小值规定为1,最大值为源语言语句列表和目标语言语句列表两者中的数值较大值。从而对于源语言语句列表中的每一个源语言句,会形成多个在差值i范围内的句珠,形成句珠列C1-----CN,其中,N为源语言句对和目标语言句对两者中的数值较小值。

在句珠列C1-----CN中,计算每一列中每个对应的句珠内部各自对应的概率和相似程度,进行相乘后选取最大的概率进行对应,句珠列C1-----CN中的每一列均形成唯一的句珠,通过该步骤最大化的提升了召回率。

在形成唯一句珠对后,对句珠进行准确率的筛选,利用语言学上的约束,例如:句子的长度、句对中对应词汇的翻译等条件,同时采用句子相似度计算,结合专利知识库,计算每一句珠的相似度,并得到对应的相似度列表。在得到相似度列表后,根据专利实际情况确定阈值进行筛选,阈值范围为0-1,筛选完成后得到准确可靠的双语对照语料。该步骤最大化的提升了正确率,损失了一部分的召回率。

在上述步骤中,内容模块、段落模块和句对模块的划分,一部分依赖于对大数据的长期收集整理,一部分可利用目前XML固定标签的优势进行,XML中对于段落等有明显的表示说明。例如:在专利领域的XML标准化数据中,表示标题,和表示摘要,表示权利要求,

则表示段落等等,利用XML标准化数据中的标签提示,可以极大的提高内容模块、段落模块和句对模块划分的准确性。

该方法包括但不限于英语、德语、日语、韩语、法语等的与汉语之间的双语句对齐语料加工。

本实施例中所述的专利双语句对加工方法,该方法中涉及到的专利内容特征库、专利语言学约束库,专利知识库等是在大数据的统计基础上,结合专利翻译人员的总结形成,可应用于包括但不限于专利等各个领域。

参见图2所示,一种专利双语句对加工系统,包括:

内容获取模块210,用于获取不同限定条件下形成的句子级语料库,包括句对数一致库J1、J2、J3…JN,句对数不一致库NJ1、NJ2、NJ3…NJN以及内容模块句子级语料库ND1-J3;

第一句对齐模块220,用于将句对数一致库J1、J2、J3…JN,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料;

第二句对齐模块230,用于将句对数不一致库NJ1、NJ2、NJ3…NJN,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料;

第三句对齐模块240,用于将内容模块句子级语料库ND1-J3,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料。

本实施例中所述的专利双语句对加工系统,具体包括:

内容获取模块210,用于获取不同限定条件下形成的句子级语料库,包括“J1、J2、J3…JN”,“NJ1、NJ2、NJ3…NJN”和“ND1-J3”,其中,每一种句子级语料库是通过步骤S1-S6获得。

第一句对齐模块220,用于将句子及语料库J1、J2、J3…JN,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料。该模块最大化的提升了正确率和召回率。

第二句对齐模块230,用于将句子及语料库NJ1、NJ2、NJ3…NJN,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料。该模块最大化的提升了正确率和召回率。

第三句对齐模块240,用于将句子及语料库ND1-J3,通过形成唯一句珠并对句珠进行准确率的筛选,利用语言学上的约束,同时采用句子相似度计算,结合专利知识库,通过阈值筛选完成后得到准确可靠的双语对照语料。该模块最大化的提升了正确率和召回率。

本实施例中提供的专利双语句对加工方法及其系统,不但减少了人工参与,实现语句自动对齐,还提高了对齐的准确率和召回率,极大的提高了专利双语句对齐的效率。

本实施例中所述的专利双语句对加工方法及系统,所述方法包括以下步骤:获取专利篇章级双语对齐语料;提取专利双语篇章级文章的内容特征;根据内容特征,对双语对齐篇章级语料进行内容模块的切分并分级处理;根据内容分级模块结果进行段落模块切分;对不同段落模块进行分类整理;根据段落模块的分类整理结果,进行句子级对齐的分类整理;根据句子级的分类整理结果,结合专利大数据统计结果,进行句对齐;对句对齐结果进行必要的筛选,形成专利双语对齐语料,并添加到语料库中;在统计翻译的基础上,从专利领域出发,在对专利文献分析的基础上,形成专利知识库,再结合神经网络翻译,提出了一套更深入的专利领域双语句对加工方法,实现了专利双语句对库的自动抽取和生成,极大的提高了效率和准确率,有利于快速建立专利领域双语句对语料库。

本实施例还提供一种适于实现上文描述的一种专利双语句对加工方法及系统。计算机系统包括处理器和计算机可读存储介质。该计算机系统可以执行根据本发明实施例的方法。

具体地,处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器还可以包括用于缓存用途的板载存储器。处理器可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。

计算机可读存储介质可以包括计算机程序,该计算机程序可以包括代码/计算机可执行指令,其在由处理器执行时使得处理器执行根据本发明实施例的方法或其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序中的代码可以包括一个或多个程序模块,例如包括内容获取模块210、第一对齐模块220、第二对齐模块230、第三模块240。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器执行时,使得处理器可以执行根据本发明实施例的方法或其任何变形。

根据本发明的实施例,上述模块中的至少一个可以实现为计算机程序模块,其在被处理器执行时,可以实现上面描述的相应操作。

本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。

根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本文发布于:2024-09-23 13:23:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/68212.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议