一种基于复杂度的专利文献机器翻译方法及其系统

著录项
  • CN202111614294.3
  • 20211227
  • CN114358027A
  • 20220415
  • 苏州远卓科技信息有限公司
  • 王艳慧
  • G06F40/58
  • G06F40/58 G06F40/131

  • 江苏省苏州市高新区邓尉路109号
  • 江苏(32)
  • 北京远大卓悦知识产权代理有限公司
  • 李淑亚
摘要
本发明属于机器翻译领域,公开了一种基于复杂度的专利文献机器翻译方法,包括如下步骤:将专利文献进行区域划分形成若干个划分区;对划分区进行同步机器翻译;其中,同步机器翻译包括按照划分区内内容复杂程度进行算力分配并按照算力同步翻译的步骤;按照划分区内内容复杂程度进行算力分配包括统计划分区内字符数占专利文献总字符数的百分比后分配相应百分比的算力进行翻译。此外,本发明还公布了基于复杂度的专利文献机器翻译系统。本发明采用先分区,后同步机器翻译的方式,可以有效提升机器翻译的速率,进而提升专利文献机器翻译的效率。
权利要求

1.一种基于复杂度的专利文献机器翻译方法,其特征在于,包括如下步骤:

将专利文献进行区域划分形成若干个划分区;

对所述划分区进行同步机器翻译;

其中,所述同步机器翻译包括按照划分区内内容复杂程度进行算力分配并按照算力同步翻译的步骤;所述按照划分区内内容复杂程度进行算力分配包括统计划分区内字符数占专利文献总字符数的百分比后分配相应百分比的算力进行翻译。

2.根据权利要求1所述基于复杂度的专利文献机器翻译方法,其特征在于,所述区域划分包括按照专利文献的内容特征进行区域划分。

3.根据权利要求2所述基于复杂度的专利文献机器翻译方法,其特征在于,所述按照内容特征划分包括按照专利文献的说明书摘要、权利要求书、说明书、说明书附图进行区域划分形成划分区。

4.根据权利要求1所述基于复杂度的专利文献机器翻译方法,其特征在于,所述基于复杂度的专利文献机器翻译方法,还包括依据划分区内句子复杂度进行算力分配并按照算力同步翻译的步骤。

5.根据权利要求4所述基于复杂度的专利文献机器翻译方法,其特征在于,所述句子的复杂度按照句子中专有名词字符长度进行判断,当所述句子中专有名词字符长度越长时,分配越多的算力。

6.根据权利要求4所述基于复杂度的专利文献机器翻译方法,其特征在于,所述句子的复杂度按照句子中从句数量进行判断,当所述句子中从句数量越多时,其分配越多的算力。

7.根据权利要求1所述基于复杂度的专利文献机器翻译方法,其特征在于,所述机器翻译方法还包括依据专利文献各划分区内容重要程度进行优先级排序,对于优先级排序靠前的内容其分配更多的算力。

8.一种基于复杂度的专利文献机器翻译系统,其特征在于,包括:

划分模块,被配置对专利文献进行区域划分;

分配模块,被配置用于对划分区内的内容进行算力分配;

执行模块,被配置对划分后的专利文献进行机器翻译。

9.根据权利要求8所述基于复杂度的专利文献机器翻译系统,其特征在于,所述机器翻译系统还包括:

优先级排序模块,被配置对区域划分后形成的专利文献划分区进行优先级排序。

10.根据权利要求9所述基于复杂度的专利文献机器翻译系统,其特征在于,所述分配模块,还被配置用于依据专利文献中的句子复杂度分配相应的算力。

说明书
技术领域

本发明涉及机器翻译领域,特别涉及一种基于复杂度的专利文献机器翻译方法及其系统。

机器翻译,即通过计算机将一种语言的文本翻译成另一种语言,已成为目前解决多语言障碍的重要方法之一。早在2013年,谷歌翻译每天提供的翻译服务就达十亿次之多,相当于全球一年的人工翻译量,处理的文字数量相当于一百万册图书。

专利文献是专业性较强的技术文献,其中含有大量的专业词汇和专业术语,因此,无论是人工翻译还是机器翻译,其都存在翻译难度大,准确性低,翻译速率慢的问题。因此,提高专利文献的翻译速率,提升专利文献的准确率,成为了一个亟待解决的问题。

针对现有技术中存在的不足之处,本发明的目的是提供一种基于复杂度的专利文献机器翻译方法及其系统,其能够提升专利文献的翻译速率,提高专利文献机器翻译的效率。

为了实现根据本发明的上述目的和其他优点,本发明的第一目的是提供一种基于复杂度的专利文献机器翻译方法,包括如下步骤:

将专利文献进行区域划分形成若干个划分区;

对所述划分区进行同步机器翻译;

其中,同步机器翻译包括按照划分区内内容复杂程度进行算力分配并按照算力同步翻译的步骤;按照划分区内内容复杂程度进行算力分配包括统计划分区内字符数占专利文献总字符数的百分比后分配相应百分比的算力进行翻译。

作为优选,区域划分包括按照专利文献的内容特征进行区域划分。

作为优选,按照内容特征划分包括按照专利文献的说明书摘要、权利要求书、说明书、说明书附图进行区域划分形成划分区。

作为优选,基于复杂度的专利文献机器翻译方法,还包括依据划分区内句子复杂度进行算力分配并按照算力同步翻译的步骤。

作为优选,句子的复杂度按照句子中专有名词字符长度进行判断,当所述句子中专有名词字符长度越长时,分配越多的算力。

作为优选,当专利文献一个句子的专有名词字符数大于等于20字符时,则其分配高配额的算力;当专利文献一个句子的专有名词字符数大于等于10字符,小于20字符数,则其分配中配额的算力;当专利文献一个句子的专有名词字符数小于10字符数时,则其分配低配额的算力。

作为优选,句子的复杂度按照句子中从句数量进行判断,当所述句子中从句数量越多时,其分配越多的算力。

作为优选,机器翻译方法还包括依据专利文献各划分区内容重要程度进行优先级排序,对于优先级排序靠前的内容其分配更多的算力。

本发明的第二目的是提供一种基于复杂度的专利文献机器翻译系统,包括:

划分模块,被配置对专利文献进行区域划分;

分配模块,被配置用于对划分区内的内容进行算力分配;

执行模块,被配置对划分后的专利文献进行机器翻译。

作为优选,机器翻译系统还包括:

优先级排序模块,被配置对区域划分后形成的专利文献划分区进行优先级排序。

作为优选,分配模块,还别配置用于依据专利文献中的句子复杂度分配相应的算力。

与现有技术相比,本发明的有益效果是:

本发明通过对专利文献进行区域划分,然后对区域划分后的专利文献进行同步翻译。与现有技术中,将一篇专利文献从头至尾进行机器翻译的方法相比,其翻译速度更快,翻译效率更高,且随着翻译速度的提升,其能够进行更多次的复查,翻译的准确率也会得到相应的提升。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为根据本发明所述的基于复杂度的专利文献机器翻译方法的流程图;

图2为根据本发明所述的基于复杂度的专利文献机器翻译方法的实施例1的逻辑流程图;

图3为根据本发明所述的基于复杂度的专利文献机器翻译方法的实施例2的逻辑流程图;

图4为根据本发明所述的基于复杂度的专利文献机器翻译系统的结构框图;

图中:10、划分模块;20、执行模块;30、优先级排序模块;40、分配模块。

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。

参照图1,一种基于复杂度的专利文献机器翻译方法,包括如下步骤:

S01:将专利文献进行区域划分形成若干个划分区;

S02:对划分区进行同步机器翻译;其中,同步机器翻译包括按照划分区内内容复杂程度进行算力分配并按照算力同步翻译的步骤;其中,按照划分区内内容复杂程度进行算力分配包括统计划分区内字符数占专利文献总字符数的百分比后分配相应百分比的算力进行翻译。

本发明在专利文献机器翻译时,先将专利文献进行区域划分,然后分区域进行专利文献机器翻译,其通过划分区域后,进行专利文献的同步机器翻译,之后按照划分区内内容的复杂程度进行算力分配,内容越复杂的内容分配越多的算力,具体而言,包括统计划分区内字符数占专利文献总字符数的百分比后分配相应百分比的算力,最后按照算力分配结果进行专利文献的同步机器翻译。该翻译方法采用了更为合理的分区翻译以及算力分配,提升了专利文献的机器翻译速率,此外,分配更多的算力对复杂内容进行机器翻译,能有效提升该区域的机器翻译准确李,提升了专利文献机器翻译的正确率,最终提升了专利文献机器翻译的效率。

下文将结合更为具体的实施例对本分明所实现的有益效果作进一步的阐述。

实施例1

参照图2,该实施例提供了一种基于复杂度的专利文献机器翻译方法,具体包括如下步骤:

S11:将专利文献按照内容特征进行一级区域划分,划分后为说明书摘要、权利要求、说明书、说明书附图四个部分。

S12:对划分后的各划分区依据复杂程度进行算力分配,具体而言,包括依据各划分区内存大小,字数进行算力分配。

S13:对划分内的各句子进行复杂程度排序并进行算力二次分配,具体而言,包括按照专利文献中专有名词字符长度进行判断,当所述专利文献中专有名词字符长度越长时,分配越多的算力。如当专利文献一个句子的专有名词字符数大于等于20字符时,则其分配高配额的算力;当专利文献一个句子的专有名词字符数大于等于10字符,小于20字符数,则其分配中配额的算力;当专利文献一个句子的专有名词字符数小于10字符数时,则其分配低配额的算力。

S14:按照各划分区内句子的算力分配结果对专利文献进行同步翻译。

在该实施例中,在一次算力分配后,对划分区内的句子复杂程度进行了二次划分及算力分配,通过二次分配,使算力分配更合理,机器翻译时更细化,进一步加快了专利文献机器翻译速度,提升了机器翻译的效率。

在一些优选的实施例中,句子复杂程度的判断方式为依据句子中从句数量进行复杂度排序,当句子中从句越多时,分配越多的算力。从句的数量往往决定了一个句子的复杂程度,通过从句数量判断专利文献句子的复杂程度,进一步充分利用了专利文献的算力,对算力分配进行了进一步优化,从而提升了专利文献机器翻译速度。

实施例2

参照图3,该实施例提供了一种基于复杂度的专利文献机器翻译方法,具体包括如下步骤:

S21:将专利文献按照内容特征进行一级区域划分,划分后为说明书摘要、权利要求、说明书、说明书附图四个部分。

S22:将划分后的说明书进行二级划分,划分后为技术领域、背景技术、发明内容、附图说明、具体实施方式五个部分。

S23:将划分后的具体实施方式进行三级划分,划分为若干个实施例。

S24:对划分后的专利文献各划分区进行优先级排序;具体而言,通过专利文献各划分区中的内容的复杂程度和/或重要程度进行优先级排序;如按照复杂程度排序的优选级排序为说明书、权利要求、说明书摘要、谁明书附图。

S25:按照优先级排序对各划分区的专利文献进行算力分配,具体而言,为优先级越高,其算力分配越多。

S26:按分配的算力对各分区的内容进行机器翻译;其中,对于有相同内容的划分区,采用关联翻译,如权利要求与说明书发明内容采用关联翻译。

通过多级划分,将专利文献按内容特征进行更细化的划分,机器翻译时更细化,能够通过不同内容特征匹配更为专业的词典进行机器翻译,以此进一步加快专利文献机器翻译速度,匹配更为专业的词典进行机器翻译,也进一步提升了专利文献的翻译准确率,最终提升了专利文献机器翻译的效率。

在该实施例中,通过多级划分,将专利文献按内容特征进行更细化的划分,机器翻译时更细化,能够通过不同内容特征匹配更为专业的词典进行机器翻译,以此进一步加快专利文献机器翻译速度,匹配更为专业的词典进行机器翻译,也进一步提升了专利文献的翻译准确率,最终提升了专利文献机器翻译的效率。

此外,加入了优先级排序的步骤,对于专利文献中,复杂的、重要的内容确定为较高优先级,如说明书,权利要求;对于专利文献中,简单的、次重要的确定为较低优先级,如说明书摘要、说明书附图。在优先级排序后,对于有较高优先级的内容分配更多的算力进行机器翻译,而对于较低优先级的内容分配较少的算力进行机器翻译。通过此种方式分配,算力分配更合理,机器翻译的效率更高,速度更快。此外,通过更多的算力处理复杂的内容,其也能间接提升专利翻译的准确率。

而且,针对专利文献的特点,专利文献的权利要求及发明内容存在大段相同或相似,因此,采用关联翻译的方式进行机器翻译,对于相同的内容只翻译一次,在第二次机器翻译时,采用借调,直接借用第一次机器翻译的结果;对于相似的内容,在第二次机器翻译时,采用借鉴,对于第二次翻译中相同的词组,语句,直接借用第一次机器翻译的结果,其余内容进行机器翻译。采用关联翻译的方式,一方面,节省了更多算力,加快了机器翻译的速率;另一方面,由于专利文献的特殊性,权利要求需得到说明书内容的支持,两划分区内容采用相同或相似的翻译结果,避免了因个别词翻译方式不同,造成后续审查、侵权判定中出现权利要求无说明书内容支持的情况,造成专利无法得到应有的保护的情况。

实施例3

参照图4,一种基于复杂度的专利文献机器翻译系统,包括:

划分模块10,被配置用于对专利文献进行区域划分;

分配模块20,被配置用于对划分区内的内容进行算力分配;

执行模块30,被配置用于对划分后的专利文献进行机器翻译。

该机器翻译系统的工作原理如下:获取专利文献后,通过划分模块10对专利文献进行区域划分,随后将专利文献区域划分后形成的划分区发送至分配模块20,依据内容进行算力分配,最后将内容发送给执行模块30,按照分配模块20的算力分配方式通过执行模块20执行同步机器翻译,最终完成专利文献的翻译。

在一些优选的实施例中,划分模块10还包括被配置用于进行若干级划分的操作。通过若干级的划分,将专利文献的内容进一步细化划分,更有利于专利文献的后续翻译,使翻译效率进一步提升。

在一些优选的实施例中,基于复杂度的专利文献机器翻译系统还包括优先级排序模块30,其被配置对区域划分后形成的专利文献划分区进行优先级排序。通过优先级排序,对重要的复杂的内容进行单独翻译,优先翻译,对多个简单的内容进行组合翻译,置后翻译。如对于专利文献的说明书进行单独翻译,优先翻译,对于专利文献的摘要和说明书附图进行组合翻译、置后翻译。通过优先级排序模块,进一步加快了专利文献的翻译速率,提升了专利文献的翻译效率。

在一些优选的实施例中,基于复杂度的专利文献机器翻译系统的分配模块20还被配置用于对优先级排序后的专利文献划分区进行算力分配。通过分配模块进行算力分配,对于重点的内容,如说明书,分配更多的算力进行翻译,对于非重点内容如说明书附图,分配较少的算力进行翻译。重要内容算力分配更多,其翻译的准确率也会有提升。从而综合提升了专利文献机器翻译效率。

在一些实施例中,基于复杂度的专利文献机器翻译系统的分配模块20还被配置用于依据专利文献中的句子复杂度分配相应的算力。这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上,但其并不仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本说明书实施例可提供为方法或系统。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本说明书是参照根据本说明书实施例的方法或系统的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。本说明书一个或多个实施例本说明书一个或多个实施例本说明书一个或多个实施例本说明书一个或多个实施例。

本文发布于:2024-09-22 14:23:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/68936.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议