一种专利申请文本的自动生成方法和装置

著录项
  • CN202010421277.7
  • 20200518
  • CN111753514A
  • 20201009
  • 北京信聚知识产权有限公司
  • 刘恺;张灏;王锋
  • G06F40/194
  • G06F40/194 G06F40/186 G06F40/258 G06F40/216 G06F40/289 G06Q50/18 G06F16/35 G06F16/33

  • 北京市海淀区西北旺东路10号院东区19号楼5层B101
  • 北京(11)
  • 20200319 CN202010196520X
  • 北京思格颂知识产权代理有限公司
  • 潘珺;李中永
摘要
本发明公开了一种专利申请文本的自动生成方法和装置。专利申请文本中说明书实施例文本的生成步骤,包括:按预设规则将技术数据分解成至少一个描述单元;将各描述单元输入预先训练的文本生成模型,得到描述单元对应的实施例文本段;将实施例文本段组合生成实施例文本。能够自动根据技术数据生成专利申请文本的说明书实施例文本,节省了人力,同时提高了专利申请文本的撰写效率。
权利要求

1.一种专利申请文本的自动生成方法,其特征在于,所述专利申请文本中说明书实施例文本的生成步骤,包括:

按预设规则将技术数据分解成至少一个描述单元;

将各所述描述单元输入预先训练的文本生成模型,得到所述描述单元对应的实施例文本段;

将所述实施例文本段组合生成所述实施例文本。

2.如权利要求1所述的方法,其特征在于,所述方法还包括:

将所述描述单元在预设数据库中进行检索,得到所述数据库中与所述描述单元的相似度满足预设条件的相似文档;

根据所述描述单元对应的实施例文本段在实施例文本中的位置,使用标注的方式将所述相似文档添加进所述实施例文本中。

3.如权利要求2所述的方法,其特征在于,将所述描述单元在预设数据库中进行检索前,还包括:

对每个描述单元进行向量化处理,得到该描述单元对应的语句向量;

将所述语句向量使用预设的聚类算法进行聚类分析,得到至少一个中心语句向量;对应的,将所述描述单元在预设数据库中进行检索,得到所述数据库中与所述描述单元的相似度满足预设条件的相似文档,具体包括:

以所述中心语句向量为检索对象在预设数据库中的向量索引库中进行检索,得到相似语句向量,并根据计算出的所述相似语句向量与所述中心语句向量的相似度距离,确定所述相似语句向量与所述中心语句向量的相似度值,将所述数据库中的与所述中心语句向量的相似度值高于预设相似度阈值的相似语句向量对应的文档,确定为所述中心语句向量对应的描述单元的相似文档。

4.如权利要求1所述的方法,其特征在于,所述文本生成模型,是利用获取到的多个数据对,对指针生成网络模型和/或序列到序列Seq2Seq模型训练得到的,所述数据对包括描述单元和与该描述单元对应的实施例文本段,所述数据对中的描述单元为描述文本或至少一张描述图片。

5.如权利要求1所述的方法,其特征在于,按预设规则将技术数据分解成至少一个描述单元,包括:

按预设规则将技术交底文本分解成至少一个描述单元;或,

根据技术交底文本生成权利要求书,将所述权利要求分解成至少一个描述单元。

6.如权利要求5所述的方法,其特征在于,根据技术交底文本生成权利要求书,具体包括:

对技术交底文本中的标题,从技术交底文本中抽取所述标题及所述标题的下一层级标题,将所述标题及下一层级标题组合生成与所述标题对应的一项第一权利要求文本;

按技术交底文本中标题的层级关系,确定所述标题对应的第一权利要求文本之间的引用关系;

根据所述第一权利要求文本和所述引用关系生成所述权利要求书;

从所述技术交底文本中,确定标题的至少一段具有预设特征的描述文本,利用所述描述文本和预先训练的文本生成模型,生成第二权利要求文本;

确定所述第二权利要求文本,引用所述描述文本所属的标题的上一层级标题对应的第一权利要求文本,并将所述第二权利要求文本添加到所述权利要求书中的对应位置。

7.如权利要求1-6任一所述的方法,其特征在于,所述方法还包括:

根据所述技术数据的类型确定匹配的实施例文本生成模板;对应的,将所述实施例文本段组合生成所述实施例文本,具体包括:

根据所述技术数据中描述单元的层级结构,确定描述单元对应的实施例文本段的层级结构;

按照所述生成模板和所述实施例文本段的层级结构,将所述实施例文本段组合生成所述实施例文本。

8.一种专利申请文本的自动生成装置,其特征在于,所述装置用于自动生成所述专利申请文本中说明书实施例文本,包括:

分解模块,用于按预设规则将技术数据分解成至少一个描述单元;

生成模块,用于将所述分解模块分解出的各描述单元输入预先训练的文本生成模型,得到所述描述单元对应的实施例文本段;

组合模块,用于将所述生成模块生成的实施例文本段组合生成所述实施例文本。

9.一种服务器,其特征在于,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-7所述的专利申请文本的自动生成方法。

10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,当该指令被处理器执行时实现权利要求1-7所述的专利申请文本的自动生成方法。

说明书
技术领域

本发明涉及信息智能处理技术领域,特别涉及一种专利申请文本的自动生成方法和装置。

随着技术创新的飞速发展,专利申请量也在逐步增加,但目前专利申请文本主要依赖于申请人或专利代理师的人工撰写,专利代理师的数量与市场需求之间的差距较大,导致专利代理师的工作量较大,而专利申请文本的撰写,比较耗时耗精力的便是说明书中实施例的撰写。

同时,专利申请人自己撰写专利申请文本时,往往不能很好的掌握说明书中实施例文本的撰写思路,不知道如何条理的介绍技术内容,或对技术细节介绍的不够详细,故不能很好的完成说明书中实施例文本的撰写。所以迫切需要能够基于技术交底内容智能生成专利申请文本中的实施例文本,来提高专利申请文本的撰写效率和质量。

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种专利申请文本的自动生成方法和装置。

第一方面,本发明实施例提供一种专利申请文本的自动生成方法,所述专利申请文本中说明书实施例文本的生成步骤,包括:

按预设规则将技术数据分解成至少一个描述单元;

将各所述描述单元输入预先训练的文本生成模型,得到所述描述单元对应的实施例文本段;

将所述实施例文本段组合生成所述实施例文本。

在一些可选的实施例中,上述方法还包括:

将所述描述单元在预设数据库中进行检索,得到所述数据库中与所述描述单元的相似度满足预设条件的相似文档;

根据所述描述单元对应的实施例文本段在实施例文本中的位置,使用标注的方式将所述相似文档添加进所述实施例文本中。

在一些可选的实施例中,将所述描述单元在预设数据库中进行检索前,还包括:

对每个描述单元进行向量化处理,得到该描述单元对应的语句向量;

将所述语句向量使用预设的聚类算法进行聚类分析,得到至少一个中心语句向量;对应的,将所述描述单元在预设数据库中进行检索,得到所述数据库中与所述描述单元的相似度满足预设条件的相似文档,具体包括:

以所述中心语句向量为检索对象在预设数据库中的向量索引库中进行检索,得到相似语句向量,并根据计算出的所述相似语句向量与所述中心语句向量的相似度距离,确定所述相似语句向量与所述中心语句向量的相似度值,将所述数据库中的与所述中心语句向量的相似度值高于预设相似度阈值的相似语句向量对应的文档,确定为所述中心语句向量对应的描述单元的相似文档。

在一些可选的实施例中,所述文本生成模型,是利用获取到的多个数据对,对指针生成网络模型和/或序列到序列Seq2Seq模型训练得到的,所述数据对包括描述单元和与该描述单元对应的实施例文本段。

在一些可选的实施例中,所述数据对中的描述单元为描述文本或至少一张描述图片。

在一些可选的实施例中,按预设规则将技术数据分解成至少一个描述单元,包括:

按预设规则将技术交底文本分解成至少一个描述单元;或,

根据技术交底文本生成权利要求书,将所述权利要求分解成至少一个描述单元。

在一些可选的实施例中,根据技术交底文本生成权利要求书,具体包括:

对技术交底文本中的标题,从技术交底文本中抽取所述标题及所述标题的下一层级标题,将所述标题及下一层级标题组合生成与所述标题对应的一项第一权利要求文本;

按技术交底文本中标题的层级关系,确定所述标题对应的第一权利要求文本之间的引用关系;

根据所述第一权利要求文本和所述引用关系生成所述权利要求书;

从所述技术交底文本中,确定标题的至少一段具有预设特征的描述文本,利用所述描述文本和预先训练的文本生成模型,生成第二权利要求文本;

确定所述第二权利要求文本,引用所述描述文本所属的标题的上一层级标题对应的第一权利要求文本,并将所述第二权利要求文本添加到所述权利要求书中的对应位置。

在一些可选的实施例中,上述方法还包括:

根据所述技术数据的类型确定匹配的实施例文本生成模板;对应的,将所述实施例文本段组合生成所述实施例文本,具体包括:

根据所述技术数据中描述单元的层级结构,确定描述单元对应的实施例文本段的层级结构;

按照所述生成模板和所述实施例文本段的层级结构,将所述实施例文本段组合生成所述实施例文本。

第二方面,本发明实施例提供一种专利申请文本的自动生成装置,所述装置用于自动生成所述专利申请文本中说明书实施例文本,包括:

分解模块,用于按预设规则将技术数据分解成至少一个描述单元;

第一生成模块,用于将所述分解模块分解出的各描述单元输入预先训练的文本生成模型,得到所述描述单元对应的实施例文本段;

组合模块,用于将所述第一生成模块生成的实施例文本段组合生成所述实施例文本。

第三方面,本发明实施例提供一种服务器,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述专利申请文本的自动生成方法。

第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机指令,当该指令被处理器执行时实现上专利申请文本的自动生成方法。

本发明实施例提供的上述技术方案的有益效果至少包括:

本发明实施例提供的专利申请文本的自动生成方法,专利申请文本中说明书中实施例文本的自动生成步骤,包括:按预设规则将技术数据分解成至少一个描述单元;将各描述单元输入预先训练的文本生成模型,得到描述单元对应的实施例文本段;将实施例文本段组合生成实施例文本。可以根据获取到的技术数据自动生成专利申请文本的说明书实施例文本,节省了人力,提高了专利申请文本的撰写效率,同时避免了说明书实施例文本中的形式问题。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例一中专利申请文本中说明书实施例文本的生成方法流程图;

图2为本发明实施例二中说明书实施例文本生成方法的具体实现流程图;

图3为图2中步骤S26的具体实现流程图;

图4为本发明实施例二中数据库建立方法的具体实现流程图;

图5为本发明实施例三中专利申请文本中权利要求书的生成方法流程图;

图6为本发明实施例四中权利要求书的生成方法的具体实现流程图;

图7为本发明实施例中专利申请文本的生成装置的结构示意图。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的人工撰写专利申请文本说明书中的实施例文本费时费力的问题,本发明实施例提供一种专利申请文本的自动生成方法和装置,能够自动根据技术数据生成专利申请文本的说明书实施例文本,节省了人力,同时提高了专利申请文本的撰写效率。

实施例一

本发明实施例一提供一种专利申请文本的生成方法,参照图1所示,专利申请文本中说明书实施例文本的生成,包括如下步骤:

步骤S11:按预设规则将技术数据分解成至少一个描述单元。

具体的,上述技术数据可以是根据获取到的技术交底信息生成的技术交底文本,生成的技术交底文本包括多层级的标题和至少一个标题的至少一段描述文本。按预设规则将技术交底文本分解成至少一个描述单元,可以包括:将从技术交底文本中分解出的每个标题确定为一个描述单元;针对技术交底文本中标题的每段描述文本,按照预设的分隔符分解成至少一个描述单元。

具体的,技术交底文本是根据用户输入的技术交底信息生成的,例如可以预先约定用户在输入描述文本时,每输入完一个完整的意思表达后,按“回车键”进行分段撰写,故生成的技术交底文本中可以包含回车键标识,以回车键标识为分隔符将一段描述文本分解成至少一个描述单元。

可选的,也可以不直接从技术交底文本中分解描述单元,而是先根据技术交底文本自动生成权利要求书,从权利要求书中的每项权利要求文本中分解描述单元。可以是,以分号为分隔符,将权利要求文本的特征部分或附加技术特征部分分解成至少一个描述文本;也可以是,将每项权利要求文本的特征部分或附加技术特征部分整体分解为一个描述文本。

根据技术交底文本自动生成权利要求书,在一个实施例中,可以包括:对技术交底文本中的标题,从技术交底文本中抽取标题及标题的下一层级标题,将标题及下一层级标题组合生成与标题对应的一项第一权利要求文本;按技术交底文本中标题的层级关系,确定标题对应的第一权利要求文本之间的引用关系;根据第一权利要求文本和引用关系生成权利要求书;从技术交底文本中,确定标题的至少一段具有预设特征的描述文本,利用描述文本和预先训练的文本生成模型,生成第二权利要求文本;确定第二权利要求文本,引用描述文本所属的标题的上一层级标题对应的第一权利要求文本,并将第二权利要求文本添加到权利要求书中的对应位置。

根据技术交底文本自动生成权利要求书的具体实现流程后续实施例中详细介绍。

上述描述单元可以为一段描述文本,也可以是至少一张图片,也可以是描述文本和描述图片的组合。

步骤S12:将各描述单元输入预先训练的文本生成模型,得到描述单元对应的实施例文本段。

在一个实施例中,文本生成模型,可以是利用获取到的多个数据对,对指针生成网络模型和/或序列到序列Seq2Seq模型训练得到的,数据对包括描述单元和与该描述单元对应的实施例文本段。

在一个实施例中,数据对中的描述单元为描述文本或至少一张描述图片,或是描述文本和描述图片的组合。其中,描述文本可以是技术交底中的技术描述文本(获取的申请人单从技术角度撰写的描述文本);也可以是将技术描述文本转换成符合专利审查指南要求的权利要求文本;也可以是将技术描述文本输入第二文本生成模型得到的权利要求文本。第二文本生成模型是利用获取到的多个第二数据对,对指针生成网络模型和/或序列到序列Seq2Seq模型训练得到的,第二数据对包括描述文本和与该描述文本对应的权利要求文本。

将一个描述单元输入预先训练的文本生成模型,得到该描述单元对应的实施例文本段。

步骤S13:将实施例文本段组合生成实施例文本。

在一个实施例中,根据技术数据的类型确定匹配的实施例文本生成模板;根据技术数据中描述单元的层级结构,确定描述单元对应的实施例文本段的层级结构;按照生成模板和实施例文本段的层级结构,将实施例文本段组合生成实施例文本。

可选的,将实施例文本段组合生成实施例文本,还可以包括,将实施例文本段对应的描述单元以预设形式与实施例文本段一起添加进实施例文本,可以使得专利申请文本的撰写人员在查阅或者修改自动生成的实施例文本时,清晰的了解到每段实施例文本段是根据哪个描述单元生成的。

本发明实施例提供的专利申请文本的自动生成方法,专利申请文本中说明书中实施例文本的自动生成步骤,包括:按预设规则将技术数据分解成至少一个描述单元;将各描述单元输入预先训练的文本生成模型,得到描述单元对应的实施例文本段;将实施例文本段组合生成实施例文本。可以根据获取到的技术数据自动生成专利申请文本的说明书实施例文本,节省了人力,提高了专利申请文本的撰写效率,同时避免了说明书实施例文本中的形式问题。

在一个实施例中,上述方法还可以包括,将描述单元在预设数据库中进行检索,得到数据库中与描述单元的相似度满足预设条件的相似文档;根据描述单元对应的实施例文本段在实施例文本中的位置,使用标注的方式将相似文档添加进实施例文本中。

可以使得专利申请文本的撰写人员在查阅或者修改自动生成的实施例文本时,参照每段实施例文本段对应的相似文档,将实施例文本段进一步补充完善,或修改实施例文本段及对应的权利要求文本,使得申请保护的权利要求文本与现有技术不同,具有创造性。

实施例二

本发明实施例二提供一种专利申请文本的说明书实施例文本生成方法的具体实现流程,参照图2所示,包括如下步骤:

步骤S21:按预设规则将技术数据分解成至少一个描述单元。

步骤S22:将各描述单元输入预先训练的文本生成模型,得到描述单元对应的实施例文本段。

步骤S23:将实施例文本段组合生成实施例文本。

步骤S24:对每个描述单元进行向量化处理,得到该描述单元对应的语句向量。

例如本发明实施例中提供的多个描述单元如下:

描述单元A:“一种在伪随机码测距中的相关运算电路。”;

描述单元B:“其典型应用是用m序列作为伪随机码。”;

描述单元C:“用于USB介面的连接装置及其储存器储存装置。”;

描述单元D:“其中该介面连接器设计为如上述的连接装置。”;

描述单元E:“调用预定时间视频会议的服务器。”

本发明实施例中对上述描述单元进行向量化处理的详细过程如下:

对所有描述单元按照预设的分词方法进行分词处理,并将分词进行向量化处理得到分词向量;以分词向量、分词在技术数据中的词频以及逆文档频率,进行加权求和后得到语句向量。

其中,预设的分词方法可以是现有技术中已有的分词方法,例如字符串匹配分词算法、基于统计的机器学习算法等。得到分词后,使用对分词进行向量化处理,得到分词的分词向量,例如对分词使用如下向量化处理:Word2vec(word to vector),FastText,Glove,Elmo,Bert等向量化处理方法,本发明实施例中使用FastText词向量计算模型,将全部技术数据中的词作为训练输入,输出每个分词的分词向量。

具体的,以上述描述单元A为例进行说明,上述描述单元A分词后为:“一种”、“在”、“伪”、“随机码”、“测距”、“中”、“的”、“相关”、“运算”、“电路”,其中“电路”词向量可以表示为:[-0.0529,-0.2667,……,-0.0355,0.0803],本实施例中,可以根据实际需求对向量维度进行设定,例如设定256维的向量。

得到分词向量之后,以分词向量、分词在技术数据中的词频以及逆文档频率,进行加权求和后得到语句向量。其中,TF-IDF(term frequency–inverse document frequency)词频-逆文档频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库(例如技术交底文本)中的一个领域文件集的重复程度。

以分词A为例:

分词A在技术数据中的逆文档频率(IDF)为:

分词A的词频-逆文档频率为,分词A在技术数据中的词频(TF)与分词A在技术数据中的逆文档频率(IDF)的乘积。

还以上述描述单元A为例进行说明,其中,“一种”词向量使用V一种表示,词频-逆文档频率使用TF-IDF一种表示;“在”词向量使用V在表示,词频-逆文档频率使用TF-IDF在表示,……“电路”词向量使用V电路表示,词频-逆文档频率使用TF-IDF电路表示。则描述单元A的语句向量=V一种*TF-IDF一种+V在*TF-IDF在+……+V电路*TF-IDF电路,本发明实施例中的语句向量也可以使用与上述词向量维度相同的向量,例如上述词向量使用的256维度的向量。

步骤S25:将语句向量使用预设的聚类算法进行聚类分析,得到至少一个中心语句向量。

得到所有的语句向量之后,对语句向量使用预设的聚类算法进行聚类分析,得到至少一类语句向量对应的中心语句向量。例如,本发明实施例中,对上述根据描述单元A-E得到的语句向量A-E,进行聚类的结果可以为三类(AB,CD,E),然后对每一类语句向量按照预设的算法进行分析,得到对应的中心语句向量。

其中,本发明实施例中上述聚类算法可以是K-Means聚类算法、DBSCAN算法等。

本发明实施例通过对文本单元中的语句进行聚类分析,得到至少一个中心语句向量,然后以中心语句向量为检索对象进行检索,使得检索结果更加准确、实用,且相对于对每个文本单元都进行检索,大大减少了计算量。

步骤S26:以中心语句向量为检索对象在预设数据库中的向量索引库中进行检索,得到相似语句向量,并根据计算出的相似语句向量与中心语句向量的相似度距离,确定相似语句向量与中心语句向量的相似度值。

步骤S27:将数据库中的与中心语句向量的相似度值高于预设相似度阈值的相似语句向量对应的文档,确定为中心语句向量对应的描述单元的相似文档。

具体的,视中心语句向量对应的描述单元的创新性情况的不同,得到的相似文档可能较多,也可能较少,也可能检索不到相似文档。

步骤S28:根据描述单元对应的实施例文本段在实施例文本中的位置,使用标注的方式将相似文档添加进实施例文本中。

具体的,一个中心语句向量对应的多个描述单元的相似文档,可以在实施例文本中只填加一次。

本发明实施例二对每个描述单元进行向量化处理,得到该描述单元对应的语句向量后,使用预设的聚类算法将语句向量进行聚类分析,得到至少一个中心语句向量;以每个中心语句向量为检索对象在预设数据库中的向量索引库中进行检索,得到中心语句向量对应的描述单元的相似文档。较直接以每个描述单元对应的语句向量为检索对象进行检索相比,大大减少了计算量,同时减少了相似文档的重复率,提升了用户的感受度。

可选的,还可以包括,在实施例文本中填加检索到的相似文档时,还可以为每个相似文档设置标识,对于重复的相似文档只填加一次具体内容,需要重复填加时只填加相似文档的标识即可,这样增强了实施例文本中标注的相似文档的可读性。

可选的,还可以包括,不对描述单元对应的语句向量进行聚类,直接将各描述单元对应的语句向量作为检索对象检索相似文档。具体是否需要先将描述单元对应的语句向量聚类再检索还是直接检索,可以视具体情况灵活设置。

在一个可选的实施例中,上述步骤S26具体实现方式参照图3所示,可以包括以下步骤:

步骤S261:以中心语句向量作为检索对象的输入,根据预设的索引方式确定中心语句向量在数据库中的条目。

本发明实施例中的数据库包括使用预设语料进行训练形成的数据库和向量索引库,具体构建方法参照下述描述。其中,本发明实施例中的数据库可以是基于关系型数据库管理系统(MySQL)构建的数据库,当然也可以使用其他形式的数据库,本发明实施例对此不作具体限定。

上述数据库中,包含若干个条目,每个条目中包括:语句原文、该语句原文对应的语句向量以及该语句原文的全文编号。其中,语句原文是为了方便提取出来,供参考或者使用;语句向量是为了计算该语句与中心语句的相似度距离;语句原文的全文编号是为了对数据库中所有的语句原文进行排序和索引等。

步骤S262:计算条目和相邻条目中所有语句向量与中心语句向量的相似度距离。

本发明实施例中以现有的距离计算方法计算上述条目和相邻条目中所有的语句向量与中心语句向量的相似度距离。例如使用欧式距离计算上述相似度距离,本发明实施例对此不作具体限定。上述欧式距离越小,说明数据库中的语句原文与中心语句的相似度越高。

步骤S263:将相似语句向量与中心语句向量的相似度距离转换为相似度值。

在一个具体的实施例中,上述数据库可以预先采用大量的专利文献、论文、期刊等现有公开内容为语料进行数据库和向量索引库构建而构建出来的,具体的构建方法可以参照图4所示,可以包括以下步骤:

步骤S41:使用预设的分词方法将预设语料中的语句进行分词处理,并对分词进行向量化处理,获得所有的分词向量。

步骤S42:以分词向量、分词在预设语料中的词频以及逆文档频率,进行加权求和后得到语句向量。

本发明实施例中上述步骤S41和步骤S42具体实现方式可参照步骤S24的相关举例和描述,在此不再赘述。

步骤S43:将语句向量、语句原文以及语句原文对应的全文编号保存到关系型数据库中。

例如,保存的关系型数据库可以如下述表1所示:

表1

步骤S44:采用预设的相似文本检索算法构建语句的向量索引库。

本发明实施例采用近似最邻近相似文本检索算法构建上述数据库的索引数据库,如HNSW(Hierarchical NSW(分层的NSW算法),是近似k近邻搜索中的新方法,也是对NSW方法的改进,它由多层的邻近图组成,因此称为分层的NSW方法)、Faiss(Facebook AI团队开源的针对聚类和相似性搜索库)等方法。本实施例采用的Faiss方法,是一个为稠密向量提供高效相似度搜索的框架,支持亿级别向量的搜索,检索速度快,是目前最为成熟的近似近邻搜索库之一。算法的输入是数据库中语句的向量矩阵和语句的全文编号,如数据库中有10w个语句,向量维度为256,则输入的是一个10w*256维的向量矩阵和对应语句的全文编号,通过Faiss检索方法得到检索索引。Faiss提供多种检索方法,如IndexIVFFlat方法:在d维(256)空间中定义多个Voronoi单元格,并且每个数据库中的语句向量都落入其中一个单元格中,IndexIVFFlat有一个训练的过程,在将向量分配给Voronoi单元格,得到Faiss检索索引IndexIVFFlat.index。现使用的Faiss的“PCA64,IVF1000,Flat”索引方法结合语句的FastText向量的效果是,使用原句进行搜索测试,Recall@Top1(检索时第一个是想要的结果)是99.7893%,Recall@Top2是99.8883%,Recall@Top3是99.9863%。

实施例三

本发明实施例三提供一种专利申请文本的生成方法,参照图5所示,专利申请文本中权利要求书的生成,包括如下步骤:

步骤S51:对技术交底文本中的标题,从技术交底文本中抽取标题及标题的下一层级标题。

具体的,针对技术交底文本中的每个标题,确定是否有下一层级的标题,若是,从技术交底文本中抽取标题及标题的下一层级标题。

获取到的技术交底文本包含多层级标题,其最高层级的标题是发明名称或实用新型名称;可选的,若获取到的技术交底文本的最高层级的标题不是发明名称或实用新型名称,可以先对技术交底文本进行预处理:抽取所有最高层级的标题,确定能够概括抽取的标题的名称,将概括出的名称作为最高层级添加到技术交底文本中。

具体的,确定能够概括抽取的标题的名称,可以是抽取标题中的关键词,将抽取到的关键词按预设模板组合成名称。

上述技术交底文本的格式可以是非结构化的,每个标题带有标签,用于标明标题间的层级关系,故可以根据标题的标签确定标签的下一层级标签,从技术交底文本中抽取该标题,抽取下一层级标签所属标题作为该标题的下一层级标题。可选的,上述技术交底文本的格式也可以是树形结构的,从树状结构的技术交底文本中抽取标题及该标题的下一层级标题。

步骤S52:将标题及下一层级标题组合生成与标题对应的一项第一权利要求文本。

在一个实施例中,可以包括,根据技术交底文本的类型确定匹配的权利要求生成模板;将标题及下一层级标题,按照模板组合生成与标题对应的一项第一权利要求文本。

技术交底文本的类型可以是发明或实用新型,发明又可以分为方法类和产品类,不同的类型对应的权利要求文本的生成模板也不同。以发明中的方法类为例,权利要求生成模板可以是“1、一种……方法,其特征在于,包括下述步骤:……”,用于根据最高层级的标题和下一层级的标题,生成最高层级的标题对应的第一权利要求文本(最终生成权利要求书中的独立权利要求文本)。也可以是“x、如权利要求x所述的方法,其特征在于,所述……,具体包括:……”(模板中的“……”是生成权利要求文本时需要补充的内容,“x”是生成权利要求文本时需要替换的内容),用于生成非最高层级的标题对应的第一权利要求文本(最终生成权利要求书中的从属权利要求文本),以非最高层级的标题为标题A为例,模板中的第一个省略号处可以补充为标题A对应的文本,第二个省略号处可以补充为标题A的下一层级标题对应的文本;将模板中的第二个x替换为标题A的上一层级标题对应的权利要求文本的序号;第一个x为生成的权利要求文本的序号,在步骤S54中生成权利要求书时将x进行替换。

步骤S53:按技术交底文本中标题的层级关系,确定标题对应的第一权利要求文本之间的引用关系。

例如标题A的下一层级的标题是标题B、标题C和标题D,标题B的下一层级的标题是标题E和标题F;根据标题A、标题B、标题C和标题D组合生成的第一权利要求文本为标题A对应的第一权利要求文本A;根据标题B、标题E和标题F组合生成的第一权利要求文本为标题B对应的第一权利要求文本B;根据标题A和标题B的层级关系确定第一权利要求文本A和第一权利要求文本B之间的引用关系,因为标题A是标题B的上一层级的标题,所以确定第一权利要求文本A被第一权利要求文本B引用。

步骤S54:根据第一权利要求文本和引用关系生成权利要求书。

根据引用关系确定第一权利要求文本的序号,被引用的第一权利要求文本排在引用他的第一权利要求的前面,将确定的第一权利要求文本的序号替换对应的第一权利要求文本中的第一个x,将第一权利要求文本排列生成权利要求书。

本发明实施例三提供的专利申请文本的生成方法,专利申请文本中权利要求书的生成步骤,包括:针对技术交底文本中的每个标题,确定该标题有下一层级的标题时,从技术交底文本中抽取该标题及该标题的下一层级标题,将标题及下一层级标题组合生成与标题对应的一项第一权利要求文本;按技术交底文本中标题的层级关系,确定标题对应的第一权利要求文本之间的引用关系;根据第一权利要求文本和引用关系生成所述权利要求书。可以根据获取到的技术交底文本自动生成专利申请文本的权利要求书,节省了人力,提高了专利申请文本的撰写效率,同时避免了权利要求书中的形式问题。

在一个实施例中,从技术交底文本中,确定标题的至少一段具有预设特征的描述文本,将描述文本输入预先训练的文本生成模型,得到第二权利要求文本;确定第二权利要求文本,引用描述文本所属的标题的上一层级标题对应的第一权利要求文本,并将第二权利要求文本添加到权利要求书中的对应位置。

技术交底文本包括多层级的标题外,至少一个标题还可以具有至少一段描述文本,用于详细描述该标题。故,以标题A为例,生成一个标题A对应的第一专利申请文本A后,若确定标题A的至少一段描述文本具有预设特征,则针对每段具有预设特征的描述文本,以描述文本B为例,利用描述文本和预先训练的文本生成模型,生成第二权利要求文本B。可选的,也可以在生成所有的第一权利要求文本后,再生成第二权利要求文本。具体第二权利要求文本的生成方法,后续实施例二中详细介绍。

上述确定的具有预设特征的描述文本,可以是技术交底文本中预先标记好的描述文本。也可以是将技术交底文本中标题的每段描述文本在预设数据库中进行检索,确定描述文本与数据库的相似度;根据相似度确定至少一段具有预设特征的描述文本,例如,将相似度低于设定阈值的描述文本确定为具有预设特征的描述文本。

具体的,上述预设特征可以是具有一定的创造性,申请人在输入技术交底的相关内容时将自己认为的具有创造性的描述文本进行勾选,在根据申请人输入的技术交底内容生成技术交底文本的过程中,根据申请人的选择将描述文本进行标记。判断描述文本是否具有预设特征可以直接根据描述文本有无对应的标注来判断。

可选的,获取到的技术交底文本也可以是没有上述标注,判断描述文本是否具有预设特征,可以包括,将描述文本在预设数据库中进行检索,确定描述文本与数据库的相似度;若确定的相似度小于预先设定的阈值,则确定描述文本具有预设特征。

可选的,也可以是先根据是否有标注确定描述文本是否具有预设特征,对于没有标注的描述文本,再根据相似度检索确定是否具有预设特征。

描述文本是否具有预设特征的判断方法,本实施例不做具体限定。

在一个实施例中,还可以包括,利用选定的分词模型将第一权利要求文本进行分词,将得到的每个词与预先建立的知识库匹配,若匹配成功,将该第一权利要求文本中的该词替换为知识库中与该词匹配的上一层级的词,或为该第一权利要求文本中的该词标注所述知识库中与该词匹配的上一层级的词。该步骤可以在生成每一个第一权利要求文本后执行,也可以在生成所有的第一权利要求文本后再执行,也可以在生成所有的第一权利要求文本和第二权利要求文本后执行。和/或,

利用选定的分词模型将第二权利要求文本进行分词,将得到的每个词与预先建立的知识库匹配,若匹配成功,将该第二权利要求文本中的该词替换为知识库中与该词匹配的上一层级的词,或为该第二权利要求文本中的该词标注知识库中与该词匹配的上一层级的词。该步骤可以在生成每一个第二权利要求文本后都执行,也可以在生成所有的第二权利要求文本后再执行。

上述替换使得生成的第一或第二权利要求文本的保护范围变大;若没有替换,只是在对应的词的预设位置进行标注,可以方便专利申请文本的撰写人员根据标注的词来确定选用哪个词更为合理,省去了撰写人员自己查询的麻烦,或避免了撰写人员忘记上位撰写(将对应的词替换为层级更高的词)以争取更大的保护范围。

实施例四

本发明实施例四提供一种专利申请文本的权利要求书生成方法的具体实现,其流程如图6所示,包括如下步骤:

步骤S601:对技术交底文本中的标题,从技术交底文本中抽取标题及标题的下一层级标题。

步骤S602:将标题及下一层级标题组合生成与标题对应的一项第一权利要求文本。

步骤S603:按技术交底文本中标题的层级关系,确定标题对应的第一权利要求文本之间的引用关系。

针对技术交底文本中的每个标题的每段描述文本,执行步骤S604-步骤S610。

步骤S604:判断描述文本是否标注有具有预设特征。

具体的,上述技术交底文本可以是预先根据用户的选择对描述文本进行了标注,例如用户判断哪段描述文本具有创造性,便会在描述文本对应的是否具有创造性处勾选,故根据用户输入的信息生成技术交底文本的过程中,可以根据用户的选择对描述文本进行是否具有创造性的标注。判断描述文本是否具有预设特征可以直接根据描述文本有无对应的标注来判断。

若判断描述文本标注有具有预设特征,执行步骤S605;否则,执行步骤S606。

步骤S605:将描述文本在预设数据库中进行检索,得到数据库中与描述文本的相似度满足预设条件的相似文档。

步骤S605后执行步骤S609。

步骤S606:将描述文本在预设数据库中进行检索,确定描述文本与数据库的相似度。

具体的,可以将描述文本与数据库中的文档相似度最高值确定为描述文本与数据库的相似度。

步骤S607:判断确定的相似度是否小于预设的阈值。

若是,则确定描述文本具有预设特征,执行步骤S608;若否,确定描述文本不具有预设特征。

步骤S608:得到数据库中与描述文本的相似度满足预设条件的相似文档。

步骤S609:将描述文本输入预先训练的文本生成模型,得到第二权利要求文本。

在一个实施例中,上述文本生成模型,可以是利用获取到的多个数据对,对指针生成网络模型和/或序列到序列Seq2Seq模型训练得到的,数据对包括描述文本和与该描述文本对应的权利要求文本。

步骤S610:确定第二权利要求文本,引用描述文本所属的标题的上一层级标题对应的第一权利要求文本,得到第二权利要求文本与第一权利要求文本之间的引用关系。

步骤S611:根据第一权利要求文本、第二权利要求文本、相似文档和引用关系,生成权利要求书。

具体的,上述引用关系包括步骤S603中确定的第一权利要求文本之间的引用关系,和步骤S610中确定的第二权利要求文本与第一权利要求文本之间的引用关系。

下述为了表述方便,将第二权利要求文本与第一权利要求文本合称为权利要求文本。

可以是以标记的形式根据权利要求文本在权利要求书中的位置,将权利要求文本对应的相似文档添加到权利要求书中。

步骤S612:利用选定的分词模型将权利要求文本进行分词,将得到的每个词与预先建立的知识库匹配,若匹配成功,将该权利要求文本中的该词替换为知识库中与该词匹配的上一层级的词。

可选的,也可以不是将权利要求文本中的词进行替换,而是为权利要求文本中的词标注知识库中与该词匹配的上一层级的词。标注的词供用户参考是否需要修改。可选的,也可以是不只标注与选定的词匹配的上一层级的词,可以同时标注知识库中与该词匹配的高层级的多个层级的词。

上述流程中的步骤没有严格的顺序关系,上述步骤顺序仅是一种示意,例如,可以生成标题对应的一项第一权利要求文本后,生成标题对应的第二权利要求文本;还可以每生成一项第一或第二权利要求文本后,就将权利要求文本中的词进行知识库匹配后的替换。

基于本发明的发明构思,本发明实施例还提供一种专利申请文本的自动生成装置,用于自动生成所述专利申请文本中说明书实施例文本,其结构如图7所示,包括:

分解模块71,用于按预设规则将技术数据分解成至少一个描述单元;

第一生成模块72,用于将分解模块71分解出的各描述单元输入预先训练的文本生成模型,得到所述描述单元对应的实施例文本段;

组合模块73,用于将第一生成模块72生成的实施例文本段组合生成所述实施例文本。

在一个实施例中,上述装置还包括检索模块74,用于:

将所述描述单元在预设数据库中进行检索,得到所述数据库中与所述描述单元的相似度满足预设条件的相似文档;根据所述描述单元对应的实施例文本段在实施例文本中的位置,使用标注的方式将所述相似文档添加进所述实施例文本中。

在一个实施例中,分解模块71,具体用于:

按预设规则将技术交底文本分解成至少一个描述单元;或,根据技术交底文本生成权利要求书,将所述权利要求分解成至少一个描述单元。

在一个实施例中,上述装置还包括,第二生成模块45,用于:

对技术交底文本中的标题,从技术交底文本中抽取所述标题及所述标题的下一层级标题,将所述标题及下一层级标题组合生成与所述标题对应的一项第一权利要求文本;按技术交底文本中标题的层级关系,确定所述标题对应的第一权利要求文本之间的引用关系;根据所述第一权利要求文本和所述引用关系生成所述权利要求书;从所述技术交底文本中,确定标题的至少一段具有预设特征的描述文本,利用所述描述文本和预先训练的文本生成模型,生成第二权利要求文本;确定所述第二权利要求文本,引用所述描述文本所属的标题的上一层级标题对应的第一权利要求文本,并将所述第二权利要求文本添加到所述权利要求书中的对应位置。

在一个实施例中,上述装置还包括,确定模块76,用于:

根据所述技术数据的类型确定匹配的实施例文本生成模板;对应的,第一生成模块73,具体用于:

根据所述技术数据中描述单元的层级结构,确定描述单元对应的实施例文本段的层级结构;按照所述生成模板和所述实施例文本段的层级结构,将所述实施例文本段组合生成所述实施例文本。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

基于本发明的发明构思,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机指令,当该指令被处理器执行时实现上述专利申请文本的自动生成方法。

基于本发明的发明构思,本发明实施例还提供一种服务器,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述专利申请文本的自动生成方法。

除非另外具体陈述,术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程,所述动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如,在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。

应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。

在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

本文发布于:2024-09-24 23:26:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/69079.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议