专利文本分类号识别方法、装置、电子设备及存储介质

著录项

申请号 CN202210120391.5
申请日 20220207
公开（公告）号 CN114461801A
公开日 20220510
申请（专利权）人智慧芽信息科技（苏州）有限公司
发明人杨海涛;王超超;王为磊;屠昶旸;张济徽
主分类号 G06F16/35
分类号
G06F16/35 G06F40/30 G06N3/04 G06N3/08
地址江苏省苏州市工业园区金鸡湖大道88号人工智能产业园G3-701、G3-801、G3-901、G3-1001单元
国省代码江苏(32)

摘要

本发明涉及一种专利文本分类号识别方法、装置、电子设备及存储介质。所述方法包括：获取目标专利文本对应的输入文本；将所述输入文本输入识别神经网络，经所述识别神经网络处理后输出所述目标专利文本的分类号确定结果。利用本申请实施例提供的实现方式，可以利用构建的类均衡数据集训练识别神经网络。根据待识别分类号的所述目标专利文本的输入文本，利用训练好的所述识别神经网络，识别出所述目标专利文本的分类号。从而有效提高分类号识别的效率和准确度，降低人力成本。

权利要求



1.一种专利文本分类号识别方法，其特征在于，所述方法包括：

获取目标专利文本对应的输入文本；

将所述输入文本输入识别神经网络，经所述识别神经网络处理后输出所述目标专利文本的分类号确定结果。



2.根据权利要求1所述的方法，其特征在于，所述识别神经网络包括语义特征提取神经网络、长程依赖关系捕获神经网络以及分类神经网络，所述将所述输入文本输入识别神经网络，经所述识别神经网络处理后输出所述目标专利文本的分类号确定结果包括：

将所述输入文本输入所述语义特征提取神经网络，经所述语义特征提取神经网络处理后输出字向量和句向量；

将所述字向量和所述句向量输入所述长程依赖关系捕获神经网络，经所述长程依赖关系捕获神经网络处理后输出残差特征向量；

将所述残差特征向量输入所述分类神经网络，经所述分类神经网络处理后，得到所述分类号确定结果。



5.根据权利要求2所述的方法，其特征在于，所述将所述残差特征向量输入分类神经网络，经所述分类神经网络处理后，得到所述分类号确定结果包括：

将所述残差特征向量输入所述分类神经网络，经所述分类神经网络处理后输出所述目标专利文本归属于各分类号的概率值；

将所述各分类号按照其对应的概率值从高到低进行排列，并将概率值排列在前N个的分类号确定为所述分类号确定结果，其中，N≥1。

6.根据权利要求5所述的方法，其特征在于，所述分类号包括小类号和小组号，所述各分类号的概率值包括各小类号的概率值和各小组号的概率值，所述N个分类号包括各小类号中按照其对应的概率值从高到低排在前M个的小类号和各小组号中按照其对应的概率值从高到低排在前L个的小组号，其中，M≥1，L≥1。

7.根据权利要求2所述的方法，其特征在于，所述语义特征提取神经网络包括Bert语义特征提取模型，所述长程依赖关系捕获神经网络包括双向长短记忆网络长程依赖关系捕获模型。



3.根据权利要求1所述的方法，其特征在于，所述获取目标专利文本对应的输入文本包括：

对所述目标专利文本的特定子文本进行预处理，得到所述输入文本。

4.根据权利要求3所述的方法，其特征在于，所述特定子文本包括所述目标专利文本的标题文本、摘要文本、权利要求文本，所述对所述目标专利文本的特定子文本进行预处理，得到所述输入文本包括：

对所述权利要求文本进行数据清洗处理和关键词提取处理，得到所述权利要求文本对应的关键词文本；

将所述关键词文本、所述标题文本、所述摘要文本合并，得到文本长度为固定值的所述输入文本。



8.根据权利要求1所述的方法，其特征在于，所述识别神经网络为训练好的神经网络，所述识别神经网络的训练方式包括：

构建专利文本训练样本集，所述专利文本训练样本集中每个专利文本样本对应一个或多个分类号标签；

将所述专利文本训练样本集中的所述专利文本样本对应的输入文本输入所述识别神经网络，经所述识别神经网络处理输出预测的分类号确定结果；

根据所述预测的分类号确定结果和所述样本对应的分类号标签，确定所述识别神经网络的处理结果的损失；

向所述识别神经网络反向传播所述损失，以调整所述识别神经网络的网络参数。

9.根据权利要求8所述的方法，其特征在于，所述构建专利文本训练样本集的方式包括：

根据原始数据中每个专利文本样本对应的分类号标签，得到分类号标签排序列表；

遍历所述分类号标签排序列表，获取每个分类号标签对应的样本数量；

若分类号标签对应的样本数量小于预设值，则将该分类号标签对应的样本按预设比例分配到所述专利文本训练样本集和专利文本测试样本集；

若分类号标签对应的样本数量大于或等于所述预设值，则将该分类号标签对应的样本，填充第一固定数量至所述专利文本训练样本集，以及填充第二固定数量至所述专利文本测试样本集。

10.根据权利要求8或9所述的方法，其特征在于，所述分类号标签包括小组号和小类号。



11.一种专利文本分类号识别装置，其特征在于，所述装置包括：

数据预处理模块，被配置为获取目标专利文件对应的输入文本；

识别模块，被配置为将所述输入文本输入识别神经网络，经所述识别神经网络处理后输出所述目标专利文本的分类号确定结果。

12.根据权利要求11所述的装置，其特征在于，所述识别模块包括：

语义特征提取单元，被配置为将所述输入文本输入语义特征提取神经网络，经所述语义特征提取神经网络处理后输出字向量和句向量；

长程依赖关系捕获单元，被配置为将所述字向量和所述句向量输入长程依赖关系捕获神经网络，经所述长程依赖关系捕获神经网络处理后输出残差特征向量；

分类单元，被配置为将所述残差特征向量输入分类神经网络，经所述分类神经网络处理后，得到所述分类号确定结果。

13.一种电子设备，其特征在于，包括：

处理器；

用于存储可执行指令的存储器；

其中，所述处理器通过调用所述可执行指令实现如权利要求1至10中任意一项所述的方法。

14.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至10中任意一项所述的方法。

说明书

技术领域

本发明涉及智能识别领域，特别是涉及一种专利文本分类号识别方法、装置、电子设备及存储介质。

专利分类号是按照特定的分类规则赋予专利文本代表其分类的编号。目前常用的专利分类号包括IPC分类号、CPC分类号等。专利分类号可以用于辅助专利文献的检索。对专利文本进行分类，识别专利文本的分类号，对专利文献的检索、专利文献的审查等意义重大。现有技术中，通常为人工识别专利文本的分类号。但是随着专利申请量的激增，人工识别的方式效率低下、成本较高等问题逐渐凸现。另外，由于专利文本的复杂性和多样性，目前通过机器识别专利文本分类号的准确率较低。因此，有必要提供一种高效、高准确度的专利文本分类号识别方法。

本申请提出了一种专利文本分类号识别方法、装置、电子设备及存储介质，以提高专利文本分类号识别的准确度和效率，节省人力成本。

根据本申请的第一方面，提供了一种专利文本分类号识别方法，该方法包括：获取目标专利文本对应的输入文本；将输入文本输入识别神经网络，经识别神经网络处理后输出目标专利文本的分类号确定结果。

在一种可能的实现方式中，识别神经网络包括语义特征提取神经网络、长程依赖关系捕获神经网络以及分类神经网络。将输入文本输入识别神经网络，经识别神经网络处理后输出目标专利文本的分类号确定结果包括：将输入文本输入语义特征提取神经网络，经语义特征提取神经网络处理后输出字向量和句向量；将字向量和句向量输入长程依赖关系捕获神经网络，经长程依赖关系捕获神经网络处理后输出残差特征向量；将残差特征向量输入分类神经网络，经分类神经网络处理后，得到分类号确定结果。

在一种可能的实现方式中，获取目标专利文本对应的输入文本包括：对目标专利文本的特定子文本进行预处理，得到输入文本。

在一种可能的实现方式中，特定子文本包括目标专利文本的标题文本、摘要文本、权利要求文本。对目标专利文本的特定子文本进行预处理，得到输入文本包括：对权利要求文本进行数据清洗处理和关键词提取处理，得到权利要求文本对应的关键词文本；将关键词文本、标题文本、摘要文本合并，得到文本长度为固定值的输入文本。

在一种可能的实现方式中，将残差特征向量输入分类神经网络，经分类神经网络处理后，得到分类号确定结果包括：将残差特征向量输入分类神经网络，经分类神经网络处理后输出目标专利文本归属于各分类号的概率值；将所述各分类号按照其对应的概率值从高到低进行排列，并将概率值排列在前N个的分类号确定为分类号确定结果，其中，N≥1。

在一种可能的实现方式中，分类号包括小类号和小组号，各分类号的概率值包括各小类号的概率值和各小组号的概率值，N个分类号包括各小类号中按照其对应的概率值从高到低排在前M个的小类号和各小组号中按照其对应的概率值从高到低排在前L个的小组号，其中，M≥1，L≥1。

在一种可能的实现方式中，语义特征提取神经网络包括Bert语义特征提取模型，长程依赖关系捕获神经网络包括双向长短记忆网络(BiLSTM)长程依赖关系捕获模型。

在一种可能的实现方式中，识别神经网络为训练好的神经网络。识别神经网络的训练方式包括：构建专利文本训练样本集，专利文本训练样本集中每个专利文本样本对应一个或多个分类号标签；将专利文本训练样本集中的专利文本样本对应的输入文本输入识别神经网络，经识别神经网络处理输出预测的分类号确定结果；根据预测的分类号确定结果和专利文本样本对应的分类号标签，确定识别神经网络的处理结果的损失；向识别神经网络反向传播损失，以调整识别神经网络的网络参数。

在一种可能的实现方式中，构建专利文本训练样本集的方式包括：根据原始数据中每个专利文本样本对应的分类号标签，得到分类号标签排序列表；遍历分类号标签排序列表，获取每个分类号标签对应的样本数量；若分类号标签对应的样本数量小于预设值，则将该分类号标签对应的样本按预设比例分配到专利文本训练样本集和专利文本测试样本集；若分类号标签对应的样本数量大于或等于预设值，则将该分类号标签对应的样本，填充第一固定数量至训练样本集，以及填充第二固定数量至测试样本集。

在一种可能的实现方式中，分类号标签包括小组号和小类号。

根据本申请的另一方面，提供了一种专利文本分类号识别装置，该装置包括：数据预处理模块，被配置为获取目标专利文件对应的输入文本；识别模块，被配置为将输入文本输入识别神经网络，经识别神经网络处理后输出目标专利文本的分类号确定结果。

在一种可能的实现方式中，识别模块包括：语义特征提取单元，被配置为将输入文本输入语义特征提取神经网络，经语义特征提取神经网络处理后输出字向量和句向量；长程依赖关系捕获单元，被配置为将字向量和句向量输入长程依赖关系捕获神经网络，经长程依赖关系捕获神经网络处理后输出残差特征向量；分类单元，被配置为将残差特征向量输入分类神经网络，经分类神经网络处理后，得到分类号确定结果。

根据本申请的第三方面，提供了一种电子设备，包括：处理器和用于存储可执行指令的存储器，处理器通过调用可执行指令实现上述方法。

根据本申请的第四方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令被处理器执行以实现上述方法。

根据本申请各方面的实施方式，利用构建的专利文本训练样本集训练识别神经网络，并将训练好的识别神经网络根据待识别分类号的目标专利文本的输入文本，识别出目标专利文本的分类号。从而有效提高分类号识别的效率和准确度，降低人力成本。

进一步的，通过识别神经网络采用的语义特征提取神经网络(例如Bert模型)加长程依赖关系捕获神经网络(例如BiLSTM)的架构，可以有效解决梯度消失和梯度爆炸等问题，进一步有效提高分类号识别的准确度。

图1是本申请提供的一种专利文本分类号识别方法的示例性流程图。

图2是本申请提供的一种专利文本分类号识别装置的模块结构示意图。

图3是本申请提供的一种识别神经网络模型的示例性应用场景示意图。

图4是本申请提供的一种训练样本集的示例性获取流程示意图。

图5是本申请提供的一种电子设备的示例性模块结构框图。

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

图1是本申请提供的一种专利文本分类号识别方法的示例性流程图。如图1所示，根据本申请的一些实施例，专利文本分类号识别方法可以包括：

S110：获取目标专利文本对应的输入文本。

目标专利文本是指待识别分类号的专利文本。本申请一种实施例中，目标专利文本的类型可以是中文专利(例如，发明专利申请文本或实用新型)的申请文本，中文专利的授权文本，外文(例如，英文、日文、韩文等)专利的申请文本，外文专利的授权文本等，或其组合。在一些实施例中，目标专利文本的类型可以是发明专利文本、实用新型专利文本、外观专利文本、期刊论文等，或其组合。对于目标专利文本的具体语言或类型，本申请不做限定。

本申请一种实施例中，输入文本可以是从目标专利文本提取出的一部分或多部分。仅作为示例，输入文本可以是目标专利文本中的特定部分、从目标专利文本提取出的特定部分按特定规则合并而成的文本、整个目标专利文本等。例如，输入文本可以是目标专利文本的标题部分。又例如，输入文本可以是从目标专利文本摘要部分中提取出的部分。再例如，输入文本可以是目标专利文本的标题部分、摘要部分、权利要求部分等提取出的部分合并而成的文本。

在一些实施例中，获取目标专利文本对应的输入文本可以包括对目标专利文本的特定子文本进行预处理，得到输入文本。关于根据子文本得到输入文本的细节可以参见图3及其相关描述。

本申请一种实施例中，输入文本可以是自动、半自动或手动获取的文本，本申请不做限定。

S120：将输入文本输入识别神经网络，经识别神经网络处理后输出目标专利文本的分类号确定结果。

分类号可以包括IPC分类号、CPC分类号、欧洲专利分类号(ECLA)、美国专利分类号(CCL)、日本的分类法(FI/F-term)等或其组合。为了描述方便，本申请以IPC分类号为例进行说明。IPC分类号包含4部分，如A01B33/08中第一个字母A表示该专利所属的部，前三个字符A01表示该专利所属的大类，前四个字符A01B表示该专利所属的小类，整个分类号A01B33/08表示该专利所属的小组。目前共有654种中文小类号和77850种中文小组号。

本申请一种实施例中，识别神经网络是一种模仿生物神经网络的结构和功能的数学模型或者计算模型。识别神经网络可以包括输入层、中间层和输出层。输入层负责接收来自外部的输入数据，并将输入数据传递给中间层。中间层负责信息交换，根据信息变化能力的需求，中间层可以设计为单隐藏层或多隐藏层。中间层将输出结果传递到输出层进行进一步处理后，得到识别神经网络的输出结果。输入层、中间层和输出层都可以包括若干神经元，各神经元之间的连接可以包括带可变权重的有向连接。识别神经网络可以通过对已知信息的反复学习训练，通过逐步调整改变神经元连接权重的方式，达到建立模拟输入输出之间关系模型的目的。训练好的识别神经网络可以利用模拟好的输入输出之间的关系模型，检测输入信息，并给出与输入信息对应的输出信息。例如，识别神经网络可以包括卷积层、池化层和全连接层等。

在一些实施例中，识别神经网络可以包括语义特征提取神经网络、长程依赖关系捕获神经网络以及分类神经网络等或其组合。在一些实施例中，识别神经网络为训练好的神经网络。

本申请一种实施例中，识别神经网络的训练方式可以包括：

构建专利文本训练样本集，专利文本训练样本集中每个专利文本样本对应一个或多个分类号标签；

将专利文本训练样本集中的样本对应的输入文本输入识别神经网络，经识别神经网络处理输出预测的分类号确定结果；

根据预测的分类号确定结果和样本对应的分类号标签，确定识别神经网络的处理结果的损失；

向识别神经网络反向传播损失，以调整识别神经网络的网络参数。

本申请一种实施例中，构建专利文本训练样本集的方式可以包括：根据原始数据中每个专利文本样本对应的分类号标签，得到分类号标签排序列表；遍历分类号标签排序列表，获取每个分类号标签对应的样本数量；若分类号标签对应的样本数量小于预设值，则将该分类号标签对应的样本按预设比例分配到专利文本训练样本集和专利文本测试样本集；若分类号标签对应的样本数量大于或等于预设值，则将该分类号标签对应的样本，填充第一固定数量至训练样本集，以及填充第二固定数量至测试样本集。关于专利文本样本集的训练方式细节，可以参见图4及其相关描述。

本申请一种实施例中，将输入文本输入识别神经网络，经识别神经网络处理后输出目标专利文本的分类号确定结果可以包括：

S121：将输入文本输入语义特征提取神经网络，经语义特征提取神经网络处理后输出字向量、词向量、句向量等中的一个或多个。

S122：将字向量、词向量、句向量等中的一个或多个输入长程依赖关系捕获神经网络，经长程依赖关系捕获神经网络处理后输出残差特征向量。

S123：将残差特征向量输入分类神经网络，经分类神经网络处理后，得到分类号确定结果。

其中，语义特征提取神经网络可以是Bert语义特征提取模型，长程依赖关系捕获神经网络可以是BiLSTM长程依赖关系捕获模型，长程依赖关系(Long-Term Dependencies)指的是和较长路程前的信息建立的一种依赖关系，也可以称为长距离依赖关系或者长依赖关系。

在一些实施例中，将残差特征向量输入分类神经网络，经分类神经网络处理后，得到分类号确定结果可以包括：

将残差特征向量输入分类神经网络，经分类神经网络处理后输出目标专利文本归属于各分类号的概率值；

将各分类号中按照其对应的概率值从高到低排在前N个的分类号确定为分类号确定结果，其中，N≥1。本例中，N的数值可以根据实际的分类号识别需求、实际实施场景来确定，本申请对此不作限定。

本申请另一种实施例中，分类号可以包括IPC分类号，IPC分类号由小类号和小组号组成，对应的，各分类号的概率值包括各小类号的概率值和各小组号的概率值，N个分类号包括各小类号中按照其对应的概率值从高到低排在前M的个小类号和各小组号中按照其对应的概率值从高到低排在前L个的小组号，其中，M≥1，L≥1。其中，M和L的数值理论上可以是任意大于或等于1的自然数，具体的，M和L的数值可以根据实际的分类号识别需求、实际实施场景来确定，本申请对此不作限定。本申请一些实施例中，分类号确定结果可以是多个种类的多个分类号。比如，本例中，分类号确定结果可以是5个小类号和5个小组号，也可以是4个小类号和4个小组号，也可以是其他任意数量个小组号和小类号。在本申请一些实施例中，分类号确定结果也可以是单个种类的多个分类号，比如可以是5个小组号或小类号，或者任意数量个小组号或小类号。当然，在本申请另一些实施例中，分类号确定结果也可以是单个种类的单个分类号。具体的，分类号确定结果的种类和数量，可以根据实际的分类号识别需求、实际实施场景来确定，本申请对此不作限定。进一步的，在本申请一种实施例中，还可以将所述分类号确定结果中对应的概率值最高的分类号作为主分类号。

图3是本申请提供的一种识别神经网络模型的示例性应用场景示意图。如图3所示，识别神经网络模型可以采用Bert语义特征提取模型+BiLSTM长程依赖关系捕获模型的网络架构。

本例中，Bert语义特征提取模型的基础模型可以是来自于智慧芽公司基于专利数据预训练的Bert模型，该预训练的模型是基于千万级的专利数据，使用无监督方式在Transformer架构(用于自然语言处理且基于注意力机制的神经网络架构)上训练得到的模型，本例中，可以通过对该模型进行微调(fine-tuning)达到提取专利语义特征的目的。使用Bert模型进行语义特征提取可以通过对大量数据的无监督双向语义学习，更好的分辨出带有歧义的词语，并获得相应的语义表征。使用Bert模型进行语义特征提取比利用词表分辨歧义词具有更好的效果。比如，对于以下两句话：“今年的苹果收成很好”，“今年的苹果手机销量很好”，Bert模型会根据预训练学习到的语义信息，区分单词“苹果”在两句话中的不同意义，从而得到两个“苹果”在对应句子中的向量表示。

如图3所示，由于Bert语义特征提取模型的处理过程都是在进行数字运算，因此首先需要将输入文本映射为数字，这一步骤利用Bert语义特征提取模型的映射表可以完成。本例中，Bert会将输入文本映射为两种产物：512条768维的字向量1、2、……n和1条768维的句向量，512表示输入文本的长度，同时也是Bert语义特征提取模型所能接受的最长文本长度，768表示该模型输出的特征数量。句向量和字向量会被传递到下游的长程依赖关系捕获模型进行进一步的特征提取步骤。

本例中，如图3所示，可以利用BiLSTM长程依赖关系捕获模型提取Bert语义特征提取模型产出的字向量之间的长程依赖关系特征。BiLSTM长程依赖关系捕获模型可以是，例如，RNN网络(循环神经网络，Recurrent Neural Network，简称RNN)，其特点是在训练过程中通过记忆门，遗忘门和输出门，选择性地保留长序列中的关键信息，遗忘一些无用的信息，在处理时序数据时叠加这些关键信息，融合成可以代表整个序列的表征向量。不同于普通的LSTM模型，BiLSTM模型可以捕获序列的双向长程依赖关系，尤其适合处理专利数据这种长文本序列。

本申请一种实施例中，如图3所示，捕获模型可以采用双层BiLSTM模型，设置的隐状态向量长度可以为768维。首先第一层BiLSTM可以接受上游Bert语义特征提取模型的字向量，产出512条768*2维向量，并可以将其作为第二层BiLSTM的输入，继续捕获长程依赖关系，第二层BiLSTM可以产出512条768*2维的隐状态结果。由于在LSTM中，最后一步的隐状态信息最丰富，所以分别取双向LSTM的最后一个隐状态的768维长程依赖特征向量，拼接获得1536维的BiLSTM特征向量。由于模型可能会面临梯度消失，梯度爆炸和网络退化等问题，且专利小组的类别多，样本量大，收敛速度慢，因此，本例中，在双层BiLSTM后，将Bert语义特征提取模型产出的768维句向量扩展一倍，与BiLSTM特征向量对位相加，获得残差特征向量，可以利用残差的特性，使模型的收敛速度更快，识别性能更高。

本申请一种实施例中，分类预测可以由分类神经网络执行。分类神经网络可以包括全连接分类器，全连接分类器可以将上游得到的残差特征向量输入至全连接分类器中进行分类工作。具体流程是，设计一个全连接网络，网络的输入节点可以是1536维，对应残差特征的维度，网络的输出节点可以对应于专利的小类数量和小组数量，即653和76214。获得的输出向量可以是一组概率值，表示该专利隶属于每种类别的概率，将各分类号中对应的概率值排列在前N(N≥1)个的分类号确定为分类号确定结果。例如，可以选择概率值排列在前5个的类别，即5个小类号和5个小组号作为该专利推荐的小类号和小组号。

本例中，整个识别过程不仅非常快速，而且准确率也非常高，其中，在一应用实例中，每个目标专利文本的识别时间是0.105秒(小类)和0.176秒(小组)，top1小类准确率在84％以上，top3小类准确率在94％以上，top1小组准确率在48％以上，top3小组的准确率在68％以上。识别效率远高于人力识别的效率，且识别准确率相对于现有的机器识别的准确率也得到有效提高。

当然，上述各实施例中的各类神经网络的类型和架构是示例性的。本申请其他实施例中，也可以采用其他类型和架构的文本特征提取神经网络、长程依赖关系捕获网络、分类神经网络，只要可以实现相应的功能即可，本申请对此不作限定。

本申请一种实施例中，获取目标专利文本对应的输入文本可以包括：对目标专利文本的特定子文本进行预处理，得到输入文本。

本例中，特定子文本可以包括目标专利文本的标题文本、摘要文本、权利要求文本等或其组合。对目标专利文本的特定子文本进行预处理，得到输入文本可以包括：

对权利要求文本进行数据清洗处理和关键词提取处理，得到权利要求文本对应的关键词文本；

将关键词文本、标题文本、摘要文本等合并，可以得到文本长度为固定值的输入文本。

具体的，可以选择目标专利文本标题文本、摘要文本、权利要求文本作为数据基础，针对这些子文本进行相应的预处理。本例中，数据预处理阶段主要针对权利要求文本。由于权利要求字段很多是从外部源获取，因此存在以下普遍的问题：

权利要求文本中含有大量的html标签，比如：“

3.根据权利要求1的防近视灯具，

其特征在于，

调光电路包括四个档位的开关SA，开关SA的第一档位为关灯，开关SA的第二档位通过电容C与红光光源(6)和绿光光源(7)连接，开关SA的第三档位通过二极管与红光光源(6)和绿光光源(7)连接，开关SA的第四档位与红光光源(6)和绿光光源(7)连接。

本文发布于:2024-09-23 10:16:04，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/69034.html