首页 > 专利技术

一种基于改进textCNN模型的文本分类方法、装置及存储介质[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201811572759.1

(22)申请日 2018.12.21

(71)申请人厦门市美亚柏科信息股份有限公司

地址 361000 福建省厦门市软件园二期观

日路12号102-402单元

(72)发明人马涛　栾江霞　章正道　俞碧洪　

徐晓文　

(74)专利代理机构厦门福贝知识产权代理事务

所(普通合伙) 35235

代理人郝学江

(51)Int.Cl.

G06F 16/35(2019.01)

G06N 3/04(2006.01)

G06N 3/08(2006.01)

(54)发明名称一种基于改进textCNN模型的文本分类方法、装置及存储介质(57)摘要本发明提供了一种基于改进textCNN模型的文本分类方法、装置及存储介质。该方法包括：训练步骤，使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型；文本分类步骤，使用训练后的改进textCNN模型对待分类的文本进行分类。本发明通过对传统的textCNN 模型进行改进得到改进textCNN模型的文本分类算法，由于预训练了词嵌入层，使得训练阶段的训练时间和计算量大大减少；由于加深了卷积层的深度以及增加了批归一化层，使得分类准确率较大提高，更加适用于对样本实时性要求(即要根据新样本较频繁的更新模型)和分类准确率都要求较高的场景，如互联网舆情的文本分类等

等。权利要求书3页说明书8页附图4页CN 109918497 A 2019.06.21

C N 109918497

1.一种基于改进textCNN模型的文本分类方法，其特征在于，该方法包括：

训练步骤，使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型；

文本分类步骤，使用训练后的改进textCNN模型对待分类的文本进行分类。

2.根据权利要求1所述的方法，其特征在于，所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层，所述词嵌入层的输入与所述输入层的输出连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理，输入都与所述词嵌入层的输出相连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接，所述Concat层的输出与所述Dropout层相连接，所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接，所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。

3.根据权利要求2所述的方法，其特征在于，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块中卷积核的步长均不相同，用于分别捕捉不同步长的局部特征；所述第一卷积模块包括依次连接

的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层；所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层；所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层；所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。

4.根据权利要求1所述的方法，其特征在于，所述训练步骤的操作包括：

对已标注的样本文本进行预处理，结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合，统计样本文本中每篇文本的长度，结合平均长度及经验确定一个文本的统一长度，对于过长的文本做截断，对于过短的文本做补齐；

对词向量训练语料进行分词、去停用词预处理，并运用word2vec中的skip-gram模型训练，得到训练好的维度为256的词向量；

将已预处理好的样本文本与训练好的词向量结合，得到文本的特征矩阵，并将其按照一定比例划分为训练集与测试集；

将训练集输入到初始权重的改进textCNN模型中，采用多元交叉熵定义为损失函数，使用RMSProp优化器自适应改变学习率，训练得到训练好的改进textCNN模型；

将测试集输入到训练好的改进textCNN模型，得到测试集的分类结果，与测试集标签对比计算出预测的准确率，并通过反复调节超参数、优化预处理过程，使改进textCNN分类模型预测准确率达到最优，此时的改进textCNN分类为训练后的改进textCNN分类。

5.根据权利要求4所述的方法，其特征在于，所述文本分类步骤的操作包括：

将待分类的文本进行预处理，结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合；

加载已经训练好的词向量模型文件得到词向量，运用词向量将预处理后的文本表示成为文本特征向量矩阵；

加载已经训练后的改进textCNN模型，将文本特征向量输入所述改进textCNN模型，进行预测得到该文本的分类结果。

6.一种基于改进textCNN模型的文本分类装置，其特征在于，该装置包括：

训练单元，使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型；

文本分类单元，使用训练后的改进textCNN模型对待分类的文本进行分类。

7.根据权利要求6所述的装置，其特征在于，所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层，所述词嵌入层的输入与所述输入层的输出连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理，输入都与所述词嵌入层的输出相连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接，所述Concat层的输出与所述Dropout层相连接，所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接，所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。

8.根据权利要求7所述的装置，其特征在于，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块中卷积核的步长均不相同，用于分别捕捉不同步长的局部特征；所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层；所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层；所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层；所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。

9.根据权利要求6所述的装置，其特征在于，所述训练单元执行的操作包括：

对词向量训练语料进行分词、去停用词预处理，并运用word2vec中的skip-gram模型训练，得到训练好的维度为256的词向量；

将已预处理好的样本文本与训练好的词向量结合，得到文本的特征矩阵，并将其按照一定比例划分为训练集与测试集；

将训练集输入到初始权重的改进textCNN模型中，采用多元交叉熵定义为损失函数，使用RMSProp优化器自适应改变学习率，训练得到训练好的改进textCNN模型；

10.根据权利要求9所述的装置，其特征在于，所述文本分类单元执行的操作包括：

将待分类的文本进行预处理，结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合；

加载已经训练好的词向量模型文件得到词向量，运用词向量将预处理后的文本表示成为文本特征向量矩阵；

加载已经训练后的改进textCNN模型，将文本特征向量输入所述改进textCNN模型，进行预测得到该文本的分类结果。

11.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。

一种基于改进textCNN模型的文本分类方法、装置及存储介质

技术领域

[0001]本发明涉及数据处理技术领域，特别是一种基于改进textCNN模型的文本分类方法、装置及存储介质。

背景技术

[0002]爆发式增长的网络数据对数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术，通过相应的技术和方法对文本的语义内容进行抽取，进而对文本进行分类聚类等一系列操作，主要用于商品推荐，舆情分析，文本搜索等领域。

[0003]在舆情分析中，需要对网络中舆情在不同的主题下进行整理和分析，例如对采集到的文本进行文本分类，自动识别出用户感兴趣的文本，过滤掉用户不感兴趣的垃圾文本。为此，对于采集到的文本进行文本自动分类是舆情分析中一个相对重要的环节。

[0004]基于传统的向量空间模型的文本分类算法，无法对词的语序进行时序建模，也无法对不同的词之间进行语义建模，因此得到的分类效果并不理想。基于深度学习的文本分类算法，由于不必过多的进行繁琐的特征工程环节，也能很好的对语序和语义进行建模，取得的分类效果远超基于向量空间模型，因此现在基于深度学习的文本分类算法成为主流。但是，在舆情分析领域，分类的类别和样本都具有很强的时效性，类别会根据舆情需求频繁变化，样本会随着时间推移产生新的舆情热点，因此需要较为频繁的更新与迭代模型。基于RNN的文本分类算法由于计算量巨大导致训练和预测时间变长，在舆情场景下，频繁的更新和迭代模型会造成计算资源的巨大浪费。

发明内容

[0005]本发明针对上述现有技术中的缺陷，提出了如下技术方案。

[0006]一种基于改进textCNN模型的文本分类方法，该方法包括：

[0007]训练步骤，使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN 模型；

[0008]文本分类步骤，使用训练后的改进textCNN模型对待分类的文本进行分类。

[0009]更进一步地，所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层，所述词嵌入层的输入与所述输入层的输出连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理，输入都与所述词嵌入层的输出相连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接，所述Concat层的输出与所述Dropout层相连接，所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接，所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。

[0010]更进一步地，所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层；所

说　明　书1/8页CN 109918497 A

本文发布于:2024-09-21 12:24:18，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/416110.html

上一篇：基于噪声测井的流体流量的确定方法、装置、设备及介质[发明专利]

下一篇：一种航空发动机盘类零件在位裂纹检测方法[发明专利]