一种DPI数据分类方法及系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910724880.X
(22)申请日 2019.08.07
(71)申请人 北京智数时空科技有限公司
地址 100029 北京市西城区裕民东路5号瑞
得大厦7层710
(72)发明人 王峰 高兆庆 戴吉秋 林志生 
路国平 
(51)Int.Cl.
G06F  16/35(2019.01)
G06F  16/955(2019.01)
G06K  9/62(2006.01)
G06F  17/27(2006.01)
(54)发明名称
一种DPI数据分类方法及系统
(57)摘要
本发明提供了一种DPI数据分类方法及系
统。本发明提供的DPI数据分类方法包含N -gram
特征向量生成,语义特征向量生成和基于不同特
征表示的协同训练。本发明提出的DPI数据分类
系统,包含数据预处理模块、分类模型协同训练
模块以及分类结果预测模块。本发明提供的DPI
数据分类方法及系统,可以在仅有少量标注数据
的条件下,借助大量未标注数据实现DPI数据分
类,降低人工标注成本的同时,提高DPI数据分类
效果。权利要求书2页  说明书5页  附图1页CN 110427489 A 2019.11.08
C N  110427489
A
1.一种DPI数据分类方法,其特征在于,包括:
S1、根据DPI数据中的URL,生成URL的字符串N-gram特征向量;
S2、基于预先训练的词向量,根据DPI数据URL中出现的关键词,生成URL语义特征向量;
S3、根据字符串N-gram特征向量和语义特征向量,协同训练DPI数据分类模型,直至训练充分;
S4、基于协同训练的结果,训练最终DPI数据分类模型,使用最终模型对新输入的DPI数据进行分类。
2.根据权利要求1所述的一种DPI数据分类方法,其特征在于:S1包括,
S1a、基于统计URL中不同长度的N-gram个数,生成初始N-gram向量;
S1b、对初始向量进行修正,修正的方式包含通过对初始向量的线性归一化、每个N-gram在DPI数据中的IDF值或位置权重;
S1c、通过特征选择方法进行特征选择,得到最终的N-gram特征向量。
3.根据权利要求2所述的一种DPI数据分类方法,其特征在于:所述的 N-gram的长度范围根据经验进行预设。
4.根据权利要求1所述的一种DPI数据分类方法,其特征在于:S2包括,
S2a、通过语料库,训练得到预先训练词向量;
S2b、从URL中抽取每个URL中包含于预先训练词向量中的特征词;
S2c、基于特征词的词向量,获得URL语义特征向量。
5.根据权利要求1所述的一种DPI数据分类方法,其特征在于:S3包括,
S3a、 基于不同特征表示的,分别利用标注的样本集分别生成两类特征并各自训练分类器;
S3b、对无标记的数据进行标记预测,并选出置信度较高的样例添加至对方分类器的标记训练集中;
S3c、不断重复这个过程,直至所有的无标记数据都被标记或分类模型被充分训练后停止迭代。
6.根据权利要求1所述的一种DPI数据分类方法,其特征在于:S4包括,
S4a、使用扩充的标注数据和两个分类模型,训练最终分类模型;
S4b、使用最终模型对输入的DPI数据进行分类。
7.一种DPI数据分类系统,其特征在于,包括:
数据预处理单元,用于对DPI数据进行预处理,清洗无效的DPI数据;数据标注单元,用于对训练DPI数据中的少量数据进行标注; URL特征生成单元,用于构建URL字符串N-gram 特征和URL语义特征;
协同训练单元,用于基于少量标注的DPI数据和大量未标注的DPI数据,使用URL字符串N-gram特征和URL语义特征生成2个模型进行协同训练,并扩充标注数据集;
DPI数据分类模型训练单元,用于使用协同训练生成的2个模型和扩充的数据集,训练最终DPI数据分类模型;
DPI数据分类单元,用于使用训练完毕的DPI数据分类模型,对新输入的DPI数据进行分类。
8.根据权利要求7所述的一种DPI数据分类系统,其特征在于,所述数据预处理单元包
含字段缺失数据或不能体现用户行为的css, js, gif链接。
9.根据权利要求7所述的一种DPI数据分类系统,其特征在于,所述标注的方式为采集典型网站的URL或人工标注。
10.根据权利要求7所述的一种DPI数据分类系统,其特征在于,所述的URL字符串N-gram特征为URL中多个连续字符的出现、次数及其位置中体现出的特征,所述URL语义特征为URL中出现的词通过词向量所体现出的语义特征。
一种DPI数据分类方法及系统
技术领域
[0001]本发明涉及数据挖掘领域,特别是指一种DPI数据分类方法及系统。。
背景技术
[0002]随着大数据的蓬勃发展,针对获得的海量DPI数据,各大电信运营商的大数据研发团队对此进行了不同程度的深入挖掘研究,其中涉及的关键技术有URL分类和文本分类。[0003]对于海量的DPI数据分类,单独使用URL分类或文本分类,都存在较为明显的缺陷。鉴于此,最新的DPI数据分类选择基于URL分类算法和文本分类算法相结合的DPI数据分类方法,实现对超大规模的用户上网记录实时、高效、准确地分类。
[0004]DPI数据分类的传统方法是根据URL中的不同字段设计不同的逻辑进行分类。这一类方法分类过程中分析工作繁琐,分析主要依赖人工,自动化程度低。
[0005]最新的一种典型借助机器学习技术进行DPI数据分类方法流程中,先基于URL分类器对DPI数据进行分类,若URL分类器对待分类的DPI数据中的URL分类成功,则直接返回分类结果;若分类失败,则提取该DPI数据中的URL对应的网页正文,然后用文本分类器对其进行分类。这一类方法,对文本分类的过程中,为保证模型分类效果,需要大量的标注样本,人工标注成本巨大。而且,分类过程中需要爬取DPI数据所对应的网页内容,也会影响效率,增加成本。。
发明内容
[0006]本发明的目的在于解决在现有的DPI分类技术中对人工标注数据和人工设计逻辑的需求造成的人工成本较大,提供一种保证分类效果的同时,减少对标注数据的需求,降低人工成本的DPI数据分类方法及系统。其中,包括一下步骤:
第一步S1,根据DPI数据中的URL,生成URL的字符串N-gram特征向量;
第二步S2,基于预先训练的词向量,根据DPI数据URL中出现的关键词,生成URL语义特征向量;
第三步S3,根据字符串N-gram特征向量和语义特征向量,协同训练DPI数据分类模型,直至训练充分;
第四步S4,基于协同训练的结果,训练最终DPI数据分类模型,使用最终模型对新输入的DPI数据进行
分类。
[0007]第一步S1进一步包括以下步骤:
S1a:基于统计URL中不同长度的N-gram个数,生成初始N-gram向量。
[0008]S1b:对初始向量进行修正,修正的方式包含但不限于通过对初始向量的线性归一化、每个N-gram在DPI数据中的IDF值或位置权重。
[0009]S1c:通过特征选择方法进行特征选择,得到最终的N-gram特征向量。
[0010]第一步S1a中所述的 N-gram的长度范围根据经验进行预设。
[0011]第二步S2进一步包括以下步骤:
S2a:通过语料库,训练得到预先训练词向量;
S2b:从URL中抽取每个URL中包含于预先训练词向量中的特征词;
S2c:基于特征词的词向量,获得URL语义特征向量。
[0012]第三步S3进一步包括以下步骤:
S3a:基于不同特征表示的,分别利用标注的样本集分别生成两类特征并各自训练分类器;
S3b:对无标记的数据进行标记预测,并选出置信度较高的样例添加至对方分类器的标记训练集中;
S3c:不断重复这个过程,直至所有的无标记数据都被标记或分类模型被充分训练后停止迭代。
[0013]第四步S4进一步包括:
S4a:使用扩充的标注数据和两个分类模型,训练最终分类模型;
S4b:使用最终模型对输入的DPI数据进行分类。
[0014]一种DPI数据分类系统,其特征在于,包括:数据预处理单元,用于对DPI数据进行预处理,清洗无效的DPI数据;数据标注单元,用于对训练DPI数据中的少量数据进行标注; URL特征生成单元,用于构建URL字符串N-gram特征和URL语义特征;协同训练单元,用于基于少量标注的DPI数据和大量未标注的DPI数据,使用URL字符串N-gram特征和URL语义特征生成2个模型进行协同训练,并扩充标注数据集;DPI数据分类模型训练单元,用于使用协同训练生成的2个模型和扩充的数据集,训练最终DPI数据分类模型;DPI数据分类单元,用于使用训练完毕的DPI数据分类模型,对新输入的DPI数据进行分类。
[0015]所述数据预处理单元包含但不限于字段缺失数据或不能体现用户行为的css, js, gif链接。
[0016]进所述标注的方式为但不限于采集典型网站的URL或人工标注。
[0017]所述的URL字符串N-gram特征为URL中多个连续字符的出现、次数及其位置中体现出的特征,所述URL语义特征为URL中出现的词通过词向量所体现出的语义特征。[0018]本发明的有益效果:
本发明通过借助大量未标注的DPI数据,基于少量的人工标注,通过协同训练扩充数据集,在保证分类效果的同时,减少对标注数据的需求,降低人工成本。
[0019]本发明所提出的DPI数据分类方法及系统,可以用于以DPI数据分类为基础的用户行为分类等多种应用产品。只需要少量标注,就可以自动训练模型完成分类任务。本发明所提出的DPI数据分类方法及系统,可以用于钓鱼网站等异常URL的检测。
附图说明
[0020]图1为本发明的一种DPI数据分类方法的步骤图
图2为本发明的一种DPI数据分类系统结构图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施方式中的技术方案进行清楚、完整的描述。

本文发布于:2024-09-22 16:51:45,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/401587.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   分类   训练
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议