一种针对DNS数据预测的方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201911197916.X
(22)申请日 2019.11.29
(71)申请人 北京工业大学
地址 100124 北京市朝阳区平乐园100号
(72)发明人 黄韬 吉星 鄂新华 潘恬 杨帆 
谢人超 张娇 
(74)专利代理机构 北京思海天达知识产权代理
有限公司 11203
代理人 吴荫芳
(51)Int.Cl.
H04L  12/24(2006.01)
H04L  29/12(2006.01)
G06F  16/215(2019.01)
G06K  9/62(2006.01)
(54)发明名称
一种针对DNS数据预测的方法
(57)摘要
本发明公开一种针对DNS数据预测的方法,
所述方法包括以下步骤:(1)利用采集器等工具
对DNS服务器的日志数据进行收集;(2)对采集的
数据根据其特征值进行预处理;(3)根据相似度
把采集的数据进行降维处理;(4)把低维空间的
数据进行分类;(5)对分类过后的低维数据使用
回归进行预测;(6)收集预测结果分析走向。通过
对DNS服务器中查询日志信息进行提取与处理,
从而可以对网络流量以及网站安全做出预测。权利要求书1页  说明书4页  附图2页CN 110912749 A 2020.03.24
C N  110912749
A
1.一种针对DNS数据预测的方法,其特征在于,包括以下步骤:
利用采集器等工具对DNS服务器的日志数据进行收集;
对采集的数据根据其特征值进行预处理;
根据相似度把采集的数据进行降维处理;
把低维空间的数据进行分类;
对分类过后的低维数据使用回归进行预测;
收集预测结果分析走向。
2.根据权利要求1所述方法,其特征在于,采集的信息是DNS服务器的日志,其中包括启动、重启、关闭、输出日志、报文信息。
3.根据权利要求1所述方法,其特征在于,数据预处理操作包括:
数据包括;源IP单位时间内的DNS请求次数、DNS请求次数的峰值、DNS请求失败的比例、源端口的信息熵、域名种类的信息熵、域名种类数峰值、非法域名的比例、异常包的比例、服务器拒绝服务率;其中,数据预处理过程依次包括规范化与归一化处理;对于特征属性的实际最小值和最大值未知的情况,采用标准分数进行标准化化处理;随后再对所有数据进行归一化处理。
4.根据权利要求1所述方法,其特征在于,对数据的降维操作过程包括:采用条件概率代替欧氏距离来表示高维空间映射到低维空间的相似性,考虑两点的对称性,在原高维空间用高斯核函数度量了两两点之间的相似度,在映射后低维空间使用t分布度量两两点之间的相似度,最后用梯度下降法最小化平均KL散度,得到梯度,至此,数据实现降维。
5.根据权利要求1所述方法,其特征在于,对低维数据的分类操作过程包括:分类操作为划分数据的界限,把不同特征的数据划分开,具体的操作过程为给出所有的低维数据和其对应的分类标记,如果数据线性可分,那就直接出其超平面,如果线性不可分,那就映射到n+1维空间,出超平面。
6.根据权利要求1所述方法,其特征在于,对数据使用回归进行预测过程包括:首先对分类后数据进行构建树,到数据的最佳待切分特征,判断其是否可以切分,若果不可切分,则设定为叶子节点,若可以切分,则按照最佳待切分特征将数据集切分成左右子树,然后对左右子树进行构造树;
其中,出最佳切分特征的过程为,计算每次对于数据切分的误差,如果当前误差小于当前最小误差,那么将当前切分设定为最佳切分并更新最小值;
基于回归树进行预测的过程为,判断当前的回归树是否为叶子节点,如果是则进行预测,如果不是,将测试数据相应特征上的特征值与当前回归树进行比较,如果测试数据特征值大,那么就判断当前的回归树的左右子树是否为叶子节点,如果是则进行预测,如果不是则从左右子树开始回归预测。
权 利 要 求 书1/1页CN 110912749 A
一种针对DNS数据预测的方法
技术领域
[0001]本发明属于计算机网络信息领域,具体的,本发明涉及一种针对DNS数据预测的方法。
背景技术
[0002]DNS(Domain Name Server,域名服务器)是进行域名(domain name)和与之相对应的IP地址(IP address)转换的服务器。DNS中保存了一张域名(domain name)和与之相对应的IP地址(IP address)的表,以解析消息的域名。在域名注册查询域名并购买了主机服务后,你需要将域名解析到所购买的主机上,才能看到网站内容。目前,存在在DNS网络中无法对网络流量以及网站安全做出预测的问题。
发明内容
[0003]针对上述技术问题,本发明的目的在于,提出了一种针对DNS数据预测的方法,可以对DNS数据收集、预处理、降维、分类、回归、预测分析。可以解决高维数据所带来的维数灾难问题,提高了分类回归树预测的准确性,从而可以分析网站流量去向以及网站安全性等方面。
[0004]一种针对DNS数据预测的方法,包括以下步骤:
[0005]利用采集器等工具对DNS服务器的日志数据进行收集;
[0006]对采集的数据根据其特征值进行预处理;
[0007]根据相似度把采集的数据进行降维处理;
[0008]把低维空间的数据进行分类;
[0009]对分类过后的低维数据使用回归进行预测;
[0010]收集预测结果分析走向。
[0011]作为优选,采集的信息是DNS服务器的日志,其中包括启动、重启、关闭、输出日志、报文信息。
[0012]作为优选,数据预处理操作包括:
[0013]数据包括;源IP单位时间内的DNS请求次数、DNS请求次数的峰值、DNS请求失败的比例、源端口的信息熵、域名种类的信息熵、域名种类数峰值、非法域名的比例、异常包的比例、服务器拒绝服务
率;其中,数据预处理过程依次包括规范化与归一化处理;对于特征属性的实际最小值和最大值未知的情况,采用标准分数进行标准化化处理;随后再对所有数据进行归一化处理。
[0014]作为优选,对数据的降维操作过程包括:采用条件概率代替欧氏距离来表示高维空间映射到低维空间的相似性,考虑两点的对称性,在原高维空间用高斯核函数度量了两两点之间的相似度,在映射后低维空间使用t分布度量两两点之间的相似度,最后用梯度下降法最小化平均KL散度,得到梯度,至此,数据实现降维。
[0015]作为优选,对低维数据的分类操作过程包括:分类操作为划分数据的界限,把不同
特征的数据划分开,具体的操作过程为给出所有的低维数据和其对应的分类标记,如果数据线性可分,那就直接出其超平面,如果线性不可分,那就映射到n+1维空间,出超平面。
[0016]作为优选,对数据使用回归进行预测过程包括:首先对分类后数据进行构建树,到数据的最佳待切分特征,判断其是否可以切分,若果不可切分,则设定为叶子节点,若可以切分,则按照最佳待切分特征将数据集切分成左右子树,然后对左右子树进行构造树;[0017]其中,出最佳切分特征的过程为,计算每次对于数据切分的误差,如果当前误差小于当前最小误差,那么将当前切分设定为最佳切分并更新最小值;
[0018]基于回归树进行预测的过程为,判断当前的回归树是否为叶子节点,如果是则进行预测,如果不是,将测试数据相应特征上的特征值与当前回归树进行比较,如果测试数据特征值大,那么就判断当前的回归树的左右子树是否为叶子节点,如果是则进行预测,如果不是则从左右子树开始回归预测。
[0019]通过本发明,一种针对DNS数据预测的方法,可以对处理后的数据进行降维,通过对低维数据进行分类,然后构造出回归进行预测,可以对户上网活跃性、以及安全方面进行分析。
附图说明
[0020]图1示出了依据本发明一实施方式的针对DNS数据预测的方法流程图
[0021]图2示出了依据本发明一实施方式的针对DNS数据预测的方法结构图
[0022]图3示出了依据本发明一实施方式的针对DNS数据预测的方法网络组织流程图
具体实施方式
[0023]下文为对本发明实施方式的详细描述,所述实施方式在附图中已标示出,所有附图中以相同或者类似的标号表示相同或类似的组件或具有相同功能或类似功能的组件。下面通过参考附图描述的实施方式使示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0024]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或“耦接”。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
[0025]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。[0026]如图1所示,本发明一实施方式一种针对DNS数据预测的方法:
[0027]101:利用采集器等工具对DNS服务器的日志数据进行收集;
[0028]102:对采集的数据根据其特征值进行预处理;
[0029]103:根据相似度把采集的数据进行降维处理;
[0030]104:把低维空间的数据进行分类;
[0031]105:对分类过后的低维数据使用回归进行预测;
[0032]106:收集预测结果分析走向。
[0033]在步骤101中,对日志数据进行采集包括:
[0034]采集的信息是DNS服务器的日志,其中包括启动、重启、关闭、输出日志、报文等信息。
[0035]在步骤102中,对数据的预处理操作过程包括:
[0036]DNS数据的属性包括IP单元时间、DNS请求从DNS查询时间、不寻常的包共享、DNS请求失败、源端口熵、域名、信息熵、域名峰值、非法域名次数百分比峰值、、服务器拒绝服务的比例。
[0037]DNS原始数据存在以下几个问题:数据的不一致、数据重复、含有噪声、数据维度高。对数据的预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
[0038]在步骤103中,对数据的降维操作过程包括:
[0039]采用条件概率代替欧氏距离来表示高维空间映射到低维空间的相似性,考虑两点的对称性,在原高维空间用高斯核函数度量了两两点之间的相似度,在映射后低维空间使用t分布度量两两点之间的相似度,最后用梯度下降法最小化平均KL散度,得到梯度,至此,数据实现降维。
[0040]在步骤104中,对低维数据的分类操作过程包括:
[0041]分类操作的目的是划分数据的界限,把不同特征的数据划分开,具体的操作过程为给出所有的低维数据和其对应的分类标记,如果数据线性可分,那就直接出其超平面,如果线性不可分,那就映射到n+1维空间,出超平面,至此,可以得到超平面的表达式,也就是分类函数。低维数据得以分类。
[0042]在步骤105中,对数据使用回归进行预测过程包括:
[0043]首先对分类后数据进行构建树,到数据的最佳待切分特征,判断其是否可以切分,若果不可切分,则设定为叶子节点,若可以切分,则按照最佳待切分特征将数据集切分成左右子树,然后对左右子树进行构造树。
[0044]其中,出最佳切分特征的过程为,计算每次对于数据切分的误差,如果当前误差小于当前最小误差,那么将当前切分设定为最佳切分并更新最小值。
[0045]其次,基于回归树进行预测的过程为,判断当前的回归树是否为叶子节点,如果是则进行预测,如果不是,将测试数据相应特征上的特征值与当前回归树进行比较,如果测试数据特征值大,那么就判断当前的回归树的左右子树是否为叶子节点,如果是则进行预测,如果不是则从左右子树开始回归预测。
[0046]在步骤106中,预测结果分析过程包括:
[0047]预测包括预测网站用户活跃量、网站的安全性,通过回归对分类处理的低维数据进行预测,分析对于广告的使用以及安全方面有着重要的作用。
[0048]图2示出了依据本发明一实施方式的针对DNS数据预测的方法结构图,其中采集DNS服务器数据是对DNS服务器的日志,其中包括启动、重启、关闭、输出日志、报文等信息的

本文发布于:2024-09-23 06:29:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/764539.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   进行   预测   包括   分类
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议