一种基于异常WHOIS信息的非法网站挖掘方法

著录项
  • CN201711471406.8
  • 20171229
  • CN108111526A
  • 20180601
  • 哈尔滨工业大学(威海)
  • 张兆心;吴晓宝;许海燕;程亚楠;叶燕如;陆柯羽
  • H04L29/06
  • H04L29/06 H04L12/26 H04L29/12

  • 山东省威海市文化西路2号
  • 山东(37)
  • 北京怡丰知识产权代理有限公司
  • 唐晓刚
摘要
本发明提供一种基于异常WHOIS信息的非法网站挖掘方法,其解决了现有非法网站挖掘方法的挖掘范围小、效率低和准确性差的技术问题。包括步骤如下:步骤1,准备一份非法域名的恶意关键词库的源数据、一份作为基础数据的中国未知域名;步骤2,提取中国未知域名的WHOIS信息,解析出WHOIS信息中各地理源的地理位置,筛选出异常域名集;步骤3,对异常域名集进行在线检测,筛选出WEB可访问域名集;步骤4,对WEB可访问域名集进行恶意性检测,筛选出具有恶意域名集;步骤5,对恶意域名集进行WHOIS反查,得到未检测的反查域名集;步骤6,从反查域名集中提取出新的关键信息,重复步骤3?5。本发明可广泛应用于信息技术领域。
权利要求

1.一种基于异常WHOIS信息的非法网站挖掘方法,其特征是,包括步骤如下:

步骤1,准备一份用已知的非法域名构造的恶意关键词库的源数据、一份作为基础数据 的中国未知域名;

步骤2,提取中国未知域名的WHOIS信息,解析出WHOIS信息中各地理源的地理位置,并 对地理位置的一致性进行交叉验证,筛选出异常域名,形成异常域名集;

步骤3,对异常域名集进行在线检测,筛选出WEB可访问域名集;

步骤4,对WEB可访问域名集进行恶意性检测,筛选出具有恶意域名,得到恶意域名集;

步骤5,对恶意域名集进行关键信息的WHOIS反查,关键信息包括注册者、注册电话和注 册邮箱;去除已检测域名及重复域名,得到未检测的反查域名集;

步骤6,从未检测的反查域名集中提取出未反查过的新的关键信息,重复步骤3-5,直到 无新的关键信息反查为止。

2.根据权利要求1所述的基于异常WHOIS信息的非法网站挖掘方法,其特征在于,所述 步骤2中,各地理源为WHOIS注册地理、注册邮编和注册电话。

3.根据权利要求2所述的基于异常WHOIS信息的非法网站挖掘方法,其特征在于,所述 步骤2中,解析方法包括:

对于所述WHOIS注册地理的解析方法,若WHOIS信息中注册省份或注册城市为空的域 名,则直接归为异常域名;否则,从中国省份名称与拼音对照表中查与注册省份相同的拼 音对应的省份,若不到,则归为异常域名,否则,从中国城市名称与拼音对照表中查与 注册城相同的拼音对应的城市,若不到,则归为异常域名,否则,表示解析成功;

对于所述注册邮编的解析方法,若WHOIS信息中注册邮编为空,则直接归为异常域名, 否则,从邮编与省市对照表中查对应邮编的省份和城市,若不到,归为异常域名,否则, 表示解析成功;

对于所述注册电话的解析方法,通过固话、手机号码中蕴含地理信息的字符序列到 其注册电话对应的省份和城市,若可以到且满足电话长度要求,表示解析成功,否则,归 为异常域名,解析失败。

4.根据权利要求2所述的基于异常WHOIS信息的非法网站挖掘方法,其特征在于,所述 步骤2中,所述交叉验证包括单源异常验证、多源交叉验证;所述单源异常验证是指,将所述 各地理源中有解析失败的域名归为异常域名;所述多源交叉验证是指,在单源异常验证的 基础上,对比三个解析出来的地理位置是否完全一致,将不完全一致的域名归为异常域名。

5.根据权利要求1所述的基于异常WHOIS信息的非法网站挖掘方法,其特征在于,所述 步骤3中,在线检测的步骤为:

a.获取所述异常域名集的A记录信息,若域名无A记录信息,则将该域名标记为未建站 域名,否则,转步骤b;

b.获取域名A记录中的IP,向该网站发出HTTP请求,若HTTP码为’2’或’3’开头的响应 码,则将该域名标记为WEB可访问域名;否则,将该域名标记为WEB不可访问域名。

6.根据权利要求1所述的基于异常WHOIS信息的非法网站挖掘方法,其特征在于,所述 步骤4中,恶意性检测的步骤为:

1)获取网站的页面文本信息,并与所述恶意关键词库中的恶意关键词进行匹配,累计 匹配到的恶意关键词的权重,若累计权重超过事先设定的阈值时,将域名标记为恶意域名; 反之,则将该域名标记为合法域名;

2)通过第三方恶意域名检测接口对所述恶意域名进行二次验证,筛选掉检测为合法的 域名。

7.根据权利要求6所述的基于异常WHOIS信息的非法网站挖掘方法,其特征在于,所述 步骤5中,反查是指,查询出由该恶意域名的注册者、注册邮箱或注册电话所注册的其他域 名,并进行恶意性检测确定其恶意性。

说明书
技术领域

本发明涉及一种非法网站挖掘方法,特别是涉及一种基于异常WHOIS信息的非法 网站挖掘方法。

互联网的不断发展以及网络业务的迅速增长,对个人生活方式的影响进一步深 化。伴随着互联网速度激增的同时,互联网安全形式也越来越受到人们重视。

目前,网站的安全性尤为突出,网络、赌博、淫秽情等非法网站屡禁不止,给 国家安全、社会稳定和人民财产安全带来重大影响。非法网站的检测和挖掘技术是防御网 络攻击的核心技术,利用这些技术尽快的发现非法域名,及时对其进行管控,缩短其在网络 中的流通时间,从而降低其所造成的威胁。

传统的非法域名挖掘技术,是从一堆未知的域名里面发现非法域名,挖掘范围小, 挖掘效率低,准确性差。

本发明针对现有非法网站挖掘方法的挖掘范围小、效率低和准确性差的技术问 题,提供一种挖掘范围大、效率高和准确性好的基于异常WHOIS信息的非法网站挖掘方法。

为此,本发明的技术方案是,包括步骤如下:

步骤1,准备一份用已知的非法域名构造的恶意关键词库的源数据、一份作为基础 数据的中国未知域名;

步骤2,提取中国未知域名的WHOIS信息,解析出WHOIS信息中各地理源的地理位 置,并对地理位置的一致性进行交叉验证,筛选出异常域名,形成异常域名集;

步骤3,对异常域名集进行在线检测,筛选出WEB可访问域名集;

步骤4,对WEB可访问域名集进行恶意性检测,筛选出具有恶意域名,得到恶意域名 集;

步骤5,对恶意域名集进行关键信息的WHOIS反查,关键信息包括注册者、注册电话 和注册邮箱;去除已检测域名及重复域名,得到未检测的反查域名集;

步骤6,从未检测的反查域名集中提取出未反查过的新的关键信息,重复步骤3-5, 直到无新的关键信息反查为止。

优选地,步骤2中,各地理源为WHOIS注册地理、注册邮编和注册电话。

优选地,步骤2中,解析方法包括:

对于WHOIS注册地理的解析方法,若WHOIS信息中注册省份或注册城市为空的域 名,则直接归为异常域名;否则,从中国省份名称与拼音对照表中查与注册省份相同的拼 音对应的省份(汉字),若不到,则归为异常域名,否则,从中国城市名称与拼音对照表中 查与注册城相同的拼音对应的城市(汉字),若不到,则归为异常域名,否则,表示解析 成功;

对于注册邮编的解析方法,若WHOIS信息中注册邮编为空,则直接归为异常域名, 否则,从邮编与省市对照表中查对应邮编的省份和城市,若不到,归为异常域名,否则, 表示解析成功;

对于注册电话的解析方法,通过固话、手机号码中蕴含地理信息的字符序列到 其注册电话对应的省份和城市,若可以到且满足电话长度要求,表示解析成功,否则,归 为异常域名,解析失败。

优选地,步骤2中,交叉验证包括单源异常验证、多源交叉验证,单源异常验证是 指,将各地理源中有解析失败的域名归为异常域名;多源交叉验证是指,在单源异常验证的 基础上,对比三个解析出来的地理位置是否完全一致,将不完全一致的域名归为异常域名。

优选地,步骤3中,在线检测的步骤为:

a.获取异常域名集的A记录信息,若域名无A记录信息,则将该域名标记为未建站 域名,否则,转步骤b;

b.获取域名A记录中的IP,向该网站发出HTTP请求,若HTTP码为’2’或’3’开头的响 应码,则将该域名标记为WEB可访问域名;否则,将该域名标记为WEB不可访问域名。

优选地,步骤4中,恶意性检测的步骤为:

1)获取网站的页面文本信息,并与恶意关键词库中的恶意关键词进行匹配,累计 匹配到的恶意关键词的权重,若累计权重超过事先设定的阈值时,将域名标记为恶意域名; 反之,则将该域名标记为合法域名;

2)通过第三方恶意域名检测接口对恶意域名进行二次验证,筛选掉检测为合法的 域名。

优选地,步骤5中,反查是指,查询出由该恶意域名的注册者、注册邮箱或注册电话 所注册的其他域名,并进行恶意性检测确定其恶意性。

本发明所提供的非法网站挖掘方法可以高效地、准确地挖掘非法网站;首先用已 知的非法域名构造基于关键词匹配的恶意关键词库,再提取大量中国未知域名的WHOIS信 息,筛选出地理信息异常的域名,再经过域名在线检测筛选出WEB可访问域名,极大的缩小 了恶意域名检测范围,提高了挖掘效率。最后通过基于恶意关键词匹配的非法域名检测方 法结合第三方非法域名检测接口,以简便的方法逐步缩小恶意域名的范围,相比初始时海 量的域名,只需检测较小部分极有可能为恶意域名的域名即可,大大地加快了检测的效率, 从而实现非法域名的高效挖掘。此外,为提高非法域名的挖掘范围,对于已挖掘的非法域名 进行基于WHOIS关键信息的反查,进一步挖掘更多的非法域名,实现高效地、准确地、大范围 地挖掘非法网站。

图1是基于异常WHOIS信息的非法网站挖掘方法的数据流图;

图2是基于异常WHOIS信息的非法网站挖掘方法的流程图;

图3是基于非法域名WHOIS关键信息反查的非法域名挖掘方法的示意图;

图4是检测域名WHOIS地理异常的示意图。

下面结合实施例对本发明做进一步描述。

如图1所示,基于异常WHOIS信息的非法网站的挖掘过程是:从最初的海量中国域 名集,通过异常检测缩减为大量的异常域名集,再通过在线域名检测筛选掉WEB不可访问的 域名,进而缩减为中等规模WEB可访问域名集,最后域名的恶意性检测,从WEB可访问域名集 中挖掘出较大一部分非法域名。

如图2所示,单个域名基于异常WHOIS信息进行非法域名挖掘方法,步骤如下:

第一步,获取域名的WHOIS信息,并提取出三个地理源信息(WHOIS注册地理、注册 邮编、注册电话);

第二步,解析三个地理源信息,若该域名的三个地理源解析中有一个地理源解析 失败,则将该域名添加到异常域名集中,继续下一步;否则,若三个地理源均解析成功且解 析得到的三个地理位置不完全一致,则亦将该域名添加到异常域名集中,继续下一步,否 则,该域名视为良性域名,算法结束;

第三步,对异常域名集进行在线检测,并判断域名是否为WEB可访问域名:

a.获取异常域名集的A记录信息,若域名无A记录信息,则将该域名标记为未建站 域名,否则,转步骤b;

b.获取域名A记录中的IP,向该网站发出HTTP请求,若HTTP码为’2’或’3’开头的响 应码,则将该域名标记为WEB可访问域名;否则,将该域名标记为WEB不可访问域名。

若该域名为WEB不可访问域名,则将算法结束,否则,继续下一步;

第四步,检测该域名是否具有恶意性:

恶意性检测的步骤为:

1)基于恶意关键词的恶意性检测,具体描述为,根据已知的非法域名列表获取网 站的关键词信息并记录词频,依据非法网站中出现的频数及人为划分的恶意等级给每个恶 意关键词设置了相应的权值,将恶意关键词与其对应的权重存储到词库中,在检测域名恶 意性时,获取网站的页面文本信息与恶意关键词库中的恶意关键词进行匹配,累计匹配到 的恶意关键词的权重,若累计权重超过事先设定的阈值时,将域名标记为恶意域名;反之, 则将该域名标记为合法域名;

2)上述的检测召回率极高,但误判度也偏高,故在上述检测之后,通过第三方恶意 域名检测接口对恶意域名进行二次验证,筛选掉检测为合法的域名。经过基于关键词匹配 的恶意性检测及第三方接口的再次验证,准确度得到大幅度提高。

若无,则算法结束,否则,继续下一步;

第五步,将检测出恶意性的域名添加到已挖掘的非法域名集中,并提取出该域名 的WHOIS关键信息(注册者、注册邮箱、注册电话);

第六步,判断是否存在于已访问域名集的WHOIS关键信息中,若存在,则算法结束, 否则,通过该关键信息进行WHOIS反查获取新域名,转至第三步。

如图3所示,第六步中WHOIS反查:

首先,从WHOIS信息中提取出WHOIS关键信息(注册者、注册电话、注册邮箱);然后 分别进行基于注册者、注册电话、注册邮箱的WHOIS反查,获得由同一个注册者/注册电话/ 注册邮箱所注册的其他域名,然后检测反查出的域名是否具有恶意性,若有,将其添加到非 法域名集中,实现了非法域名挖掘方法在挖掘非法域名的规模和范围上的扩展。

如图4所示,第二步中WHOIS地理信息的解析,具体为:

1)提取WHOIS信息中WHOIS注册省份、WHOIS注册城市、注册邮编、注册电话;

2)WHOIS注册省份和WHOIS注册城市标记为地理源1,注册邮编、注册电话分别标记 为地理源2、地理源3;

3)对于地理源1,若WHOIS注册省份或WHOIS注册城市字段为空,则表示地理源1解 析失败,否则,查询中国地图中已标注的省份和城市的拼音与汉字的映射表,若注册省份与 注册城市均可查询出映射到地图标注省市的汉字,表示地理源1解析成功,否则表示地理源 1解析失败;对于地理源2,查询邮编与地理位置相对应的映射库,若未查询到或注册邮编为 空,表示地理源2解析失败,否则表示地理源2解析成功;对于地理源3,根据注册电话中蕴含 的地理信息数字序列,查询出数字序列与之对应的省份和城市,其中注册电话分为两种:固 话和手机号码,固话可以通过前三或四位数字可以查询出地理位置,手机号码可以根据前 七位确定地理位置。同时还需要满足所对应电话位数,如个人固话一般是11位或12位,个人 手机号码则是11位。若既可以查询出省份和城市又符合电话长度规则的注册电话则表示地 理源3成功解析,否则地理源3解析失败;

4)对于上述三个地理源解析,若有一个解析失败,则将域名添加到异常域名集合 中,若三个地理源均解析成功且三个地理位置不完全一致,则亦将域名添加到异常域名集 合中。

本发明所提供的非法网站挖掘方法可以高效地、准确地挖掘非法网站;首先用已 知的非法域名构造基于关键词匹配的恶意关键词库,再提取大量中国未知域名的WHOIS信 息,筛选出地理信息异常的域名,再经过域名在线检测筛选出WEB可访问域名,极大的缩小 了恶意域名检测范围,提高了挖掘效率。最后通过基于恶意关键词匹配的非法域名检测方 法结合第三方非法域名检测接口,以简便的方法逐步缩小恶意域名的范围,相比初始时海 量的域名,只需检测较小部分极有可能为恶意域名的域名即可,大大地加快了检测的效率, 从而实现非法域名的高效挖掘。此外,为提高非法域名的挖掘范围,对于已挖掘的非法域名 进行基于WHOIS关键信息的反查,进一步挖掘更多的非法域名,实现高效地、准确地、大范围 地挖掘非法网站。

惟以上所述者,仅为本发明的具体实施例而已,当不能以此限定本发明实施的范 围,故其等同组件的置换,或依本发明专利保护范围所作的等同变化与修改,皆应仍属本发 明权利要求书涵盖之范畴。

本文发布于:2024-09-22 10:34:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/75423.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议