...互联网流量中提取手机号码的方法V1.0[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201610216244.2
(22)申请日 2016.04.05
(71)申请人 王攀
地址 210000 江苏省南京市鼓楼区新模范
马路66号南邮大厦1201室
(72)发明人 王攀 
(51)Int.Cl.
H04L  12/26(2006.01)
H04W  24/08(2009.01)
(54)发明名称一种基于DPI的固定宽带互联网流量中提取手机号码的方法V1.0(57)摘要本发明涉及网络安全审计和流量经营领域。本发明公开了一种基于深度报文检测技术的固网宽带流量中提取用户手机号码的方法。固网宽带并不提供信令通道传送用户的手机号码,因此无法通过传统的信令分析手段获取,运营商或安全部门只能采用人工的方式进行问询,这种方式效率低下、真实性无法保障,为实际的安全审计和运营商流量经营工作带来了很大的困扰。然而越来越多的移动终端通过wifi接入固定宽带来获得移动互联网内容,且大量的移动互联网APP 会携带用户手机号码信息来访问移动互联网内容,本发明正是基于此发明了一种在固网宽带流量中借助深度报文检测技术获取用户手机号码。通过获得用户手机号码可以有效提升安全审计、
用户溯源的效率。权利要求书1页  说明书2页  附图1页CN 105959173 A 2016.09.21
C N  105959173
A
1.一种基于深度报文检测技术的固定宽带互联网流量中提取手机号码的方法,其特征在于:采用DPI深度报文检测技术,针对手机邮箱、电商APP等应用,研究其携带手机号码的行为特征,尤其是流量中的特征字符串,也即匹配规则,然后采用字符串特征匹配方法提取出相关手机号码。完成第一步的手机号码提取之后,还有一个重要的工作就是号码真伪挖掘过程,来验证该手机号码的准确性;该步骤主要通
过过滤常规的商业号码、特服号码、中介以及热线号码等,进一步通过和电商平台、外卖平台的联系人方式进行比对,提取出“一次挖掘”后的号码清单,再通过号码出现频度、手机终端所在位置的经纬度、出现时间分布和归属地等分析进行二次挖掘和验证,最终得到用户真实的手机号码。
2.根据权利要求1所述的(主题名称),其特征在于:完成第一步的手机号码提取之后,还有一个重要的工作就是号码真伪挖掘过程,来验证该手机号码的准确性;该步骤主要通过过滤常规的商业号码、特服号码、中介以及热线号码等,进一步通过和电商平台、外卖平台的联系人方式进行比对,提取出“一次挖掘”后的号码清单,再通过号码出现频度、手机终端所在位置的经纬度、出现时间分布和归属地等分析进行二次挖掘和验证,最终得到用户真实的手机号码。
权 利 要 求 书1/1页CN 105959173 A
一种基于DPI的固定宽带互联网流量中提取手机号码的方法V1.0
技术领域
[0001]本发明涉及网络安全审计和流量经营分析技术领域,特别是涉及通信网络运营商的安全审计和流量经营。
背景技术
[0002]传统的手机号码提取方法往往是基于网络信令协议规范进行信令协议分析获取相关的手机号码信息,然而,固定宽带互联网并不提供信令通道用于传送用户的手机号码,因此无法通过传统的信令分析手段获取用户手机号码。运营商或安全部门只能采用人工统计、电话问询或要求用户自觉提交等方式,这种方式效率低下、真实性无法保障,为实际的安全审计、用户溯源以及运营商流量经营工作带来了很大的困扰。随着家庭自建wifi、免费wifi的出现,越来越多的移动终端(尤其是手机终端)通过wifi接入固定宽带互联网来获得移动互联网内容,移动终端结合WiFi以其流动性、隐蔽性的特点,成为恶意信息传播、攻击的“地下交通站”,这为网络安全审计、用户追踪溯源以及运营商流量经营分析都带来了很大的困扰。此外,运营商在实施流量经营方面缺乏固网通道获取手机号码的手段,不实现这一技术的突破,运营商也无法深入了解和塑造家庭画像,进而对家庭用户实施精准的融合业务营销、异网用户策反等经营手段。
发明内容
[0003]为了克服上述现有技术的不足,本发明提供了一种基于深度报文检测技术的固定宽带互联网流量中提取手机号码的方法。
[0004]随着家庭自建wifi、企业wifi、免费wifi的出现,越来越多的移动终端(尤其是手机终端)通过wifi接入固定宽带互联网来获得移动互联网内容,且大量的移动互联网APP会携带用户手机号码信息来访问移动
互联网内容(比如用手机号码注册用户名、电商平台填写联系人等),这就为通信运营商到了一种在固定宽带网络中获取用户手机号码,尤其是异网手机用户号码的技术可行性。只要从用户通过手机终端访问移动互联网的内容流量中提取出手机号码,并进行“去伪存真”的挖掘,以保障用户号码的真实性和准确性,即可有效的解决该问题。
[0005]本发明所采用的技术方案是:采用DPI深度报文检测技术,针对手机邮箱、电商APP 等应用,研究其携带手机号码的行为特征,尤其是流量中的特征字符串,也即匹配规则,然后采用字符串特征匹配方法提取出相关手机号码。完成第一步的手机号码提取之后,还有一个重要的工作就是号码真伪挖掘过程,来验证该手机号码的准确性;该步骤主要通过过滤常规的商业号码、特服号码、中介以及热线号码等,进一步通过和电商平台、外卖平台的联系人方式进行比对,提取出“一次挖掘”后的号码清单,再通过号码出现频度、手机终端所在位置的经纬度、出现时间分布和归属地等分析进行二次挖掘和验证,最终得到用户真实的手机号码。
[0006]通过采用本方法,可以快速、准确、有效的提取固定宽带WiFi下的用户手机号码,
免除了传统手工、电话咨询或用户自觉提交等方法的不全面、不确定、不真实和效率底下的问题,大大提高了用户手机号码提取的效率。采用本方法之前,运营商或安全部门提取固定宽带WiFi下的用户手机号码可能需要1-2年的时间,且不能动态更新,准确率不足50%;采用本方法之后,仅需1个月时间,准确率高达90%以上。
[0007]本发明可广泛用于网络安全审计、用户追踪溯源、运营商流量经营的方面。以实现对目标用户的快速定位和追踪,并对运营商的家庭画像塑造、融合业务营销提供精准的数据支撑。
附图说明
[0008]附图为技术原理图
具体实施方式
[0009]具体实施方式如下:
[0010]第一步:手机号码提取过程,输出“准号码”清单。
[0011](1)通过采集镜像或分光过来的网络流量数据,即图中的IP分组,先进行协议分析,主要提取出HTTP报文,包括HTTP GET、HTTP POST和HTTP 200 OK报文。
[0012](2)为了获悉手机号码与家庭、商户、企业的关联关系,需要进行AAA帐号匹配,即获得(AAA帐号、IP地址、手机号码)的关联关系;
[0013](3)考虑到HTTP报文可采用不同的编码方式(如UTF-8等),对于后续规则匹配产生影响,需要对相关所采集到的报文进行统一的解码(比如统一为ASCII码);
[0014](4)特征字符串规则匹配。通过采用DPI深度报文检测技术将采集到的报文与手机号码报文特征库进行匹配,提取准号码清单,该清单包含时间戳、宽带帐号、手机号码、终端类型、应用类型等信息。
[0015]第二步:号码真伪挖掘过程,输出真实手机号码清单。
[0016](1)“伪号码”过滤。从报文中提取到的手机号码可能五花八门,需要过滤掉常规的“伪号码”,比如中介、商户、特服、热线等,这些号码来源于爬虫获取到的号码库;
[0017](2)真实号码场景匹配。电商平台、外卖平台以及其他物流平台所携带的联系人、相对可信度较高,针对此场景的号码匹配可以加强号码的真实度;
[0018](3)二次挖掘过程。剩下的号码清单还需要进一步通过用户行为规律的匹配进行真伪校验,这些行为规律包括号码出现的频度、号码出现的时间分布、号码出现的经纬度以及归属地等信息。
[0019](4)输出真实用户号码清单,包括宽带帐号、手机号码、终端类型等信息。

本文发布于:2024-09-22 13:20:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/434133.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:手机号码   用户   号码
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议