HTTPs加密流量识别方法研究

信息通信
INFORMATION  & COMMUNICATIONS
2019
(Sum. No  198)
2019年第6期(总第198期)
贴片线圈
HTTPs 加密流量识别方法研究
苏铉
(北部战区海军参谋部,山东青岛266000)
摘要:HTTPs 加密流量识别主要采用HTTPs 域名回填方案,对不能解析出HTTPs 业务的域名的记录,通过DNS 消息中
返回的IP 地址和HTTPs 消息请求的目标IP 进行关联,从而回填HTTPs 消息的域名。通过这种方式,展开机器学习
HTTPs 加密的用户面流量的识别研究,进一步识别出业务类型以及关键字段,提供页面浏览及视频业务的性能指标分
析、用户行为分析所需字段信息。将机器学习在HTTPS 识别中应用,突破识别技术难题,增强了 DPI 业务识别能力,提 升了业务优化能力。
关键词:统一 DPI  ; HTTPs 加密;机器学习;流量识别
中图分类号:TP393.08
文献标识码:A  文章编号:1673-1131(2019)06-0081-02
1概述
为了保护用户及网站的内容免于被窥探,以及保护网络
浏览及交易的安全,互联网上有越来越多的应用开始加密流 量”据 EFF(Electronic  Frontier  Foundation)报告,全球有超过
一半的流量釆用了加密的HTTPs 传输,包括国内的流量主要 份额的主流技术公司,如百度、淘宝、京东等。而一些视频公 司正在HTTPs 化,例如腾讯视频、优酷视频等。
在技术上讲,HTTPs 本身不是一种协议,它只是在会话层
SSL  / TLS 之上的HTTP,并介于TCP 和HTTP 之间,然而这
给应用分类及业务指标统计带来了难度。
HTTPS  = HTTP  + ITLS/SSL
HTTP r
值駅力nR  1 !TLS/SSL
s 佶恵・改
完SE 性校验
TCP电柜铰链
i 信念功持
劈份驶证J  :
1■
图1 HTTPs 的组成
对于具体应用而言,了解加密并不意味着某些东西不可 检测或无法识别,这只是意味着该内容是私有的。由于大多
数加密流量依赖于接受的标准(例如,IPSEC, TLS),因此通常 可以检测流量的应用协议。但加密确实也对相关行为及业务
指标的识别计算提出了新的挑战,例如:
(1) 在对页面指标的分析影响上,加密后只能看到SER- VER_NAME,而HTTP 页面XDR 中的其他数据无法直接获 得,http 成功率、http 时延、整体速率、大包速率等页面关键指
标无法计算得出,影响对页面指标的分析。
(2) 对视频指标的分析影响上,加密后无法得到HTTPS 视 频中的GETURL 及下载响应信息,进而也无法获得规范要求视 频XDR 的相关字段,如视频资源名称、编码速率、卡顿次数等。
基于此,本文主要是从业务性能及用户行为方面为目标, 采用DPI 域名回填、机器学习等方法,对加密的流量进行识别, 并且基于内容版权和用户隐私安全的前提下,满足对网页流
量及视频业务的网络服务质量分析。
2基于统一 DPI 和机器学习的HTTPs 加密流量识别 2.1基于域名回填方案的处理流程
基于统一 DPI 和机器学习的HTTPs 加密流量识别系统, 依托统一 DPI 系统,开发新的软件模块,采用独立部署方式,
用来存储DNS 映射关系和关联HTTPS,来实现HTTPS 的域
名回填。采用这种方式,具有扩展性,满足在遭遇处理瓶颈时
可以增加服务器来提升处理能力;对当前系统的影响较低;对
CPU 和RAM 的资源要求较低,可以降低服务器的性能需求。
釆用域名回填方案的处理流程如下:
(1) Dpiadapt 将所有DNS 的XDR 发送到HTTPS 适配模
块,由https 适配模块发送到合成模块merge ;
(2) HTTPS 数据只发送COMMON 表中属于HTTPS 但是 没有解析出域名的XDR,在DPI 模块已经解析出域名的直接
发送到合成模块merge ;
(3) —个IP 对应多个域名时不会替换,一个域名映射对应 多个IP 时,视DNS 解析结果的第一个IP 决定,即多个IP 时 插入第一个IP,第一个IP 改变时,改变的也将插入。
(4) 可能出现需要部署多台HTTS 域名适配服务器,Adapt
在分发消息时DNS 的XDR 用Result  IP, HTTPS 的XDR 用
server  ip  进行 HASH…
3结语
综上所述,变电站自动化控制系统可以实现对电力设备
运行情况进行监控,把釆集到的变电站运行数据信息传送给网络滤波器
电力调度中心,为实现电网的智能化调度和故障分析提供支 持。变电站仿真系统可以釆用先进的建模工具,结合网络通 信技术,系统、全面地对变电站多种功能进行模拟,为学员和 工程技术人员培训提供学习平台,两个不同变电站系统可以
纳米铂金
更好地保理论上变电站安全运行,为实现经济调度提供保障。参考文献:
[1]陈德辉,王丰,杨志宏.智能变电站二次系统通用测试平台
方案[J].电力系统保护与控制,2016,44(01):139-143.
[2]陈海波,郑健,费瑞轶,王媚,陈锦华.虚拟现实技术在电力系
统中的典型应用[J].电网与清洁能源,2016,32(02):20-25.
⑶茹东武,李天泽,侯俊飞,党校民,滕卓男,杨明明.智能变电
站测试系统研究与应用[J].电工技术,2016(07): 19-21.
[4]刘森.VR 虚拟现实技术在变电站智能电气运维及培训领
域的应用[J].电气时代,2017(04):94-96.
作者简介:刘林(1995-),男,贵州桐梓人,学历:本科,研究方向: 电气。
81
信息通信苏铉:HTTPs加密流量识别方法研究
(5)HTIPS域名适配服务器蝕到MERGE的消息的规则和dpiadapt的规则相同,所以两个模块的l配置文件保持同步一致。
2.2系统组网架构
对DPI设备进行软件升级,增加HTTPS处理组件,包括Https解析处理组件,以及adpat模块。对于可直接解析获得域名的流量,解析完成后的XDR直接通过adpat模块发送至数据合成服务器。对于未能解析获得域名的,并发送HTTPS 的域名。对于无法解析的HTTPS域名,则通过adpat模块,将DNS-XDR话单和Common-XDR话单,以Hash方式发送至域名回填服务器。假设当前某高新机房的流量约为15Gbps,而机房又部署了2台SM15G,因此增加HTTPS处理组件的后,消耗的性能在原设备可以涵盖。因此在此阶段暂不增加或扩容DPI设备硬件。
新增域名回填服务器,用以部署HTTPS域名适配回填模块、域名与DNS对应存储模型。域名回填服务器通过采用全局内存数据库方式,存储域名与DNS的HashMap对应关系,并将回填域名后的XDR话单
发送至数据合成服务器。
当前,考虑到对现有DPI系统的影响,可以选择新增1台数据合成服务器,用以关联回填、缓存该机房包含HTTPS的话单。如果后续推广该方案,则全部评估使用现网的数据合成服务器。
ttssao#咖成财器
DP!设占
图2流量识别系统组网架构图
2.3基于机器学习的HTITs识别
基于网络流量数据特征的机器学习选取特征数目较多且计算复杂,导致分类效率不理想,考虑将其主要使用在HTTPS 协议的识别应用:只单独解析HTTPS中相关页面浏览和视频关键指标。
目前主要采用的方法是在上述流量行为特征的识别方法
基础上,研究基于HTTP协议的网络应用的识别与分类,利用数据包达到间隔时间和数据包大小等特征进行二元分类,主
要选取的特征包含:包大小、包达到时间间隔、字节速率、上下行字节数之比等对应统计学上的特征。
依据机器学习方法,可准确识别的示例业务如下:
(1)Skype:Skype语音;
(2)c box_sqpcast:在线视频直播;
(3)y ouku_iqiyi:在线视频观看(非直播);
(4)h ttp_dload:HTTP下载;
ap劫
(5)c sdn_times:网页浏览(内容为文字和图片);
(6)sinaJSfG:网页浏览(内容为文字、图片和视频)。
通过当备统一DPI系统的数据采集与解析处理功能,识别网络流量统计特征,解析获得相关字段信息。
而在特征分析与选择过程中,主要考虑页面浏览和视频的特征选择,选取数据包达到间隔时间和数据
包大小等特征,如包大小、包达到时间间隔、字节速率、上下行字节数之比。
基于上述选择的间隔时间和数据包大小等特征,选用机器
学习分路器,如K近邻或SVM分类器,对网络流量进行分类。
最终输出分类识别结果,满足指标统计所需数据。
在指标输出过程中:
(1)实现优先还原当前主要网络质量指标,比如RTT、速率等指标。
对HTTPS迸行本地机器学习,针对网页浏览和不同视频的网络流量行为分析得到合适的特征。根据得到的特征,在
SE-DPI中增加对HTTPS识别功能,其识别率和机器学习分析
结果近似。输出对应HTTP XDR,其中XDR字段主要是RIT、速率等指标。
⑵通过机器学习分析当前HTTPS,得到其他主要指标字段。
通过机器学习流量中上下行占比等特征进一步来匹配
HTTP状态码,完善成功率以及HTTP时延指标。通过机器学习,用初始化速率、平均速率以及上下行占比等指标来估计码率;同时通过下载包的长度和时间点计算出一个接近正确的
卡顿次数和卡顿时间;从而得到HTTP视频的卡顿率及卡顿占比等重要指标。
(3)通过机器学习分析当前HTTPS和HTTP数据,研究HTTPS合成方案。
合成页面和合成视频是根据HTTP中URI以及REFER、LOCATION等字段来做关联,故HTTPS化后无法完成合成。由于合成页面和合成视频可能是在一个TCP连接或者多个TCP连接,所以需要扩大研究范围及对页面和不同的视频进行研究,可借鉴基于主机行为模式的流量识别方法。
(4〉通过机器学习的研究,实现对DPI系统中暂未识别的数据进行识别。
主要包括由于网络丢包或者乱序问题无法解析出的视频
信息的视频、当前不支持格式的视频、当前无法解析的隧道协
议、其他加密协议及关键数据获取。
3结语
本文研究内容在某些互联网业务管理工作中,取得了初
步成效。在系统的研发过程中,采用第三方验证和现场拨测
相结合手段,对页面流量及视频的识别分类的准确性进行验证,经多次修正算法后,目前识别准备率接近90%。同时,通
tokyo hot n0808
过实施相关方案,有效识别了超过1800种HTIPs业务,日均增加识别流量可观,对基于业务的流量预警、网络优化、投诉
预测、用户感知起到了良好的促进作用,提升了信息数据的应
用价值。
参考文献:
[1]张玉清,董颖,柳彩云,雷柯楠,孙鸿宇.深度学习应用于网
络空间安全的现状、趋势与展望[J].计算机研究与发展, 2018(01).
[2]陆奇.HTTP2.0对CDN和Cache的彫响及应对分析报
告[J].中国高新区2018(01).
[3]王福荣.基于有限DPI的小代价精确用户行为识别方案
的研究与实现[J].科技经济导刊2017(10).
作者简介:苏锤(1982J,女,安徽合肥人,解放军信息工程大学学士,现就职于北部战区海军参谋部,从事信息安全保障和研
究等工作。
82

本文发布于:2024-09-22 23:35:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/201494.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:识别   域名   流量   学习   视频   加密   回填
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议