海量数据采集技术在IDC不良信息监测系统中的应用研究

82
2020年11月 第 11 期(第33卷 总第279期)月刊
墨水生产2020年 第11期
数显时间继电器
电信工程技术与标准化
海量数据采集技术在IDC 不良信息
监测系统中的应用研究
朱壮军,王彬
家电控制板(中国移动通信集团山西有限公司,太原 030032)
摘 要 本文阐述了某电信企业在建设IDC不良信息监测系统过程中,为高效处理每天的海量数据,选取了多种数据
采集技术,进行反复方案论证和实验对比,最终选择了“Hadoop脚本+FTP”方式,极大提高了数据采集效率,实现了海量数据高效采集和处理,保证IDC不良信息监测系统能够及时发现和处理IDC中包含的不
良信息,助力IDC业务健康发展,避免给国家和社会带来负面影响。
关键词 IDC;不良信息监测系统;Hadoop;用户上网日志
中图分类号  TN918      文献标识码  A      文章编号  1008-5599(2020)11-0082-06
收稿日期:2020-06-01
水塔随着互联网技术的不断发展,一些不法分子利用互联网散播不良信息,甚至进行赌博和等违法犯罪活动,企业IDC 内不断出现暴恐和情类不良信息。作为电信企业同时也是IDC 运营企业有责任和义务及时发现并处置此类不良信息,通常会建设不良信息监测系统,监控IDC 内的网站和服务运行状况,及时发现IDC 中包含的不良信息,并通过IP/域名封堵方式,防止不良信息系统传播和扩散。
企业在运营IDC 不良信息监测系统的过程中,发现随着IDC 带宽不断扩容,监测系统需处理的日志数据量不断增大,每天产生的数据量达到数十太字节。监测系统要实时采集、处理和分析这些数据,面临着较大困难。
播放路1  研究现状
由于不良信息往往存在于IDC 客户的服务器存储
中,IDC 运营企业无法直接访问和控制,IDC 不良信息监测系统通常采用抽取用户上网日志话单中的URL,通过爬虫还原资源信息的方式,来研判和发现不良信息。其采用的数据采集方式主要包括以下3种。
(1)分光方式(方式1):通过部分链路分光加采集设备的方式,抽样采集、分析用户上网日志。该方式的优点是所需设备少,投入小,缺点是只能做到抽样分析。该方式也是IDC 不良信息监控系统最常用的数据采集方法。
(2)DPI 方式(方式2):对于已经全面建成IDC 信息安全系统(含DPI 设备)的企业,可采用IDC 信息安全系统DPI 解析用户上网日志中的URL,去重后送到不良信息系统后台服务器。该方式能做到全量分析,但为了做到实时数据处理(必须在一定周期内处理完DPI 输出的话单),IDC 不良信息监测系统需要大量陶瓷灯头

本文发布于:2024-09-22 04:20:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/134572.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:系统   方式   采集   监测
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议