基于Spark和小波分析的水上交通异常数据实时检测方法研究

2019年2月
第35卷第1期
换算率陕西理工大学学报(自然科学版)
Journal of Shaanxi University of Technolo? (Natural Science Edition)
Feb.2019
Vol.35 No)
[文章编号]2096 -3998(2019)01 -0035 -07
基于Spark和小波分析的水上交通异常数据
电视电话会议系统实时检测方法研究
杨帆何正伟^2’3,刘力荣1
(1.武汉理工大学航运学院,湖北武汉430063;
2. 内河航运技术湖北省重点实验室,湖北武汉430063;
3. 国家水运安全工程技术研究中心,湖北武汉430063)
[摘要]针对不断增加的水路运输产生的水上交通数据量增长,导致的水上交通监测难度 更大、处理时间更长,提出一种基于S p a r k的交通异常数据实时检测方法,通过对船#自动识
别系统(A IS)数据进行处理,对不同类型的交通数据进行分析并写入分布式文件系统H D FS
中。然后通过小波分析的方法对A I S数据进行多层分解,去除高频噪声并对数据进行重构, 出A I S数据中的异常信息。通过对异常信息进行分析,结合S p a rk的数据处理结果,最终实时 检测出交通异常数据。实验结果表明能够在短时间内对异常数据进行检测和分析,处理速度 快,异常数据检测结果符合该水域的交通情况,检测方法能够为海事部门提供实时、稳定的监 管服务。我眼中的冬天
[关键词]交通异常信息;大数据;船舶自动识别系统;小波分析
[中图分类号]TP274 +.2 [文献标识码]A
随着“一带一路”倡议的稳步推进,水上交通已经成为中国同各国之间贸易往来的重要方式。水路 运输由于其成本低、可运载货物量大等优势而成为重要的运输方式,水上贸易的推进能够极大促进国家 之
间经济贸易的往来与发展。然而,随着水上交通越发频繁,运输量逐年增加,水路运输所带来的交通 事故也在不断增长。船舶自动识别系统(A u to m a tic Id e n tific a tio n S ystem,A IS)是目前监测与分析船舶状 况、维持水上交通稳定进行的重要工具。通过分析A I S设备中的A I S数据,能够对水上交通的交通流 量、交通拥堵状况、交通稳定性等方面进行判别与预测。然而,随着水路运输的增长,A I S数据量也在不 断增加,传统的数据处理方式很难满足如此大规模的数据处理要求。因此,需要通过大数据处理平台对 A I S数据进行实时、有效地分析和处理。其中,A I S数据中存在大量的异常交通信息,这些异常信息往往 包含着错误的船舶状态与交通信息,因此,能够实时、高效地对异常信息进行检测十分重要。
为了检测异常的交通数据,不少研究者做了充分的调研与研究。T u n o h y[1]通过交通流参数的阈值 控制对交通异常数据进行检测;陈德旺等[2]提出3种判断快速路交通流异常数据的算法,并讨论了这3 种算法之间的集成;李成兵等[3]提出一种基于最小二乘支持向量机的交通异常数据检测方法;Chen S h u-y a n等[4]通过对离线数据进行数据挖掘从而检测出交通异常数据。通过对之前的研究方法进行分收稿日期)2018-05-15 修回日期)2018-11-05
基金项目:武汉理工大学自主创新研究基金资助项目(185212008);中央高校基本科研业务费专项资金资助项目 "通信作者:杨帆(1993—),男,山西省晋城市人,武汉理工大学硕士研究生,主要研究方向为A IS数据处理、交通信息工程。
-35 -
陕西理工大学学报(自然科学版)第35卷
析,可以看出目前的研究主要是通过对离线数据进行分析和检测,很少涉及到对数据的在线实时分析和 检测。本设计通过S p a rk大数据处理平台对A I S数据进行分析和处理,借助小波分析的方法对船舶交 通流量、船舶速度与船舶状态进行分析,检测出异常的交通数据,从而减小异常数据对水上交通研究的 干扰。
1异常数据检测方法
1.1水上交通异常数据
目前船舶A I S数据中包含了船舶运行的大量数据,是分析水上交通数据的重要工具。水上交通的 异常数据主要包含以下几类:a)典型错误数据,这些数据主要是一些明显的交通异常数据,比如纬度 91°,船舶速度100等错误数据;b)异常交通情况数据,这些数据包含了异常的交通状况,相比前后时间 点的交通情况数据来说,这些数据有着明显的交通信息突变,因此被判断为异常数据; >缺失数据,这 部分交通数据为空,没有包含任何的船舶运行数据。本设计主要是对异常交通情况数据进行分析与检 测,提高交通数据的可靠性。
1)A I S数据接收
由于A I S数据量庞大,包含船舶交通信息量多,传统的单机处理模式已经无法满足大规模的A I S数 据处理的要求。本设计通过S p a rk数据处理引擎来对A I S数据进行分析与处理。S p a rk是继H a d o o p大 数据处理平台之后的又一大数据处理工具,它在继承H a d-p中M a p R e d u c e计算框架的同时,又有着出 的并行计算能力,能够快捷、高效地对庞大的数据集进行处理[5_6]。
由于A I S数据通过向本地进行传输,因此,数据传输基本能够保证实时性。在数据接收阶段,采用了异步回调机制对数据进行认证和接收,首先向服务器发送带有密码的套接字,服务器进行接收并 且校验,如果密码正确,则进行A I S数据的传输,从而保证系统的安全性。S p a k将A I S数据转换成弹性 分布式数据集(R e silie n t D istrib u te d D atasets,R D D),通过自身的算子对数据进行一系列转换,最终的处 理结果将通过分布式文件系统进行存储。图1为A I S数据接收部分的流程图。
1.3异常数据检测
设 小 析 的异 常 数 析 和 检测 。比
傅里叶分析,小波分析通过对信号进行一系列的伸缩、平移等转换,对信号
进行多角度、多分辨的处理,从而解决傅里叶变换无法解决的问题,使得小
波分析方法有着更高的应用价值。
在对水上交通数据进行处理时,假设处理的信号为/(〇 (52($),其
中,52($)为所有平方可积函数所组成的空间。因此,通过小波函数进行小
换:
Z*f(b,a)#f f⑴*b,a(-d-(1)
*,,F⑴:#卜b,(2)
其中,f为膨胀参数,,为平移参数,此时式(1)称为离散小波变换。当对
A I S交通数据进行多层小波变换时,假设此时输入信号为%,通过c层变换
图1A I S数据接收
后得到子空间为(81,8!,…,8c,f J,并且满足以下关系:
%#81 ©f1# 81 ©82 ©f2=8i ©82 ©…©8C ©,(3)
其中,㊉表示异或逻辑运算,8为信号S的高频部分,F为信号S的低频部分。因此,通过小波变换将 A I S中的数据进行多层分解,能够对高频和低频部分进行分别处理[76]。
在A I S数据中,由于信号传输过程受到干扰,或者信号中夹杂着噪声等因素导致交通数据出现异 常,这些异常数据一般存在于信号分解后的高频部分。因此,异常检测过程就是通过小波分析的方法,对高频数据进行处理,处理后的高频数据和低频数据进行重构,从而得到重构后数据%',通过对%'和^ -36 -
第1期杨帆,何正伟,刘力荣 基于S p i k 和小波分析的水上交通异常数据实时检测方法研究
进行分析,最终判断异常数据出现的位置以及异常数据的个数,并且对异常数据根据不同情况采取数据 清除或数据矫正,从而完成异常数据的检测功能。
1.4整体功能设计
本设计借助大数据处理平台对A I S 数据进行处理,通过小波分析的方法将数据进行多层分解,通过 对高频数据部分进行处理后,将数据进行重构。通过对原始数据与重构数据的分析与检测得到残差序 列,从而判断出异常数据的位置和个数,最终的处理结果写入分布式文件系统H D F S 中[1()_11]。
首先,A I S 数据经过服务器校验并发送后,客户端开
始对数据进行接收和读取,需要对A I S 数据进行预处理,
包含去掉数据为空的数据并且对A I S 数据进行解析;解析
后的A I S 数据会通过S p a rk 大数据处理系统进行处理,具
体的处理操作包括m a p 、re d u c e B y ke y 、g ro u p B y k e y 等算子,
统计出水上交通选定区域的交通流量、平均交通速度以
及船舶状态;之后,A I S 数据会通过小波分析进行处理,经
过对A I S 数据多层分解、高频信号处理等过程,对数据进
行重构;分别将数据和S p a k 大数据处理平台统计分析后
所得结果进行比对和计算,将异常数据检测出来,并且通
过对数据进行分析,判断是否完成对数据的修复或提出,
最终对整个异常数据检测系统性能进行分析和评价。整
个设计的总体框架如图2所示。2 Spark 数据处理方法
2.1 A I S
大数据处理A I S 数据要通过S p a k 大数据处理平台对数据进行初步处理和计算。本设计中,选择交通情况中的 3个指标进行异常数据分析:交通流量情况、船舶平均速度和船舶状态。其中,交通流量情况通过对A IS  数据中的动态数据船舶M M S I (特定船舶的编号)和S p a k 的re d u c e B y k e y 算子对特定区域船舶数量进行 统计,从而得到不同时间段的水上交通流量情况。船舶平均速度通过对A I S 动态数据中船舶对地速度 进行统计,通过S p a r k 的a g g re g a te 函数对速度进行求解平均值,从而计算出不同时间段的船舶平均速 度。船舶状态通过A I S 动态数据中的船舶状态进行统计分析,通过统计不同时间段船舶的状态得到船 舶状态的总体情况。通过3个不同的算法来实现数据的处理,其中算法1为交通流量情况统计,算法2 为船舶平均速度计算,算法*为船舶状态统计,具体的算法如下:
1%
In p u t :A I S 动态数据
O u tp u t :船舶交通流量
1. ais +H D FS
2. aisf +—a is . f ilt e r ( . _ = 0)
3. aisf  :—ais f . s p lit ( ’’,j  . s p lit ( ’’ j
4. aisf  s  m ——aisf . m a p (一. to ln t )
5. f ——aisf  s  m. reduceB ykey
其中,a s 表示从H D F S 中读取的原始A I S 数据,a
s 表示去掉缺失数据后的的A I S 数据,aisf ,s 表示 去掉原始数据中的“,”和空格的A I S 数据,aisf ,s ,m 为转换为整数类型后的A I S 数据。算法2平均速度算法
In p u t : A IS  动
数 O u tp u t :船舶平均速度
1. ais +H D FS
图2 系统总体框架-
37 -
陕西理工大学学报(自然科学版)第35卷
2. aisf+a is.filte r(._ < 20 )
3.aisf s+a i s f.s p lit!11 %j.s p lit!11j
4. aisf s m-<—ais f.m a p(_.to ln t)
5- -°+a isf s>m.aggregate
其中,*表示通过ag gre gate计算后的船舶平均速度值。
算法3船舶状态统计算法
In p u t:A I S动态数据
O u tp u t:各状态船舶数量
1.ais—H D FS
孑孓
2. aisf——a is.f ilt e r!._= 0)
3.aisf s—ais f.s p lit!j j.s p lit!11j
4- aisf,s,m——ais f.m a p!_.to ln t)
5. m u m sM e+a isf,s,m.reduceB ykey
其中,m u m s ta te表示通过re d u c e B y k e y计算后的各状态下的船舶数量值。
2.2小波分析处理
通过小波分析对船舶异常数据进行检测。首先需要读取H D F S分布式文件系统中的A I S数据,并 且选取小波函数和小波分析的层数,本设计中选择的小波函数为d(3小波函数,分解层数为3层,通过 对数据进行多层次分解后,需要将分解后的数据的高频部分进行阈值选择。通过对船舶交通流量、平均 速度和船舶状态进行处理后,可以确定3种交通情况的合理阈值大小,对于不满足阈值大小的异常数据 进行选取并且输出,并且通过异常数据分析部分对异常数据进行判断。小波分析部分的算法为 算法4小波分析算法
In p u t:A IS动 数
O u tp u t:小波分析结果
1.a is+H D F S
2. aisf——fu n c tio n= db3,la ye r= 3
3.aisf s——a is f.w len
4a isf,s,m+a isf,s.w len
5-m u m sM e—a isf,s,m-w len
其中,a is表示从H D F S中读取的原始A I S数据,a is f表示选择的小波函数为d b3小波函数、分解层 数为3层处理后的A I S数据,a isf,s、a isf,s,m、腿m s ta te分别表示通过w le n函数分解处理后的结果。
2.3异常数据分析
通过小波分析进行处理后,可以检测出不符合阈值的交通数据。此时,通过对异常数据进行分析来 判断是否对异常数据进行剔除或修改。异常数据分析中,选取最小二乘法对异常数据进行计算,以船舶 平均速度*为例,首先计算待检测的船舶异常数据O和*之间的剩余误差,计算公式为
e#〇 _〇,(4)
通过剩余误差d求解出待检测数据的标准差',计算公式为
如果小波分析中的异常数据和标准差之间的关系为O$3',此时可以对异常数据进行修复;如果 异常数据与标准差之间的关系为O >3',表示异常数据与标准差之间的差值过大,此时选择对异常数 剔除。的处 为
算法5异常数据分析算法
In p u t:待检测异常数据
-38 -焊锰钢板用什么焊条
第1期杨帆,何正伟,刘力荣 基于S p i k和小波分析的水上交通异常数据实时检测方法研究
O u tp u t:异常数据分析结果
1.a is+H D F S
2.aisf+—e,'
3.I f(aisf< = 3a)
aisf s——aisf
4.I f(aisf13a)
delete aisf
5.out——aisf s
3案例分析
3.1数据来源
本文选取数据的地理位置是经纬度分布在(东
经 120. 725◦,北纬 32. 049〇)到(东经 120. 835◦,北纬
31.981 °)之间的一个矩形区域内的航道,时间范围
为2017年2月6日一2月10日。这个范围的航道
区域是南通航段,在长江航道中位置特殊且十分重
要,它紧靠长江入海口,是长江航道上船舶入海的必
经航道,也是海上船舶进入长江的必经航道。南通
航段内船舶通航量巨大,船舶水上作业十分繁忙。
3.2大数据处理结果
A I S大数据处理的集环境包括了主节点M as­
ter和 3 个从节点 S lave1、Slave2、Slave3 ,分别 通过算
法1、算法2、算法3对数据进行处理,通过S p a r k自
身的算子分布式计算,分别计算得出船舶交通流量、
区域船舶平均速度和船舶状态。数据处理时间如
图3所示。
从图中处理时间可以得出,通过re d u c e B y k e y算
子对船舶交通流量进行统计时,随着数据量的增长,
数据处理时间也有所增加,此时4节点的处理性能
最好,处理时间最短;通过a g g ra g a te函数对船舶平
均速度进行求解时,当数据量大于100万条时,2节
点与4节点的处理时间基本稳定在2000 m s;对不同
船舶的状态进行统计过程中,多节点的处理优势也
随着数据量的增长而逐步体现,数据量达到100万
条时,数据处理时间基本稳定。
1、2、  3 数 处 的
qc工程图
可以得出,S p a k大数据平台运用分布式集的处理
机制,能够提高数据的处理速度,并且对于大规模数
据来说,分布式的处理环境比单机的处理环境处理
性能更好,处理时间更短,数据处理过程更加稳定高
效。
3.3异常数据检测结果
通过小波分析对A I S数据进行分解和重构后,可以检测出异常的交通信息,检测结果如图4所示。分别对船舶交通流量信号、船舶平均速度信号和船舶状态信号通过小波分析检测异常数据并进行分析
-39 -

本文发布于:2024-09-23 21:29:14,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68446.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   进行   交通   船舶   检测   处理   分析   研究
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议