公交GPS大数据预处理方法研究——以呼和浩特公交数据为例

佚名

【摘要】基于机器学习及Python软件平台,创建了一种Hanning+ Symlet4小波的去噪平滑算法,在去噪的基础上实现了数据规约及清洗的一体化,节省了数据清理所用的时间.经过仿真实验,处理后的数据在均方误差、信噪比、平滑度上的表现得到提升,为进一步的研究提供有力的数据支撑.

三星i788【期刊名称】《内蒙古工业大学学报（自然科学版）》

【年(卷),期】2018(037)004

【总页数】6页(P287-292)

【关键词】公交车GPS数据;机器学习;数据去噪;数据清洗

【正文语种】中文

【中图分类】U491.14

数据预处理作为数据挖掘的重要部分,主要内容包括数据规约、数据清洗及数据去噪三部分,以此得到标准、连续的数据.交通流作为时序时间序列,具有很强的非稳定、强随机和强突变性[1],如何在处理此类非平稳时间序列的同时获取规定频段的时间信息则显得非常重要.小波阈值法能够在保存数据尖峰和突变模块的同时拥有很好的去噪效果,因此采用阈值法作为问题研究的基础.

1 数据规约及数据清洗

基于Python软件平台,完成了对呼和浩特市浮动公交车数据的清洗工作,具体步骤如下:

1.1 数据导入及时间戳的转换

民主法制原始数据为2017年9月27日公交32路早7:00-晚9:00的所有信息.其内容包括:收集时间(Gathertime)、速度(Busspeed)、经纬度(Lat)、站定名(Sationname)、驾驶员姓名(Drivername)、驾驶员ID(UUId)等信息,并以TXT格式保存.但由于其参数冗余、文档读取缓慢.需要选取有用列并转换格式.

图1 数据导入流程Fig.1 Shows the data import process

如图1所示,通过import pandas导入函数库后,利用pd.read_json对TXT文本进行读取,通过设定columns为:速度、收集时间、经纬度、作为选出自己所需的行.由于设备存储时间信息时所用的是13位时间戳,不能直接用于数据分析,因此需要Time.Strftime函数对gatherTime行进行处理,从而得到可用的时间列Time.

图2 完成转换的GPS数据Fig.2 Completes the conversion of GPS data

图2是完成时间戳转换后的数据,处理后的数据与起始数据相比降低了存储量,并且这些数据可以用于表征交通流,为下一步的处理提供数据基础.

1.2 缺失值的填补

浮动公交车在运行过程中,由于设备异常或GPS信号弱等原因会产生大量的缺失值,缺失值作为维系数据挖掘质量的因素,不可忽略,因此第二步进行缺失值的填补.此部分主要运用Python的interpolate及fillna函数.

缺失值的处理方法可以分为忽略缺失值和填补缺失值两类:当序列有连续多个缺失值时,通常忽略,即在表格中进行删除操作.当序列中仅有少量缺失值时,一般要对其进行填补[1].本文所

用数据缺失值较少,采取填补法.Python中提供填补缺失值的方式有[2]:

(1) 均值法:求出整个序列有效数值的平均值,用平均值替代缺失值;

(2) 临近点中位数法:对缺失值上下临近点制定跨度范围内的有效数值或全部有效数值的中位数来替代缺失值;

china 农村妇女nomex(3) 线性插值法:对缺失值之前的最后一个和其后第一个有效值使用线性插值法计算估计值;

(4) 前后向插值法:对缺失值使用所在列前一个有效值或其后第一个有效值进行填充;

(5) 时间序列插值法:选择时间关系上最相近的前后有效值的线性模型进行填充.

根据时间序列的相关性,针对公交速度(Busspeed)行采取时间插值法,其他行采取前向插值法.具体步骤如图3:

图3 Pandas填补缺失值步骤Fig.3 Steps for pandas to fill missing values

1.3 数据去噪及平滑处理

文史哲

规约处理后的数据看似有序完整,但其信噪比[3]仅为0.89898,这说明数据中虽蕴含着大量的有用信息,但噪声的比例太大.因此必须进行数据去噪以挖掘出有用的信息.具体步骤如下:

图4 去噪平滑流程Fig.4 Denoising smoothing process

上面完成了对函数的封装,填补了原始数据中存在的NAN(空缺值),节省了数据预处理的时间.接下来详细介绍Hanning+Symlet小波去噪平滑法.

2 Hanning+Symlet小波去噪平滑法

2.1 Symlet小波

小波分析由于其良好的时频局化特性、多频分辨特性、去相关性而被广泛运用[4].传统的小波函数有:Haar小波、Daubechies(dbN)小波、Mexican Hat(墨西哥草帽)小波及Symlet(对称)小波[5].Symlet小波相对于其他小波有以下几个优点:

(1) 良好的正则性、正交性;

(2) 近似对称,具有线性相位;

(3) 运算速度快,计算简单[6].

而小波去噪的原理均是通过在小波域调节伸缩尺度,将信号转为高频和低频信息,再经过阈值处理,慢慢抽离噪声.综合交通流序列的非平稳和连续性及文献[6],本文选取Symlet小波作为小波基.

但影响小波去噪效果的除了小波基还包括阈值函数和分解层数,接下来将详细阐述Symlet小波阈值函数和层数的选取.

2.1.1 阈值函数的选取

一般的阈值函数包括硬阈值函数和软阈值函数.其具体公式如下:

硬阈值法:

(1)

软阈值法:

(2)传奇故事2011

其中sgn(·)表示符号函数,图5中fλ为阈值化后的小波系数,λ为噪声系数,过原点的虚线代表原始数据,双虚线间代表小波系数小于噪声系数的值,双虚线外代表噪声部分大于虚线的值.

图5 软硬阈值函数图Fig.5 Soft and hard threshold function diagram

阈值处理阶段,软硬阈值法均通过将频率处于噪声段的信号系数置零从而去除小波分解后的各层噪声.软阈值法弥补了硬阈值法在噪声系数点的跳变现象,使处理后的数据更加平滑,从而有效的避免了硬阈值法在小波重构阶段因为函数不连续导致突变.本文选取软阈值函数作为小波域信号处理手段.

2.1.2 小波层数的选择

理论上讲,小波去噪中可选取的最大分解尺度为J=|log2(N)|[7,8].而实际应用中,层数和重构相矛盾,我们需要权衡层数与信息量之间的关系.一方面,分解层数越多,则失真越大,不利于保存信号的信息;另一方面,层数越大,则噪声和信号表现的不同特性越明显,越有利于信噪分离.综合文献[7]及常用取值,最终确定J=4.此时最大分解尺度J能够在保证不失真的情况下更加充分的抑制噪声.

本文发布于:2024-09-23 02:13:37，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/75187.html

上一篇：雪线提取方法研究

下一篇：matlab二值化函数

标签：数据阈值时间函数缺失

留言与评论（共有 0 条评论）