张量表达下的多模态交通缺失数据补全算法

小型微型计算机系统
J o u r n a l o f C h i n e s e C o m p u t e r S y s t e m s 2021年1月第1期 V o l.42 No. 12021
张量表达下的多模态交通缺失数据补全算法
胡雪,彭敦陆
(上海理工大学光电信息与计算机工程学院,上海2_3)
E-mail :***************
摘要:来自多源感知设备所采集的多模态交通数据,由于探测设备、网络、数据传输等错误往往存在丢失.交通数据的缺失对 交通网络智能规划、避免拥堵等会产生重大的负面影响.同时,来自于不同平台数据的编码方式、标识存在差异,很大程度上影 响了交通数据的利用.基于此,本文针对交通监控视频与车流量探测数据,结合张量理论,建立了用以描述多模态交通数据的张 量模型,并提出 了基于 T u c k e r-C r o s s o v e r的多模态数据补全算法(T u c k e r-C r o s s o v e r b a s e d M u l t i m o d a l D a t a I m p u t a t i o n A l g o r i t h m, TCMD-IA),用于多模态交通缺失数据的补全.该方法利用T u c k e r分解后不同阶的因子矩阵和核矩阵进行相关性融合,从而提 高缺失值估计效果.在真实交通数据集上的实验表明,TCMD-IA的多模态交通缺失数据补全效果优于其他方法,且具有较好的 鲁棒
性.
关键词:张量;多模态交通数据;T CM D-IA;缺失数据
北大投毒案中图分类号:TP311 文献标识码:A文章编号:1000-1220(2021)014105~06
Imputation Algorithm for Multimodal Missing Traffic Data Based on Tensor
HU Xue.PENG D u n-l u
(Schcx)l of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)
Abstract:M u l t i-m c x l a l t r a f f i c d a t a c o l l e c t e d f r o m m u l t i-s o u r c e s e n s i n g e q u i p m e n t s a r e o f t e n l o s t d u e t o e r r o r s i n d e t e c t i n g e q u i p m e n t s, n e t w o r k a n d d a t a t r a n s m i s s i o n.T h e i n c o m p l e t e n e s s o f t r a f f i c d a t a w i l l h a v e a n e g a t i v e i m p a c t o n t h e i n t e l l i g e n t p l a n n i n g o f t h e t r a f f i c n e t w o r k a n d t h e a v o i d a n c e o f c o n g e s t i o n.A t t h e s a m e t i m e,t h e r e a r e d i f f e r e n c e s i n t h e e n c o d i n g a n d m a r k i n g o f d a t a f r o m d i f f e r e n t p l a t f o r m s,w h i c h g r e a t l y a f f e c t t h e u t i l i z a t i o n o f t r a f f i c d a t a.B a s e d o n t h i s,t h i s p a p e r p r o v i d e s a
t e n s o r m o d e l t o d e s c r i b e m u l t i-m o d a l t r a f f i c d a t a b a s e d o n t r a f f i c s u r v e i l l a n c e v i d e o a n d v e h i c l e-f l o w d e t e c t i o n d a t a.B e s i d e s,we p r o p o s e a T u c k e r-C r o s s o v e r b a s e d M u l t i-m c x l a l D a t a I m p u t a t i o n A l g o r i t h m (T CM D-IA)f o r t h e c o m p l e t i o n o f m u l t i-m o d a l m i s s i n g t r a f f i c d a t a.T h i s m e t h o d f u s e s t h e f a c t o r m a t r i x a n d c o r e m a t r i x o f d i f f e r e n t o r d e r,t h e c o m p o n e n t s o f T u c k e r d e c o m p o s i t i o n,t o i m p r o v e t h e e f f e c t o f m i s s i n g v a l u e e s t i m a t i o n.
E x p e r i m e n t s o n r e a l t r a f f i c d a t a s e t s s h o w t h a t TCMD-IA c a n b e t t e r c o m p l e t e t h e m i s s i n g d a t a o f m u l t i-m o d a l t r a f f i c a n d h a s g o o d r o-b u s t n e s s t h a n o t h e r m e t h o d s.
Key words:t e n s o r;m u l t i m o d a l t r a f f i c d a t a;TCMD-IA;m i s s i n g d a t a
i引言
近年来,汽车数量的快速增长导致道路拥挤现象越来越 严重,对交通管理的智能化迫在眉睫.行车数据是进行智能交 通网络规划、避免拥堵等应用的基础,完整的数据有利于提取 有价值的交通信息.然而,实际采集的真实数据,由于检测器 故障、通信处理错误等各种因素,往往使得来自多源感知设备
的交通数据产生丢失的情况,甚至在一些情况下非常普遍[u.同时,高速公路摄像头(监控视频、图像等)、流量检测 器等所采集的多模态交通数据,其编码方式、语义、标识存在 差异,导致了信息无法融合,形成一个个信息孤岛.如何髙效 地实现多模态交通数据缺失值补全具有明显的现实应用意 义.
国内外学者提出了许多交通数据缺失的补全方法.研究 人员最初将历史(最近邻)归责方法[2]应用到交通数据补全上.随后基于主成分分析提出了大量数据补全方法,如贝叶斯 主成分分析(B P C A)[3]和概率主成分分析法(P P C A).作为 一种能够综合表达数据的工具,近年来张量在数据处理领域 中快速发展,尤其是在交通数据处理和挖掘领域应用越来越 广.Acar[5]等人提出了用加权优化的C P分解(C P-W O P T)处 理缺失值,通过实验验证具有很好的性能.
尽管在单一数据源时具有较好的表现,但这些方法没有 对多模态数据集合进行缺失数据补全的进一步研究.基于此,本文针对交通监控视频(非结构化数据)与车流量探测数据 (结构化数据),建立了用以描述多模态交通数据的张量模型,同时提出了基于Tucker-Crossovei■的多模态数据补全算法 (Tucker-Crossover based Multimodal Data Imputation Algo- rithm,TCM D-IA).该方法融合了非结构化与结构化数据,通 过张量对不同类型的数据进行统一表达,并改进Tucker分解 所得的因子矩阵,将其与另一阶上所得的核矩阵进行特征融
收稿日期:2020*01>05收修改稿日期:202(M)l-22基金项目:国家自然科学基金项目(6177;2342,617
〇3278)资助.作者简介:胡雪,女,1994年生,硕士研究生,研究方向为自然语言处理及数据融合;彭敦陆,男,1974年生,博士,教授,C C F会员,研究方向为大数据管理、W eb数据 管理、机器学习和自然语言处理.
106小型微型计算机系统2021 年
合,从而进一步提高数据补全的准确性.结合真实的多模态交 通数据集实验,结果证明TCMD-IA对于多模态缺失数据的 补全效果优于其他方法,且鲁棒性好.
论文其余部分的组织如下:第2部分介绍近年来交通数 据缺失值估计的研究结果;第3部分给出本文所用符号的含 义、张量理论基础、多模态交通数据及问题定义;第4部分给 出多模态交通数据的表达和本文提出的基于T u c k e r-C r o s s-o v e i■的多模态数据补全算法(T CM D-IA);第5部分在真实数 据集上进行实验,对所提算法进行有效性验证;第6部分给出 论文的结论.
2相关工作
过去几十年中,学者们提出了各种补全算法已经被应用 到缺失值补全中.历史(最近邻)归责方法[2]通常用邻近几天 同一时间、地点的已知数据,通过取平均值等简单操作进行填 补.Qu[M1等人提出了 BPCA和PPCA,综合考虑了交通数据 的日周期性和区间变化,是解决交通流量数据估计的经典方 法,
并通过实验证明了其有效性.L i u[6]等人首次提出了一种 基于迹范数最小化的张量补全方法(HaLRTC).他们推广了 矩阵迹范数并定义了张量跟踪范数,从而将张量补全问题表 示为一个凸优化问题.Z h a o m提出了一种基于分布式减法聚 类的数据填充方法,通过利用云计算技术优化聚类算法,根据 聚类结果和加权距离进行填充.Han[8]等人提出了一种基于 不完备集的双向聚类的算法,通过双聚类的完美簇的特性来 构造属性差异矩阵,保存了对象之间的最大相似属性集,进而 以双聚类的结果对缺失数据迸行填补.〇[9]等人使用同类簇 的均值对不完备数据进行预填充,通过形成初始完备数据集,进一步对数据集聚类,并运用同类簇的均值修正初始充填值.
在交通数据分析上,Tan[l°]等人提出了多模式关联张量 模型,将交通数据分为链路、周、天、小时4个不同模式,构建 了四阶张量交通数据表达模型.并提出了基于T u c k e r分解的 流量数据注人方法(TDI),用于处理缺失数据的问题.该方法 在保留矩阵模型优点的基础上,更好地挖掘了交通数据的潜 在相关性.A s i f m]等人通过提取大型路网中常见的交通模式 来估计缺失值,采用定点连续的近似奇异值分解、正则多进分 解、最小二乘和变分贝叶斯主成分分析,提出了多种基于矩阵 和张量的交通数据补全方法.Chen[l2]等人将贝叶斯概率矩阵 分解模型推广到高阶张量,并将其应用于时空交通数据的输 人任务,通过大量实验探讨了不同的数据表示方式对归责性 能的影响.L i n[l3]等人提出了一种基于张量分解的张量补全 算法,并在算法中引人了时空正则化约束,提高了算法的补全 性能,该算法利用该代数框架对交通数据的缺失进行处理效 率更高.
目前交通数据的补全研究绝大多数是针对结构化数据,对于多模态交通数据的研究相对较少,而多源的异构数据进 行融合处理对于交通数据的利用十分重要.因此,在本项研究 中,我们提出了 TCMD-IA方法,对结构化和非结构化两种类 型的数据缺失值进行补全.该方法通过构造合适的三阶张量 来表达包含时空信息的多模态交通数据,结合T u ck er分解,对其进行最小二乘法分解所得的因子矩阵与核矩阵进行交叉 相乘,融合了不同阶之间的潜在相关信息,从而提髙对缺失数据的补全效果,通过实验证明该方法的估计效果优于其他方 法,且具有较好的鲁棒性.
3准备工作
本节主要介绍多模态交通数据,并且给出下文所需张量 理论基础、多模态交通数据知识,同时定义了如何对缺失数据 进行补全.3. 1节给出所需张量理论基础.3. 2节介绍了多模 态交通数据.3. 3定义了本文所研究的问题.文章用到的符号 以及其所代表的含义见表1.
表1文章中所用符号其含义
T a b l e 1E x p l a n a t i o n o f w o r d s u s e d i n p a p e r
喷雾干燥法名称含义
x,x,X,D(常数,向量,矩阵,张量
T(^,n)张量n-M ode展开函数
X n
张量与矩阵的n阶模乘
a数据集合
mod取余操作
A评价指标,如RM SE,R-square,ER等
ti n)第n个缺失数据
4”)第n个缺失数据估计值
3.1张置理论基础
矩阵乘积:给定矩阵A e R m和矩阵B e R,我们称C
和B的乘积,用A B表示,其第(i,k)项如公式 (1)所示.当A的列数与B的行数相同时,矩阵乘积才有意 义.
心=⑴n-M o d e展开:对于张量R h+ 4,从指定的第n阶 上进行切割得到若干数据切片,其中1矣n矣r.将得到的切片 以1…为行,按顺序展开合并成矩阵,我们将这一过程称为张 量的n-M o d e展开.本文用r(«,n)表示张量在第n阶的展开 矩阵,如公式(2)所示:
X= r(£V,n)g R ln,<n k=i.k»<n lk(2) n阶模乘:给定张量W_'_4和矩阵先
将张量》在第n阶上进行n-Mode展开,然后将M与展开得 到的矩阵相乘得到矩阵乘积,最后将得到的矩阵在第n阶上 重建张量,表达式如公式(3)所示:
C<X…M e R…1r(3)
图1T u c k e r分解
F i g. 1T u c k e r d e c o m p o s i t i o n
T u c k e r:以三阶张量久e R W l3为例,如图1所示,将久 分解为一个核张量今和3个因子矩阵U,e R ||><、1;2£111^4,1]3曰》131<、核张量乡包含了不同阶之间 的潜在相关性,因子矩阵U,,U2,U3可以理解为张量模型在 各个阶的主成分,他们通常是两两正交的,三阶张量的T u c k e
r
胡雪等:张量表达下的多模态交通缺失数据补全算法107
视规
-^19191
非结构化数据
交通蓝授
数据、G P s g j g ^l  结构化数据
图2多模态交通数据
Fig . 2 Multimodal  traffic  data
数据融合技术已在多传感器环境中广泛应用,目的是通 过使用多源数据来获得较高的可靠性.但由于各种传感器的 特点以及数据类型的差异,以更小的代价获取更髙质量的信 息并不是一件简单的事情.在过去的十几年中,学者们对数据 融合做了较多的研究,主要包括信息融合的方法、结构、层次 以及信息的表示和转换.但对于多模态交通数据的融合目前 的研究本不是很多.本文针对非结构化(道路监控视频)和结 构化(车流量)两大类交通数据,进行张量建模,并对其所包 含的缺失数据进行补全.
3.3问题定义
结合上文提出的多模态交通数据张量模型,我们分别用 R  表示完整数据和缺失权重张量.便于分析,我们将分成实验数据和检验数据两部分实验数据(即缺失 数据)用于验证缺失值估计的误差,用%,,B.a  =〇表示.已知 数据用用T V e 』=1表示,所有已知数据的集合用f t 表示,如
公式(5)所示:
f 1,史il,i 2,a e  〇 !•〇,少il.i2,i3 隹 Q
我们可以根据得到包含缺失的实验数据集表达
如公式(6)所示:
(5)
1期
分解表达式如公式(4)所示:
x 2U 2 x 3U 3
或3E L  :!::•, E ::,久
(4)
3.2多模态交通数据
生活中,交通数据的完整性对于进一步数据分析、智能交
通的优化等具有十分重要的作用,如图2所示.随着技术的发 展,我们收集交通数据的方法也越来越多,道路监控数据、流 量检测、GPS 定位等设备都收集了成千上万的数据.这些数据 由于来源的不同,导致了他们的编码方式、语义的差异,构成 了信息孤岛.但来自于不同平台的异构数据,往往存在着相关 性.例如对于同一路口的监控录像和车流量对于该路段的实 时车况有着很髙的价值,同时经过该路段的GPS 数据对于我 们交通规划也有很大的帮助.因此,将不同类型的交通数据通 过特定的方法,本文采用张量进行融合后,将原本无法交互的 信息进行统一映射,便于后续进一步挖掘交通信息的相关性, 提高交通数据的利用率,这一过程对于智能交通规划、拥塞避 免、智慧城市有着很大的意义.
交|驚据@通网络规@ (拥!苎免)
(智慧城市)
^11,12,0 = ^1,12,13^1,12,13
(6)
多模态交通数据张量化后,估计缺失数据可以视为一个
张量补全问题,其目标是通过张量分解对缺失值进行估计,并 且使估计值尽可能地接近真实值.用久
表示填充后的数据 集,那么,我们可以用公式(7)来表示目标函数:
min | <P-<x\,s. t. €P a  =3fn (7)
4 T C M D -I A
4.1多模态交通数据的表达
结合交通数据,本文针对两种不同类型的数据进行缺失 值估计:1)非结构化数据,主要包含道路监控视频;2)结构 化数据,主要针对车流量检测数据.交通监控视频主要包括视 频帧、分辨率、彩空间等特征.其中分辨率由像素宽和高组 成,彩空间可用RGB 表示.又可利用灰度值将三维RGB 转 化为一维灰度值.转化公式如公式(8)所示:
Gray = 0.299Red + 0. 587Green +0.114Blue (8)
因此,视频数据可用三阶张量表示,其中 Iw ,表示水平像素点,IH ,表示垂直像素点,Ire 表示视频帧数,对 应的数据为该像素点的灰度值.
车流量检测数据通过道路检测设备采集,每间隔一段时 间收集通过车辆数目,可根据不同时间间隔分成不同的时间
片数据.根据文献[14]中提出车流量信息以天和周为时间切 割单位时具有一定的循环性和相关性,因此本文构造R
来表达车流量数据,其中I x ]表示一天中测试车流量 次数,ID A 表示按天为单位划分,IW E 表示按周为单位划分,对
应的每个单元数据为车流量.
得到上述两种不同类型的交通数据张量模型后,我们观 察可知,视频数据的水平和垂直像素维数是固定的,帧数可随 着监控时长增加.同时,车流量数据划分之后,每天的测试次 数与每周的天数是固定的,测试的周数是可增加的.即a ,7 第一、二阶上的维度是不变的,第三阶的维度会随着时间的增 加而变大.基于此,我们将上述两种不同类型数据映射到同一 张量P 中,在第一阶上取口,7维度之和,对其进行叠加映射. 在第二阶上取对应维度的较大值,较小张量的对应缺失 数据置空第三阶的维数取决于时间长短.得到融合了结构化 与非结构化数据统一表达张量A
4.2基于T u c k e r -C r o s s o v e i •的多模态数据补全算法
上节我们已经将两种不同类型的交通数据统一映射到张 量空间中,本节我们将重点介绍Tucker-Crossover 模型,并将 其应用到多模态张量表达下的交通数据补全上,并提出基于 Tucker-Crossover
的多模态交通数据补全算法(TCMD-IA ). 该方法利用了最小二乘法Tucker 分解,计算三阶张量模型的 核张量和各阶的因子矩阵.并提取核矩阵与另一阶的因子矩 阵进行交叉相乘,将各阶的潜在相关性融合到因子矩阵中,使 其更具有特征性,增加了缺失数据补全的准确性.
结合前文定义的P 和构造包含缺失的多模态交通数 据集M  e  R  h  4xl 3,通过最小二乘法的Tucker 选取合适的初始 核张量将张量进行n -Mode 展开后与初始因子 矩阵相乘,计算该次迭代的特征值与特征向量,排序后选取前 n 个特征值所对应特征向量作为因子矩阵组成.迭代至收敛, 可以得到最终的核张量S 和因子矩阵U ,,即算法1中的F ,.
脏数据处理
108小型微型计算机系统2021 年
Ft e R''xL',where t = 1,2,3(9)核张量s表达了各阶上数据之间的潜在相关性,因子矩
阵则代表着各阶的主要特征.针对不同的数据,核张量不同.为了进一步利用各阶之间的潜在相关性,本文定义了核张量 在第t阶的特征矩阵为核矩阵C,.
C, e R L'xL', where / = 1,2,3 (10)为了更好地利用各阶之间的潜在相关性,我们将因子矩 阵F,与下一阶的核矩阵C,进行交叉相乘,得到特征矩阵R,,最后结合T u c k e r进行张量的重建,得到的:V为补
全缺失值后 的完整数据集.该操作再次利用不同阶之间的潜在相关性,将 阶之间的特征融合到特征矩阵中,从而提高了算法对于数据 补全的准确性.
R,= F,Ck,w h e r e k= (t+ 1)mod3 (11)
D( = s x,R,x2R2x3R3(12) TCMD-IA的伪代码如算法1所示.算法第1行通过缺失 权重张量w构造了包含缺失的实验数据集如公式(6)所 示第2.12行为最小二乘法的T u ck er分解,通过迭代将实验 数据集分解成核张量S和因子矩阵F,两部分.第13-18行构 造了核矩阵C,,将因子矩阵与下一阶的核矩阵进行信息融合,计算特征矩阵R,.第19行重建完整张量可视为补全后的数据集.第20-22行,通过不同的评价指标对缺失值补全效 果进行估计.
算法1.基于T u c k e r-C r o s s o v e r的多模态交通数据补全算法
输入:包含完整数据和缺失权重张量史,R卩*〜和最大迭代次数m a x l t e r a t e
输出:补全评价指标A慧美杂志
1.^h—(!P,nv);
#通过最小二乘法Tucker分解构建核张量与因子矩阵
2. Initial U;
3. For iterate i in 1: maxlterate do
4. For order n in 1 :3 do
5. <u = ttm(〇?,U,-n);
6. U| n| = nvecsC'W.n);
7. End For
8.    c = ttm(T^,U,n);
9. End For
10. Ttensor = ttensor( <J,U);
11. N = ndims(〇;#计算核张量各阶维数
12.    B = Ttensor. C\
13. For order t in 1:3 do
14. Ft= A Ttensor. U t#因子矩阵
15. Ct=Ft(l:N U|核矩阵
16. k = (t + 1) mod 3 ;
17. R,=F,C k;#特征矩阵
18. End For
19. a = B x丨R丨x2R2x3R3;#重构张量
abl20. For missing i tem in ^do
21.    A =Eval(iP,£X,);
22.End for
5实验分析
5.1数据来源
实验道路监控视频与车流量数据采集于上海市杨浦区某 路段.车流量数据选取的时间节点为2019年9月1日-2019 年9月30日,每天的13点-21点,以1分钟为单位采集通过 车辆数,共14,400条数据.道路监控视频像素656 * 656,共 650 帧.
5.2评价指标
实验采用均方根误差(R o o t Mean S q u a r e d E r r o r,RMSE)作为数据补全误差准则,如公式(13)所示.其中,N为缺失数 据的数量,表示第n个缺失数据表示第n个缺失数 据的估计值.从公式可知,当R M S E的值越小,说明估计的数 据与真实值之间的误差越小,数据补全效果越好.
RMSE =
N
(13)
确定系数(R-s q u a r e)通过数据变化来评估拟合的好坏,其取值范围为[0,1],越接近1表示拟合效果越好.其中,&为已知数据的平均值.表达式如公式(14)所示:
R-square =
I I,
S:=,(^-o2
闽江大学(14)
错误率(E r r o r R a t i o,ER)用来度量估计后张量项的恢复 误差,其表达式如公式(15)所示,值域为[0,1],值越接近0 表示数据补全的效果越接近真实值.
/I:,W))2
(15) 5.3实验结果与分析
实验1.核张量大小对实验结果影响
实验通过设置核张量在各个阶上维数的不同,探究了核张 量大小对缺失数据估计的影响.本节根据核张量各阶维数的比 例,选取了[50 ~ 300,50 ~ 200,50 - 70]的取值范围,通过随机 组合共设置了 12组不同大小的核张量来探究核张量对缺失数 据估计效果的影响,如表2所示.图3给出不同核张量大小对伊枯草菌素
表2核张量表
Table 2Core tensor table
标号核张量
C1[50,50,50]
C2[100,50,50]
C3[200,50,50]
C4[300,50,50]
C5[100,100,50]
C6[100,200,40]
C7[200,100,30]
C8[100,200,60]
C9[300,200,60]
C10[200,200,50]
C11[200,200,60]
C12[200,200,70]
缺失数据的补全效果R M S E折线对比图.从图中可以看出,C1-C4的R M S E较大,保持在112.3左右.随着第二阶维数的
胡雪等:张量表达下的多模态交通缺失数据补全算法109 1期
增加,C5-C8的R M S E下降至110附近.C9-C12四组的R MS E相对较小,且C10所包含的数据最少.因此,在后续实 验中,我们选取C10所对应的核张量大小,g卩[200,200,50].
113「
—<(N m rf«0'〇r^-00〇N〇—C S
核张量
图3核张量对补全效果影响
F i g.3 E f f e c t s o f c o r e t e n s o r o n c o m p l e t i o n
实验2.与其他缺失值填充方法的比较
在实验1的基础上,我们确定了核张量的大小,本节实验 目的在于验证T CM D-IA算法对于多模态交通数据的补全. 在RMSE.R-s q u a r e和E R的评价标准下,对比了平均值方法、最大期望法[l5]、_、HaLRTC、多源数据修正模型w和T-CURE[n)6种不同的数据补全方法.其中,前4种方法为传统 缺失值补全方法,多源数据修正模型,本文记为M j,为多源 数据关联补全方法,T-C U R E为基于张量的补全方法.根据 本文所设定的多模态交通数据补全场景,我们对上述部分补 全方法进行了重新定义.其中,平均值方法将缺失数据在第三 阶的前后各K个维度数据的平均值作为估计值.假设当前缺
失数据为M,.b.。,则其估计值为&,本节实验中K取10.最大期望法根据文献[15]设置第1、2阶的数据 来回归缺值变量._是以缺失数据为中心,周围K3-l个数 据的平均值作为该数据的估计值.针对方法,本文设置 60%的数据为训练集,40%的数据为检验集.
图4不同补全方法效果对比图
F i g.4 C o m p a r i s o n o f d i f f e r e n t c o m p l e t i o n m e t h o d s
实验设定少,90:100 ]为缺失数据,其余数据为已知 数据,结果如图4所示.R M S E子图中,最大期望法的误差最 小,TCMD-IA仅次于最大期望法,且与前者差距较小,平均值 法的误差最大.R-s q u a r e子图中,TCMD-IA的得分最大,拟合 效果最好,最大期望值得分最小.E R子图中,TCMD-1A的错 误率最小,平均值法最大.综合3种评价指标,我们可知T-C UR E与TCMD-IA两种基于张量的方法,相比于传统方法对 于缺失值处理的整体效果更佳,进一步验证了前文给出的张 量在数据处理领域的表现.TCMD-IA通过T u c k e r分解所得 的各阶特征矩阵和不同阶之间的相关性,更好地利用了已知 数据,从而提高了数据补全的准确性,整体效果均优于T-CURE.
实验3.不同缺失率下的数据补全效果
实验通过选取了不同的缺失率(M i s s i n g R a t i o,M R)来进 一步衡量TCMD-IA对于多模态交通数据的补全效果.缺失率从10% -80%,每增加10%计算数据估计的R M S E、R-s q u a r e和E R值,实验结果如表3所示.从表中可知,随着缺失 率不断增加,TCMD-IA的补全效果在3种评价指标下均表现 优秀,其R M S E稳定在23左右,R-s q u a r e维持在0. 7 ,E R恒定
表3不同缺失率下的数据补全实验结果
T a b l e3 E x p e r i m e n t a l r e s u l t s o f d a t a
c o m p l e t i o n u n
d
e r d i
f f e r e n t m i s s r a t e s
MR(% )RMSE R-square ER
1023.32410.74560.3156
2023.23390.72640.3321
3023.14370.78000.3098
4022.34280.78230.2989
5022.90350.77230.3421
6022.90720.79020.3002
7023.01210.77240.3156
8022.32910.79240.2956
在0.3,具有较高的鲁棒性.这表明T CM D-IA在对数据补全 的过程中,通过采用Tu cker分解,对已知数据的比例要求并不是十分严格,仅需要少量已知数据即可进行高质量数据估 计,因此更适合于缺失率较大的情况.
6结论
多模态交通数据的表达有利于数据的统一处理,同时,交 通数据的补全可以帮助我们更好地挖掘数据的相关性和潜在 价值,进一步为智能交通网络规划、避免拥堵等应用提供可靠 数据.本文所提的模型将结构化与非结构化数据通过张量方 法进行融合表达,并在此基础上提出了基于T u c k e r-C r o s s o v e r 的多模态数据补全算法(T CM D-IA).该方法通过T u c k e i■分解,将因子矩阵与另一阶分解所得核矩阵交叉相乘,更好地融 合了阶与阶的特征,进一步利用了不同阶的潜在相关性,从而 提高算法的补全效果.在真实数据集上实验表明,文本所提算 法具有更好地补全效果和鲁棒性.下一步工作将继续考虑更 多不同类型的数据进行融合,提髙缺失数据统一补全的效果.
References:
[1] Zhang J,W ang F Y,W ang K,et al. Data-driven intelligent transpor­
tation systems:a survey [ J ]. IEEE Transactions on Intelligent Transportation System s,2011,12(4) : 1624-1639.
[2] Ni D,Leonard J D,Guin A,et al. Multiple imputation scheme for o-
vercoming the missing values and variability issues in ITS data[ J].
Journal of Transportation Engineering,2005,131 (12) :931-938. [3] Qu L,Zhang Y,H u J,et al. A BPCA based missing value imputing
method for traffic flow volume data[ C]//IE E E Intelligent Vehicles Symposium,正E E,2008:985 -990.
[4] Qu L,L i L,Zhang Y,et al. PPCA-based missing data imputation for
traffic flow volume:a systematical approach[ J]. IEEE Transactions on Intelligent Transportation System s,2009,10(3) :512-522.
[5] Acar E,Dunlavy D M,Kolda T G,et al. Scalable tensor factoriza­
tions for incomplete data[ J]. Chemometrics and Intelligent Labora­tory System s,2011,106( 1) :
41-56.

本文发布于:2024-09-22 01:14:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/531186.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   交通   缺失   补全   矩阵   模态   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议