张量表达下的多模态交通缺失数据补全算法

小型微型计算机系统

J o u r n a l o f C h i n e s e C o m p u t e r S y s t e m s 2021年1月第1期 V o l.42 No. 12021

张量表达下的多模态交通缺失数据补全算法

胡雪，彭敦陆

(上海理工大学光电信息与计算机工程学院，上海2_3)

E-mail ：***************

摘要：来自多源感知设备所采集的多模态交通数据，由于探测设备、网络、数据传输等错误往往存在丢失.交通数据的缺失对交通网络智能规划、避免拥堵等会产生重大的负面影响.同时，来自于不同平台数据的编码方式、标识存在差异，很大程度上影响了交通数据的利用.基于此，本文针对交通监控视频与车流量探测数据，结合张量理论，建立了用以描述多模态交通数据的张量模型，并提出了基于 T u c k e r-C r o s s o v e r的多模态数据补全算法（T u c k e r-C r o s s o v e r b a s e d M u l t i m o d a l D a t a I m p u t a t i o n A l g o r i t h m, TCMD-IA)，用于多模态交通缺失数据的补全.该方法利用T u c k e r分解后不同阶的因子矩阵和核矩阵进行相关性融合，从而提高缺失值估计效果.在真实交通数据集上的实验表明，TCMD-IA的多模态交通缺失数据补全效果优于其他方法，且具有较好的鲁棒性.

关键词：张量；多模态交通数据;T CM D-IA；缺失数据

中图分类号：TP311 文献标识码:A文章编号：1000-1220(2021)014105~06

Imputation Algorithm for Multimodal Missing Traffic Data Based on Tensor

HU Xue.PENG D u n-l u

(Schcx)l of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

Abstract：M u l t i-m c x l a l t r a f f i c d a t a c o l l e c t e d f r o m m u l t i-s o u r c e s e n s i n g e q u i p m e n t s a r e o f t e n l o s t d u e t o e r r o r s i n d e t e c t i n g e q u i p m e n t s, n e t w o r k a n d d a t a t r a n s m i s s i o n.T h e i n c o m p l e t e n e s s o f t r a f f i c d a t a w i l l h a v e a n e g a t i v e i m p a c t o n t h e i n t e l l i g e n t p l a n n i n g o f t h e t r a f f i c n e t w o r k a n d t h e a v o i d a n c e o f c o n g e s t i o n.A t t h e s a m e t i m e,t h e r e a r e d i f f e r e n c e s i n t h e e n c o d i n g a n d m a r k i n g o f d a t a f r o m d i f f e r e n t p l a t f o r m s,w h i c h g r e a t l y a f f e c t t h e u t i l i z a t i o n o f t r a f f i c d a t a.B a s e d o n t h i s,t h i s p a p e r p r o v i d e s a t e n s o r m o d e l t o d e s c r i b e m u l t i-m o d a l t r a f f i c d a t a b a s e d o n t r a f f i c s u r v e i l

l a n c e v i d e o a n d v e h i c l e-f l o w d e t e c t i o n d a t a.B e s i d e s,we p r o p o s e a T u c k e r-C r o s s o v e r b a s e d M u l t i-m c x l a l D a t a I m p u t a t i o n A l g o r i t h m (T CM D-IA)f o r t h e c o m p l e t i o n o f m u l t i-m o d a l m i s s i n g t r a f f i c d a t a.T h i s m e t h o d f u s e s t h e f a c t o r m a t r i x a n d c o r e m a t r i x o f d i f f e r e n t o r d e r,t h e c o m p o n e n t s o f T u c k e r d e c o m p o s i t i o n,t o i m p r o v e t h e e f f e c t o f m i s s i n g v a l u e e s t i m a t i o n.

E x p e r i m e n t s o n r e a l t r a f f i c d a t a s e t s s h o w t h a t TCMD-IA c a n b e t t e r c o m p l e t e t h e m i s s i n g d a t a o f m u l t i-m o d a l t r a f f i c a n d h a s g o o d r o-b u s t n e s s t h a n o t h e r m e t h o d s.

Key words：t e n s o r；m u l t i m o d a l t r a f f i c d a t a；TCMD-IA；m i s s i n g d a t a

i引言

近年来，汽车数量的快速增长导致道路拥挤现象越来越严重，对交通管理的智能化迫在眉睫.行车数据是进行智能交通网络规划、避免拥堵等应用的基础，完整的数据有利于提取有价值的交通信息.然而，实际采集的真实数据，由于检测器故障、通信处理错误等各种因素，往往使得来自多源感知设备的交通数据产生丢失的情况，甚至在一些情况下非常普遍[u.同时，高速公路摄像头（监控视频、图像等）、流量检测器等所采集的多模态交通数据，其编码方式、语义、标识存在差异，导致了信息无法

融合，形成一个个信息孤岛.如何髙效地实现多模态交通数据缺失值补全具有明显的现实应用意义.

国内外学者提出了许多交通数据缺失的补全方法.研究人员最初将历史（最近邻）归责方法[2]应用到交通数据补全上.随后基于主成分分析提出了大量数据补全方法，如贝叶斯主成分分析(B P C A)[3]和概率主成分分析法(P P C A).作为一种能够综合表达数据的工具，近年来张量在数据处理领域中快速发展，尤其是在交通数据处理和挖掘领域应用越来越广.Acar[5]等人提出了用加权优化的C P分解（C P-W O P T)处理缺失值，通过实验验证具有很好的性能.

尽管在单一数据源时具有较好的表现，但这些方法没有对多模态数据集合进行缺失数据补全的进一步研究.基于此，本文针对交通监控视频（非结构化数据）与车流量探测数据 (结构化数据），建立了用以描述多模态交通数据的张量模型，同时提出了基于Tucker-Crossovei■的多模态数据补全算法 (Tucker-Crossover based Multimodal Data Imputation Algo- rithm,TCM D-IA).该方法融合了非结构化与结构化数据，通过张量对不同类型的数据进行统一表达，并改进Tucker分解所得的因子矩阵，将其与另一阶上所得的核矩阵进行特征融

收稿日期:2020*01>05收修改稿日期:202(M)l-22基金项目：国家自然科学基金项目（6177；2342,617〇3278)资助.作者简介：胡雪，女，1994年生，硕士研究生，研究方向为自然语言处理及数据融合；彭敦陆，男，1974年生，博士，教授,C C F会员，研究方向为大数据管理、W eb数据管理、机器学习和自然语言处理.

106小型微型计算机系统2021 年

合，从而进一步提高数据补全的准确性.结合真实的多模态交通数据集实验，结果证明TCMD-IA对于多模态缺失数据的补全效果优于其他方法，且鲁棒性好.

论文其余部分的组织如下：第2部分介绍近年来交通数据缺失值估计的研究结果；第3部分给出本文所用符号的含义、张量理论基础、多模态交通数据及问题定义；第4部分给出多模态交通数据的表达和本文提出的基于T u c k e r-C r o s s-o v e i■的多模态数据补全算法(T CM D-IA)；第5部分在真实数据集上进行实验，对所提算法进行有效性验证；第6部分给出论文的结论.

2相关工作

过去几十年中，学者们提出了各种补全算法已经被应用到缺失值补全中.历史（最近邻）归责方法[2]通常用邻近几天同一时间、地点的已知数据，通过取平均值等简单操作进行填补.Qu[M1等人提出了 BPCA和PPCA，综合考虑了交通数据的日周期性和区间变化，是解决交通流量数据估计的经典方法，并通过实验证明了其有效性.L i u[6]等人首次提出了一种基于迹范数最小化的张量补全方法（HaLRTC).他们推广了矩阵迹范数并定义了张量跟踪范数，从而将张量补全问题表示为一个凸优化问题.Z h a o m提出了一种基于分布式减法聚类的数据填充方法，通过利用云计算技术优化聚类算法，根据聚类结果和加权距离进行填充.Han[8]等人提出了一种基于不完备集的双向聚类的算法，通

过双聚类的完美簇的特性来构造属性差异矩阵，保存了对象之间的最大相似属性集，进而以双聚类的结果对缺失数据迸行填补.〇[9]等人使用同类簇的均值对不完备数据进行预填充，通过形成初始完备数据集，进一步对数据集聚类，并运用同类簇的均值修正初始充填值.

在交通数据分析上,Tan[l°]等人提出了多模式关联张量模型，将交通数据分为链路、周、天、小时4个不同模式，构建了四阶张量交通数据表达模型.并提出了基于T u c k e r分解的流量数据注人方法（TDI)，用于处理缺失数据的问题.该方法在保留矩阵模型优点的基础上，更好地挖掘了交通数据的潜在相关性.A s i f m]等人通过提取大型路网中常见的交通模式来估计缺失值，采用定点连续的近似奇异值分解、正则多进分解、最小二乘和变分贝叶斯主成分分析，提出了多种基于矩阵和张量的交通数据补全方法.Chen[l2]等人将贝叶斯概率矩阵分解模型推广到高阶张量，并将其应用于时空交通数据的输人任务，通过大量实验探讨了不同的数据表示方式对归责性能的影响.L i n[l3]等人提出了一种基于张量分解的张量补全算法，并在算法中引人了时空正则化约束，提高了算法的补全性能，该算法利用该代数框架对交通数据的缺失进行处理效率更高.

目前交通数据的补全研究绝大多数是针对结构化数据，对于多模态交通数据的研究相对较少，而多源的异构数据进行融合处理对于交通数据的利用十分重要.因此，在本项研究中，我们提出了 TCMD-IA方法，对结构化和非结构化两种类型的数据缺失值进行补全.该方法通过构造合适的三阶张量来表达包含时空信息的多模态交通数据，结合T u ck er分解，对其进行最小二乘法分解所得的因子矩阵与核

矩阵进行交叉相乘，融合了不同阶之间的潜在相关信息，从而提髙对缺失数据的补全效果，通过实验证明该方法的估计效果优于其他方法，且具有较好的鲁棒性.

3准备工作

本节主要介绍多模态交通数据，并且给出下文所需张量理论基础、多模态交通数据知识，同时定义了如何对缺失数据进行补全.3. 1节给出所需张量理论基础.3. 2节介绍了多模态交通数据.3. 3定义了本文所研究的问题.文章用到的符号以及其所代表的含义见表1.

表1文章中所用符号其含义

T a b l e 1E x p l a n a t i o n o f w o r d s u s e d i n p a p e r

名称含义

x，x，X，D(常数，向量，矩阵，张量

T(^,n)张量n-M ode展开函数

X n

张量与矩阵的n阶模乘

a数据集合

mod取余操作

A评价指标，如RM SE,R-square,ER等

ti n)第n个缺失数据

4”）第n个缺失数据估计值

3.1张置理论基础

矩阵乘积：给定矩阵A e R m和矩阵B e R，我们称C

和B的乘积，用A B表示，其第（i,k)项如公式 (1)所示.当A的列数与B的行数相同时，矩阵乘积才有意义.

心=⑴n-M o d e展开：对于张量R h+ 4，从指定的第n阶上进行切割得到若干数据切片，其中1矣n矣r.将得到的切片以1…为行，按顺序展开合并成矩阵，我们将这一过程称为张量的n-M o d e展开.本文用

r(«，n)表示张量在第n阶的展开矩阵，如公式(2)所示：

X= r(£V,n)g R ln，<n k=i.k»<n lk(2) n阶模乘：给定张量W_'_4和矩阵先

将张量》在第n阶上进行n-Mode展开，然后将M与展开得到的矩阵相乘得到矩阵乘积，最后将得到的矩阵在第n阶上重建张量，表达式如公式(3)所示：

C<X…M e R…1r(3)

图1T u c k e r分解

F i g. 1T u c k e r d e c o m p o s i t i o n

T u c k e r：以三阶张量久e R W l3为例，如图1所示，将久分解为一个核张量今和3个因子矩阵U,e R ||><、1；2£111^4,1]3曰》131<、核张量乡包含了不同阶之间的潜在相关性，因子矩阵U,，U2,U3可以理解为张量模型在各个阶的主成分，他们通常是两两正交的，三阶张量的T u c k e

胡雪等：张量表达下的多模态交通缺失数据补全算法107

视规

-^19191

非结构化数据

交通蓝授

数据、G P s g j g ^l 结构化数据

图2多模态交通数据

Fig . 2 Multimodal traffic data

数据融合技术已在多传感器环境中广泛应用，目的是通过使用多源数据来获得较高的可靠性.但由于各种传感器的特点以及数据类型的差异，以更小的代价获取更髙质量的信息并不是一件简单的事情.在过去的十几年中，学者们对数据融合做了较多的研究，主要包括信息融合的方法、结构、层次以及信息的表示和转换.但对于多模态交通数据的融合目前的研究本不是很多.本文针对非结构化（道路监控视频）和结构化（车流量）两大类交通数据，进行张量建模，并对其所包含的缺失数据进行补全.

3.3问题定义

结合上文提出的多模态交通数据张量模型，我们分别用 R 表示完整数据和缺失权重张量.便于分析，我们将分成实验数据和检验数据两部分实验数据（即缺失数据)用于验证缺失值估计的误差，用％,,B.a =〇表示.已知数据用用T V e 』=1表示，所有已知数据的集合用f t 表示，如

公式(5)所示：

f 1，史il,i 2,a e 〇 !•〇，少il.i2，i3 隹 Q

我们可以根据得到包含缺失的实验数据集表达

如公式(6)所示：

(5)

1期

分解表达式如公式(4)所示：

x 2U 2 x 3U 3

或3E L ：!：：•, E ：：，久

(4)

3.2多模态交通数据

生活中，交通数据的完整性对于进一步数据分析、智能交

通的优化等具有十分重要的作用，如图2所示.随着技术的发展，我们收集交通数据的方法也越来越多，

道路监控数据、流量检测、GPS 定位等设备都收集了成千上万的数据.这些数据由于来源的不同，导致了他们的编码方式、语义的差异，构成了信息孤岛.但来自于不同平台的异构数据，往往存在着相关性.例如对于同一路口的监控录像和车流量对于该路段的实时车况有着很髙的价值，同时经过该路段的GPS 数据对于我们交通规划也有很大的帮助.因此，将不同类型的交通数据通过特定的方法，本文采用张量进行融合后，将原本无法交互的信息进行统一映射，便于后续进一步挖掘交通信息的相关性, 提高交通数据的利用率，这一过程对于智能交通规划、拥塞避免、智慧城市有着很大的意义.

交|驚据@通网络规@ (拥！苎免)

(智慧城市)

^11,12,0 = ^1,12,13^1,12,13

(6)

多模态交通数据张量化后，估计缺失数据可以视为一个

张量补全问题，其目标是通过张量分解对缺失值进行估计，并且使估计值尽可能地接近真实值.用久表示填充后的数据集，那么，我们可以用公式(7)来表示目标函数：

min | <P-<x\,s. t. €P a =3fn (7)

4 T C M D -I A

4.1多模态交通数据的表达

结合交通数据，本文针对两种不同类型的数据进行缺失值估计:1)非结构化数据，主要包含道路监控视频;2)结构化数据，主要针对车流量检测数据.交通监控视频主要包括视频帧、分辨率、彩空间等特征.其中分辨率由像素宽和高组成，彩空间可用RGB 表示.又可利用灰度值将三维RGB 转化为一维灰度值.转化公式如公式(8)所示：

Gray = 0.299Red + 0. 587Green +0.114Blue (8)

因此，视频数据可用三阶张量表示，其中 Iw ，表示水平像素点,IH ，表示垂直像素点,Ire 表示视频帧数，对应的数据为该像素点的灰度值.

车流量检测数据通过道路检测设备采集，每间隔一段时间收集通过车辆数目，可根据不同时间间隔分成不同的时间

片数据.根据文献[14]中提出车流量信息以天和周为时间切割单位时具有一定的循环性和相关性，因此本文构造R

来表达车流量数据，其中I x ]表示一天中测试车流量次数，ID A 表示按天为单位划分,IW E 表示按周为单位划分，对

应的每个单元数据为车流量.

得到上述两种不同类型的交通数据张量模型后，我们观察可知，视频数据的水平和垂直像素维数是固定的，帧数可随着监控时长增加.同时，车流量数据划分之后，每天的测试次数与每周的天数是固定的，测试的周数是可增加的.即a ,7 第一、二阶上的维度是不变的，第三阶的维度会随着时间的增加而变大.基于此，我们将上述两种不同类型数据映射到同一张量P 中，在第一阶上取口，7维度之和，对其进行叠加映射. 在第二阶上取对应维度的较大值，较小张量的对应缺失数据置空第三阶的维数取决于时间长短.得到融合了结构化与非结构化数据统一表达张量A

4.2基于T u c k e r -C r o s s o v e i •的多模态数据补全算法

上节我们已经将两种不同类型的交通数据统一映射到张量空间中，本节我们将重点介绍Tucker-Crossover 模型，并将其应用到多模态张量表达下的交通数据补全上，并提出基于 Tucker-Crossover 的多模态交通数据补全算法（TCMD-IA ). 该方法利用了最小二乘法Tucker 分解，计算三阶张量模型的核张量和各阶的因子矩阵.并提取核矩阵与另一阶的因子矩阵进行交叉相乘，将各阶的潜在相关性融合到因子矩阵中，使其更具有特征性，增加了缺失数据补全的准确性.

结合前文定义的P 和构造包含缺失的多模态交通数据集M e R h 4xl 3，通过最小二乘法的Tucker 选取合适的初始核张量将张量进行n -Mode 展开后与初始因子矩阵相乘，计算该次迭代的特征值与特征向量，排序后选取前 n 个特征值所对应特征向量作为因子矩阵组成.迭代至收敛, 可以得到最终的核张量S 和因子矩阵U ,，即算法1中的F ,.

脏数据处理

108小型微型计算机系统2021 年

Ft e R''xL',where t = 1,2,3(9)核张量s表达了各阶上数据之间的潜在相关性，因子矩

阵则代表着各阶的主要特征.针对不同的数据，核张量不同.为了进一步利用各阶之间的潜在相关性，本文定义了核张量在第t阶的特征矩阵为核矩阵C,.

C, e R L'xL', where / = 1,2,3 (10)为了更好地利用各阶之间的潜在相关性，我们将因子矩阵F，与下一阶的核矩阵C，进行交叉相乘，得到特征矩阵R,，最后结合T u c k e r进行张量的重建，得到的:V为补全缺失值后的完整数据集.该操作再次利用不同阶之间的潜在相关性，将阶之间的特征融合到特征矩阵中，从而提高了算法对于数据补全的准确性.

R,= F,Ck,w h e r e k= (t+ 1)mod3 (11)

D( = s x,R,x2R2x3R3(12) TCMD-IA的伪代码如算法1所示.算法第1行通过缺失权重张量w构造了包含缺失的实验数据集如公式（6)所示第2.12行为最小二乘法的T u ck er分解，通过迭代将实验数据集分解成核张量S和因子矩阵F，两部分.第13-18行构造了核矩阵C,，将因子矩阵与下一阶的核矩阵进行信息融合，计算特征矩阵R,.第19行重建完整张量可视为补全后的数据集.第20-22行，通过不同的评价指标对缺失值补全效果进行估计.

算法1.基于T u c k e r-C r o s s o v e r的多模态交通数据补全算法

输入：包含完整数据和缺失权重张量史，R卩*〜和最大迭代次数m a x l t e r a t e

输出：补全评价指标A

1.^h—(!P,nv)；

#通过最小二乘法Tucker分解构建核张量与因子矩阵

2. Initial U；

3. For iterate i in 1： maxlterate do

4. For order n in 1 ：3 do

5. <u = ttm(〇?,U,-n)；

6. U| n| = nvecsC'W.n)；

7. End For

8. c = ttm(T^,U,n)；

9. End For

10. Ttensor = ttensor( <J,U)；

11. N = ndims(〇;#计算核张量各阶维数

12. B = Ttensor. C\

13. For order t in 1：3 do

14. Ft= A Ttensor. U t#因子矩阵

15. Ct=Ft(l:N U|核矩阵

16. k = (t + 1) mod 3 ；

17. R,=F,C k;#特征矩阵

18. End For

19. a = B x丨R丨x2R2x3R3;#重构张量

20. For missing i tem in ^do

21. A =Eval(iP,£X,);

22.End for

5实验分析

5.1数据来源

实验道路监控视频与车流量数据采集于上海市杨浦区某路段.车流量数据选取的时间节点为2019年9月1日-2019 年9月30日，每天的13点-21点，以1分钟为单位采集通过车辆数，共14,400条数据.道路监控视频像素656 * 656，共 650 帧.

5.2评价指标

实验采用均方根误差（R o o t Mean S q u a r e d E r r o r，RMSE)作为数据补全误差准则，如公式（13)所示.其中，N为缺失数据的数量，表示第n个缺失数据表示第n个缺失数据的估计值.从公式可知，当R M S E的值越小，说明估计的数据与真实值之间的误差越小，数据补全效果越好.

RMSE =

(13)

确定系数（R-s q u a r e)通过数据变化来评估拟合的好坏，其取值范围为[0,1]，越接近1表示拟合效果越好.其中，&为已知数据的平均值.表达式如公式（14)所示：

R-square =

I I,

S：=,(^-o2

(14)

错误率(E r r o r R a t i o,ER)用来度量估计后张量项的恢复误差，其表达式如公式（15)所示，值域为[0,1]，值越接近0 表示数据补全的效果越接近真实值.

/I:,W))2

(15) 5.3实验结果与分析

实验1.核张量大小对实验结果影响

实验通过设置核张量在各个阶上维数的不同，探究了核张量大小对缺失数据估计的影响.本节根据核张量各阶维数的比例，选取了[50 ~ 300,50 ~ 200,50 - 70]的取值范围，通过随机组合共设置了 12组不同大小的核张量来探究核张量对缺失数据估计效果的影响，如表2所示.图3给出不同核张量大小对

表2核张量表

Table 2Core tensor table

标号核张量

C1[50,50,50]

C2[100,50,50]

C3[200,50,50]

C4[300,50,50]

C5[100,100,50]

C6[100,200,40]

C7[200,100,30]

C8[100,200,60]

C9[300,200,60]

C10[200,200,50]

C11[200,200,60]

C12[200,200,70]

缺失数据的补全效果R M S E折线对比图.从图中可以看出，C1-C4的R M S E较大，保持在112.3左右.随着第二阶维数的

胡雪等：张量表达下的多模态交通缺失数据补全算法109 1期

增加，C5-C8的R M S E下降至110附近.C9-C12四组的R MS E相对较小，且C10所包含的数据最少.因此，在后续实验中，我们选取C10所对应的核张量大小,g卩[200,200,50].

113「

—<(N m rf«0'〇r^-00〇N〇—C S

核张量

图3核张量对补全效果影响

F i g.3 E f f e c t s o f c o r e t e n s o r o n c o m p l e t i o n

实验2.与其他缺失值填充方法的比较

在实验1的基础上，我们确定了核张量的大小，本节实验目的在于验证T CM D-IA算法对于多模态交通数据的补全. 在RMSE.R-s q u a r e和E R的评价标准下，对比了平均值方法、最大期望法[l5]、_、HaLRTC、多源数据修正模型w和T-CURE[n)6种不同的数据补全方法.其中，前4种方法为传统缺失值补全方法，多源数据修正模型，本文记为M j，为多源数据关联补全方法，T-C U R E为基于张量的补全方法.根据本文所设定的多模态交通数据补全场景，我们对上述部分补全方法进行了重新定义.其中，平均值方法将缺失数据在第三阶的前后各K个维度数据的平均值作为估计值.假设当前缺

失数据为M,.b.。，则其估计值为&，本节实验中K取10.最大期望法根据文献[15]设置第1、2阶的数据来回归缺值变量._是以缺失数据为中心，周围K3-l个数据的平均值作为该数据的估计值.针对方法，本文设置 60%的数据为训练集，40%的数据为检验集.

图4不同补全方法效果对比图

F i g.4 C o m p a r i s o n o f d i f f e r e n t c o m p l e t i o n m e t h o d s

实验设定少,90:100 ]为缺失数据，其余数据为已知数据，结果如图4所示.R M S E子图中，最大期望法的误差最小,TCMD-IA仅次于最大期望法，且与前者差距较小，平均值法的误差最大.R-s q u a r e子图中,TCMD-IA的得分最大，拟合效果最好，最大期望值得分最小.E R子图中,TCMD-1A的错误率最小，平均值法最大.综合3种评价指标，我们可知T-C UR E与TCMD-IA两种基于张量的方法，相比于传

统方法对于缺失值处理的整体效果更佳，进一步验证了前文给出的张量在数据处理领域的表现.TCMD-IA通过T u c k e r分解所得的各阶特征矩阵和不同阶之间的相关性，更好地利用了已知数据，从而提高了数据补全的准确性，整体效果均优于T-CURE.

实验3.不同缺失率下的数据补全效果

实验通过选取了不同的缺失率（M i s s i n g R a t i o,M R)来进一步衡量TCMD-IA对于多模态交通数据的补全效果.缺失率从10% -80%，每增加10%计算数据估计的R M S E、R-s q u a r e和E R值，实验结果如表3所示.从表中可知，随着缺失率不断增加,TCMD-IA的补全效果在3种评价指标下均表现优秀，其R M S E稳定在23左右,R-s q u a r e维持在0. 7 ,E R恒定

表3不同缺失率下的数据补全实验结果

T a b l e3 E x p e r i m e n t a l r e s u l t s o f d a t a

c o m p l e t i o n u n

e r d i

f f e r e n t m i s s r a t e s

MR(% )RMSE R-square ER

1023.32410.74560.3156

2023.23390.72640.3321

3023.14370.78000.3098

4022.34280.78230.2989

5022.90350.77230.3421

6022.90720.79020.3002

7023.01210.77240.3156

8022.32910.79240.2956

在0.3，具有较高的鲁棒性.这表明T CM D-IA在对数据补全的过程中，通过采用Tu cker分解，对已知

数据的比例要求并不是十分严格，仅需要少量已知数据即可进行高质量数据估计，因此更适合于缺失率较大的情况.

6结论

多模态交通数据的表达有利于数据的统一处理，同时，交通数据的补全可以帮助我们更好地挖掘数据的相关性和潜在价值，进一步为智能交通网络规划、避免拥堵等应用提供可靠数据.本文所提的模型将结构化与非结构化数据通过张量方法进行融合表达，并在此基础上提出了基于T u c k e r-C r o s s o v e r 的多模态数据补全算法（T CM D-IA).该方法通过T u c k e i■分解，将因子矩阵与另一阶分解所得核矩阵交叉相乘，更好地融合了阶与阶的特征，进一步利用了不同阶的潜在相关性，从而提高算法的补全效果.在真实数据集上实验表明，文本所提算法具有更好地补全效果和鲁棒性.下一步工作将继续考虑更多不同类型的数据进行融合，提髙缺失数据统一补全的效果.

References：

[1] Zhang J,W ang F Y,W ang K,et al. Data-driven intelligent transpor

tation systems：a survey [ J ]. IEEE Transactions on Intelligent Transportation System s,2011,12(4) ： 1624-1639.

[2] Ni D,Leonard J D,Guin A,et al. Multiple imputation scheme for o-

vercoming the missing values and variability issues in ITS data[ J].

Journal of Transportation Engineering,2005,131 (12) ：931-938. [3] Qu L,Zhang Y,H u J,et al. A BPCA based missing value imputing

method for traffic flow volume data[ C]//IE E E Intelligent Vehicles Symposium，正E E，2008:985 -990.

[4] Qu L,L i L,Zhang Y,et al. PPCA-based missing data imputation for

traffic flow volume：a systematical approach[ J]. IEEE Transactions on Intelligent Transportation System s,2009,10(3) ：512-522.

[5] Acar E,Dunlavy D M,Kolda T G,et al. Scalable tensor factoriza

tions for incomplete data[ J]. Chemometrics and Intelligent Laboratory System s,2011,106( 1) ：

41-56.

本文发布于:2024-09-23 00:27:06，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/368893.html

上一篇：analytic model of

下一篇：数据库系统概论选择习题...

标签：数据交通缺失

留言与评论（共有 0 条评论）