基于相关性分析的指挥信息系统模拟数据集可用性评估算法

第42卷第2期兵工学报Vol.42No.2 2021年2月ACTA ARMAMENTARII Feb.2021
基于相关性分析的指挥信息系统
模拟数据集可用性评估算法
田相轩1,李军旗2,金丽亚1,刘正仁1,石志强1
(1.陆军装甲兵学院信息通信系,北京100072;2.陆军装甲兵学院科研学术处,北京100072)
摘要:针对指挥信息系统模拟数据集可用性评估难的问题,提出了基于相关性分析的指挥信息系统模拟数据集可用性评估算法。该算法定义了模拟数据集的相关性评价标准,分别构建了数据集的基本信息矩阵、冗余度张量、交互度张量;给出了交互信息和冗余信息计算的近似公式,通过爱因斯坦求和约束求解数据集的相关关系张量;根据深度学习中损失函数的思想,计算生成数据集与原始数据集可用性张量之间的误差距离。仿真结果表明,所提算法能够较好地表征数据集的可用性,为数据生成算法提供鉴定依据。
关键词:指挥信息系统;可用性;相关性;模拟数据集
中图分类号:E94文献标志码:A文章编号:1000-1093(2021)02-0399-09
DOI:10.3969/j.issn.1000-1093.2021.02.017
Simulation Dataset Usability Evaluation Algorithm Based on
Correlation Analysis for the Command Information System
TIAN Xiangxuan1,LI Junqi2,JIN Liya1,LIU Zhengren1,SHI Zhiqiang1
(1.Department of Information and Communication,Army Academy of Armored Forces,Beijing100072,China;
2.Department of Scientific and Academic,Army Academy of Armored Forces,Beijing100072,China)
Abstract:A correlation analysis-based usability evaluation algorithm(CA-UEA)of the simulation dataset for the command information system is proposed for assessing the usability of simulation dataset for the command information system based on correlation analysis.The relevance evaluation criteria of the simulation dataset are defined.The basic information matrix,redundancy tensor and interaction tensor are constructed separately.Approximate formulas for calculating interactive information and redundant information are proposed.The correlation tensor of dataset is solved by Einstein summation constraints.
And the error distance between the generated and original dataset usability tensors is calculated based on the loss function in deep learning.The simulated results show that the proposed algorithm can better represent the usability of dataset and provide the identification basis of the data generation algorithm.
Keywords:command information system;usability;correlation;simulation dataset
收稿日期:2020-06-09
基金项目:陆军武器装备军内科学研究项目(2020年)系泊系统
作者简介:田相轩(1990—),男,助教,硕士。E-mai1:tian_xiangxuan@qq
通信作者:石志强(1976—),男,副教授,硕士。E-mai1:shizhiq2020@126
400
兵工学报第42卷
0引言
信息技术的迅速发展,催生了大数据时代的到来,随着我军部队由信息化向智能化、单一兵种向合成化发展转变,基于大数据的模拟训练是实现战斗力生成的重要手段[1-3]0依托模拟训练系统开展指挥信息系统训练,需要数据增强系统生成数据支撑和驱动模拟训练,但是目前对于模拟数据集的可用性评估研究较少,无法鉴定模拟数据集在一致性、完整性、同一性上与真实数据集的差距。由于模拟数据质量不一,使得官兵在模拟训练过程中效率较低,能力提升速度较慢,降低了大规模投资的模拟训练系统的使用效能[4-6]o
在民用领域,大数据已经成为信息社会的重要财富,各种技术形式都由“人为建模”向“数据驱动”转变,然而随着数据规模的扩大,劣质数据也随之而来,极大地降低了大数据的可用性[7-8]0数据可用性评估问题亟需解决[9-10]o目前,对于可用性的研究多是基于一致性进行判断,Huang等基于统计原理提出了数据一致性错误的表示模型,描述了表示数据不一致性的方式,并且提出了一种数据一致性的增强算法[11];对于数据一致性的判定方法,Ma等提出了一种用于描述数据完整性的规则系统[12];对于数据同一性的判定法,Li等研究了基于识别结果的实体同一性的判定[13];Zhang等使用均方误差(MSE)作为衡量参数,提出了一种多模态数据集合的模型[14];聂凯等采用假设检验方法中的F检验方法检验静态数据,采用灰关联分析方法分析动态数据[15];Traganitis等提出将随机抽样和一致性参数扩展到特征降维问题,对模型估计采用试错的方法,使用其余数据来验证估计的模型,从而产生高精度的聚类,并采用可视化分析的方式进行展示[16]o 上述研究成果都是基于数据
集固有的某一属性出发描述数据的可用性,不能全面地反映数据内部的关联关系,表征数据的可用性。尤其针对指挥信息系统数据,敏感于数据之间的相关关系,不仅需要反映内在的线性关系,还应体现非线性与复杂的多维数据之间的嵌套关系。本文采用特征选择的思路提取出数据集各属性的特征信息,目的不在于筛选有用的特征,而在于构建数据集完整的可用性信息张量。
目前对于特征选择主要区分为依赖分类器与独立于分类器两类。包装法和表示法依赖分类器,其中:包装法使用预先确定的分类器来评估候选特征子集,具有更高的预测精度,但是一些启发式算法过度依赖超参数,计算量大,而且分类器过于具体,导致计算误差的风险也很高[17-18];表示法将特征选择集成到给定学习算法的训练过程中,计算成本较低,但需要严格的模型结构假设[19];滤过法不依赖分类器,依据特征与标签的相关性进行特征排序,基于信息论相关理论,理论基础扎实,且滤过法在特征降维方面优势明显[20-21]0
本文基于信息论的基本理论知识,采用滤过法,提出了基于相关性分析的指挥信息系统模拟数据集可用性评估算法(CA-UEA)。从特征的相关性定义出发,在描述各属性之间的相关、冗余性基础上,重点描述了属性之间的交互性,提出了交互信息和冗余信息计算的近似公式,设计了表征数据集可用性信息的张量形式,分别构建数据集的基本信息矩阵、冗余度张量、交互度张量。通过爱因斯坦求和约束构建数据集的相关关系张量,描述数据集各属性的特征相关关系与非线性关系。基于深度学习中损失函数的求解思想计算生成数据集与原始数据集可用性张量之间的误差距离,从而评估生成数据集的可
用性,为数据生成算法提供鉴定依据,为全元素的指挥信息系统模拟训练提供可用的数据支撑。
1基本原理
信息论中提出信息是用来消除随机不确定性的东西,并定义信息熵为离散随机事件发生的不确定性,是系统有序化程度的度量,有序的系统熵值较低,无序的系统熵值较高。下面描述信息熵、互信息、条件熵、联合熵、条件互信息的基本概念[20]。
1.1信息熵
假设:存在随机变量X,在实数空间上的取值空间为{x1,x2,x3,…,x n},概率分布为P(X=X,)=P, (i=1,2,3,…,n),则随机变量X的信息熵定义为
H(X)=-移P(x)l gP(x)-(1) 1.2条件熵
假设:随机变量X已知,随机变量Y发生的不确定性为Y在X已知条件下的条件熵,定义为
H(Y I X)=-移p(x,y)l gp(yI x)-(2) 1.3互信息
假设:存在两个随机变量X、Y,在已知某变量的前提下,另一个变量发生的不确定度减少的程度称为互信息,定义为
第2期基于相关性分析的指挥信息系统模拟数据集可用性评估算法401
I(X;Y)=移 p(x,y)lg ((x,())=
弋卩(x)卩(y)
H(X)-H(X I Y)=H(Y)-H(YIX).(3) 1.4联合熵
假设:存在两个随机变量X、Y,X在实数上的取值空间为{%],兀2,兀3,…,x n},概率分布为P(X=xj= p(i=1,2,3,…,n),Y在实数上的取值空间为{J1,丁2』3,…,兀丨,概率分布为P(Y=兀)=p,则随机变量X、Y的联合熵定义为
H(X,Y)=-移p(x,y)l gp(x,y)=
x
H(X)+H(Y)-1(X;Y).(4) 1.5条件互信息
假设:已知随机变量Z,随机变量X、Y的条件互信息,表示为在Z已知前提下,X、Y共享的信息量,即变量Y带来的关于变量X但不包含于Z的信息,定义为
I(X;Y IZ)=H(X IZ)-H(XI Y,Z).(5) 2CA-UEA算法
2.1评价标准定义
在数据集特征选取过程中,通过度量一个属性或属性集在分类器中的筛选能力,来评估其潜在的可用性。本文采用各个属性的特征信息集合来反向描述数据集的可用性信息,提取数据集的内部抽象特征,构建数据集的可用性信息张量。在数据集内部的相关关系中,强相关性、不相关性是属性间的显性特征,易于计算,分别定义为
心;fJ=1,f i f沂 F;(6)
K/i;fJ=0,/i缶沂F.(7)式中:f i为数据集中的某属性值;F为已知的属性集合;i,j沂(0,m),m为总属性数量。强相关性、不相关性可以描述为弱相关性的特殊形态,在分析数据分布一致性时,应针对弱相关性出发,重点研究影响弱相关性的微观特征。
信息熵能够量化随机变量的不确定性和不同随机变量共享的信息量,旨在衡量一个特征或特征子集在分类器中使用时的潜在可用性,而在数据集属性描述中,重点关注的是各个属性的特殊信息,用来描述和全面地反映出数据集的整体特性。弱相关性包括属性之间的交互性、冗余性、互信息,对于特征选取,需要加权综合考虑属性的权重,从而构建数据集的特征。本文借鉴特征选取的思想,但区别于
最大相关最小冗余算法[21]模糊估计各个属性特征信息的方式,目的不在于提取特征,而在于通过构建数据分布弱相关性张量,关注每个属性各方面的信息,从而提取出全部有用信息,完整描述数据集的分布。
下面结合信息论的基本技术,基于信息熵、条件熵、互信息、条件互信息等相关概念,给出属性描述特征的标准。
定义1互信息(基本信息),是指两两属性之间的互信息,即其中一个属性变化对另一个属性变化的影响程度。属性/与另一属性/之间基本信息定义为
人(//)=H(f i)_Wi/),/,/沂F,(8)式中:i,t沂(0,m );H(/)为属性/的信息熵; H(f I/t)为在属性/已知条件下/的条件熵,即属性f t已知情况下/降低的不确定度。
H(/t,/J=H(/i I/t)+H(/t),(9)
H(/i I/t)=H(/t,/J-H(/t),(10)
I b f;/t)=H(/J+H(/t)_H(/,/J.(11)
为全面描述数据集任意两个属性之间的基本信息,本文没有采用统计方式获取均值或方差值来表示数
据集的基本信息,而是采用矩阵方式进行描述,关注到任意两个属性之间的基本信息值,构建数据集的基本信息矩阵:
M b=M;沂觥)[人(/;/t)]=油质检测
-I b(/1;/1)
丿b(/”d;/1)
线圈电磁铁人(/1血厂
(12)
式中:n d为数据集的维度,大小为[S,"d】。
定义2冗余度,是指任3个属性之间的重复度,即/•/互信息与/互信息的重复量:
I r(f j;/t;/i)=I(j f t;/i)一I(/;/t)一I(/;/J,
I’(/;/t;/J=H(j/t)-H(/J I/J-
(H(/J-H(/i I/t))(H(/J-H(/M)).(13)
构建数据集的冗余度矩阵,构建的冗余度张量形状为["d,"d,"d],类似于多维数组,冗余度矩阵深度为3的矩阵:
M r=M""d)呻密[1,(/;/t;/J]=
「I r(/1;/1;/1)…I r(/1;/1;/"d)]
I r(/1;/"d;/1)
…I上f"d;f1;f")
「I r(/"d;/1;/1)
(14
402
兵工学报
第 42 卷
定义3交互度,存在已知属性集合S ,若属性
f i 埸S ,与属性集合存在相关关系。随着另外一个属
性f t 埸S 的加入,久与S 的相关性发生变化(变大或 变小),即称f i 与f t 之间存在交互,交互度定义为
I i (f  ;Q  = I i (f i  ;S) - /r (f i  ;S  f t ), (15)
式中:/「(f i ; S )为f i 与S 的互信息,即相关关系;
I 「(f i  ;Sf t )为f t 加入后,f i 与S 的相关关系。S 为除
了 f i f 之外的属性值集合,采用矩阵方式进行计
算,即S 可以为属性集合剩余属性的任一属性影响,
或几个属性的联合影响,因为联合属性影响是在单 属性基础上的叠加,相对来说值较小。为降低计算 复杂度,计算任一属性已知情况下f i 、f t 的交互度,
可得I i (f i  f t )的近似值:
I i (f i  ;Q 抑 I(f i
- I(f i  ;fM), (16)
则f i f t 克三者的交互度为
I i  ( f i ; f t ; f j ) =
WJ  + H(f  J  - H(j f i ) -(Wi  f  +
H(f  J ) -H(Q  - H(f i  ,f  J )).
(17)
针对f i f 与f 为除了f i 之外的任一属性值,构建的 交互度张量大小为[n  d ,n  d ,n  d ],交互度矩阵:
M i = M","d ) M j  誰黑]厶(久 f  ;fj ]=
「「厶(
f 1
;f 1
;f 1)… 厶(f 1;f 1;f
n d
)]"
(18)
…厶(
f n d
;f 1
;f
n d
)「
—I i  (
f n d
;f 1
;f 1
2.2算法步骤
算法流程如图1所示。
步骤1梳理数据格式,将原始数据集与生成
数据集转换为相同格式,进行数据缺失值、异常值、 噪音处理,即将重复、多余的数据筛选清除,将缺失 的数据补充完整,将错误的数据纠正或者删除。
步骤2根据(1)式~(18)式,构建原始数据
集与生成数据集的基本信息矩阵、冗余度张量、交互 度张量。
步骤3基于爱因斯坦求和约束[⑵,即在张量 的基底改变情况下,其中:某个向量的线性变换基于
矩阵进行表示,以上标来标记;剩余向量的线性变换
通过逆矩阵来描述,以下标来标记,保证伴随余向量
的线性函数不变。将冗余度张量、交互度张量的维 度转换为基本信息矩阵的维度,便于下一步信息整 合,即将变量维度由[n d 伊n d  , n d  , n d  ]转换为[n d  ,
n d
]。
步骤4对基本信息矩阵、冗余度矩阵、交互度 矩阵3个变量采用soft m ax 函数进行归一化处理:
e i
softmax  = —: ,
(19)
移e j
式中:sofmax 函数是将模型的预测结果转化到指数 函数上,将转化后的结果除以所有转化后结果之和,
可以理解为转化后结果占总数的百分比,可将结果
转换到[0,1]之间,便于进行数据分析図]。
步骤5基于爱因斯坦求和约束,将归一化处 理的3个矩阵变量进行信息融合,即将变量维度由
[3,n d ,n  d ]转换为:n  d , n  d ],得到原始数据集与生成
数据集的可用性信息矩阵。
步骤6基于MSE 】24】,求取原始数据集与生成
数据集可用性信息矩阵的欧几里得距离,表征生成
数据集的可用性评估值。
CA-UEA 算法的伪代码:
INPUT :生成与原始数据集特征集合OUTPUT :生成与原始数据可用性估值
1. for  i  = 1 to  n d  do
2. for  j  = 1 to  n d  do
3. 计算基本信息矩阵M b
4.
for  t  = 1 to  n d  do
5. 计算冗余度矩阵M r
6. 计算交互度矩阵M i
7 .
end  for 8 .
end  for
图1算法流程Fig. 1 Algorithm地热电缆
flowchart
第2期基于相关性分析的指挥信息系统模拟数据集可用性评估算法403
获得更新后的M n_b,M n_r,
10.M n b=softmax(M b)
11.M n r=softmax(Einsum(M r)<[k*k,k,k], [k,k]>)
12.M n i=softmax(Einsum(M i)<[k*k,k,k], [k,k]>)
13.分别计算原始与生成数据集的融合特征评价信息
14.Ge_data=Einsum(M n b,M n r,M n J
15.Or_data=Einsum(M n b,M n r,M n J
16.CA-UEA=MSE(Ge data,Or_data)。
算法分别计算生成数据与原始数据的基本信息、冗余度信息、交互度信息等可用性特征信息,分别融合特征状态信息,基于MSE量化评估生成数据的可用性。
本文算法输入特征值数量为N,考虑多维度的特征信息之间的关联关系,分别考虑特征与特征之间的基本信息,特征与其余特征集合之间的交互信息和冗余信息,其算法的计算复杂度为0(N3)。当特征较多时,建议抽取部分显性特征信息进行计算,降低算法复杂度。
3CA-UEA算法仿真实验
3.1仿真准备
1)实验环境:利用实验室仿真环境,采用Py-thon3,Anaconda环境下,配合PyCharm,使用Tensor­Flow框架,搭建基础实验环境。
2)原始数据:实验1与实验2使用的是MINIST 手写数据集[25],数据维度为[6000,28,28];实验3使用的是指挥信息系统模拟训练数据,来源于前期训练收集积累的历史数据,经过脱密处理后,为22维,共计200条数据,通过补0方式,将数据集拓展到28维,与MINIST手写数据集维度相同,为[200,28]。
3)在模拟训练过程中一手数据资源较少,需要数据增强技术对数据进行扩增,作者之前的研究中发现采用生成对抗网络能够较好地扩增数据,但是在量化评判生成数据与原始数据的真实度差异上还需要作进一步工作。
为验证本文提出的可用性检验标准与量化评定差异:实验1采用生成对抗网络(GAN)作为数据生成框架[26],扩增的数据为MINIST手写数据集;实验2采用的是辅助分类条件生成对抗网络(ACGAN)作为数据生成框架[27],扩增的数据为MINIST手写数据集;实验3选择GAN作为数据生成框架,扩增 的数据为指挥信息系统模拟训练数据。
3.2仿真实验
3.  2.1GAN扩增MINIST数据的仿真实验
按照文献[26]的方法,搭建GAN,以MINIST手写数据集的图片作为原始数据,生成模拟数据,经过 10k轮后,得到图2所示的损失函数曲线。由图2可得,随着迭代次数的增加,判别模型的数据来源不仅是原始数据还包含生成模型产生的数据后,判别模型损失函数值出现上下浮动,随之生成模型的损失函数呈相反的方向变化,即判别模型与生成模型相互对抗,相互博弈,但从整个过程中系统损失函数总值=GAN生成模型损失函数值+GAN判别模型损失函数值可看到,出现小幅上下震荡,整个迭代过程,相对平稳,即系统沿着生成的图片被判别为真的优化方向前进。
3.0
水净化系统
2.5
2.0
®1.5
iK
—CAN损失函数值
—CAN生成模型损失函数值
—CAN判别模型损失函数值
50100150200250
迭代次数
0.5
图2GAN损失函数曲线
注塑机联网Fig.2Loss function curves of GAN
实验迭代过程中,设计每间隔625次系统生成一次实验数据,共计生成16张实验图片,其中:第1张图片为原始图片(见图3);每张图片维度为[28,112],按照前后顺序排列为如图3所示。由图3可得,生成图片由开始的噪音数据图像,逐渐显现图片边缘数据,有一定向好的趋势。
针对实验过程中产生的过程图片,按照本文第2节的计算方法,对每张图片的真实度损失值进行求解,可得图4所示。由图4可知,GAN生成数据集真实度损失值随着生成器与判别器的对抗上下浮动,但是与原始数据集的差距变化不大,即GAN系统生成的数据集质量与原始数据集相比仍有一定差距,需要进一步训练,获取可用的数据集

本文发布于:2024-09-21 05:35:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/228935.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   信息   生成   特征   属性   可用性
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议