智慧大数据可视化处理方法、装置、设备及存储介质与流程



1.本发明涉及数据可视化技术领域,尤其涉及一种智慧大数据可视化处理方法、装置、电子设备及计算机可读存储介质。


背景技术:



2.现实生活中的大数据通常包含可能对能对决策者有用的隐藏模式,但这些数据通常维度较高。例如,在入侵检测、欺诈检测、医疗分析领域的数据,通常包含数百维。模式识别、图像处理领域的数据通常包含上千个特征,现实数据高维特性的存在带来了计算成本增加维度灾难等问题,不利于对数据的理解分析。
3.现有的降维技术主要包括基于特征选择的方法,根据设定的标准选择原始数据特征的子集,以及基于特征变换的方法,通过指定的变换函数将高维数据映射到低维空间,但上述方法都是在数值数据的背景下进行的,然而大多数真实世界的数据集同时包含分类属性和数值属性。例如,信用系统的数据包括年龄、年薪、储蓄金额等数值属性,以及教育背景、职业、婚姻状况等分类属性,未考虑混合型大数据属性间的相互关系,造成数据语义丢失,影响后续的分类聚类等算法的精度和性能,进一步地造成大数据可视化的效果较差。


技术实现要素:



4.本发明提供一种智慧大数据可视化处理方法、装置及计算机可读存储介质,其主要目的在于解决进行数据可视化效果较差的问题。
5.为实现上述目的,本发明提供的一种智慧大数据可视化处理方法,包括:
6.获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;
7.计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;
8.根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;
9.构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;
10.计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。
11.可选地,所述计算所述分类型数据之间的分类数据距离,包括:
12.计算所述分类型数据对应的分类属性的信息熵;
13.根据所述信息熵计算所述分类属性的距离贡献度;
14.利用如下公式计算所述分类属性的距离贡献度:
[0015][0016]
其中,所述k为所述分类属性,所述wk为所述分类属性距离贡献度,所述hk为所述分类属性的信息熵,m2为所述分类型数据的分类属性总数;
[0017]
基于所述数据贡献度计算所述分类型数据的分类数据距离;
[0018]
利用如下公式计算所述分类型数据的分类数据距离:
[0019][0020]
其中,所述i,j为第i,j个分类型数据,所述wk为所述分类属性距离贡献度,所述d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,所述x
i,k
为第i个分类型数据的k分类属性,所述x
j,k
为第j个分类型数据的k分类属性。
[0021]
可选地,利用如下公式计算所述混合型数据之间的混合数据距离:
[0022][0023]
其中,d为混合数据距离,de为数据数值距离,d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,m1为数值型数据的数值属性总数,m2为所述分类型数据的分类属性总数。
[0024]
可选地,所述根据所述混合数据距离计算所述混合型数据的高维联合概率分布,包括:
[0025]
计算以所述混合型数据为中心的高斯函数方差;
[0026]
基于所述高斯函数方差及所述混合数据距离计算所述混合型数据之间的条件概率;
[0027]
利用如下公式计算所述混合型数据之间的条件概率:
[0028][0029]
其中,所述a b,g为混合型数据,p
a|b
为混合型数据a在混合型数据b下的条件概率,d
ab
为混合型数据a,b之间的混合数据距离,d
ga
为混合型数据a,g之间的混合数据距离,σ为高斯函数方差;
[0030]
根据所述条件概率计算所述混合型数据的高维联合概率分布;
[0031]
利用如下公式计算所述混合型数据的高维联合概率分布:
[0032][0033]
其中,所述p
ab
为高维联合概率分布,p
b|a
为混合型数据b在混合型数据a下的条件概率,n为混合型数据的总数。
[0034]
可选地,所述构建与所述混合型数据集对应的低维数据点集,包括:
[0035]
随机抓取一个混合型数据作为坐标原点,并将所述坐标原点作为圆心;
[0036]
获取预设的圆形半径,基于所述圆心在所述圆形半径内构建数据搜索空间;
[0037]
在所述数据搜索空间内随机选取数据点分别与所述混合型数据集中的数据相对应,得到低维数据点集。
[0038]
可选地,利用如下公式计算所述混合型数据的低维联合概率分布:
[0039][0040]
其中,q
uv
为第u,v个低维数据点之间的低维联合概率分布,yu,yv为第a,b混合型数据对应的第u,v个低维数据点,yf,y
l
为第f,l个低维数据点。
[0041]
可选地,所述基于所述相对熵对所述低维联合概率分布进行优化,得到所述低维数据点在低维空间的最优数据点位置,包括:
[0042]
根据所述相对熵计算所述低维数据点在所述低维概率分布上的梯度;
[0043]
利用如下公式计算所述混合型数据点在所述低维概率分布上的梯度:
[0044][0045]
其中,所述c为相对熵,为低维数据点yu在所述低维概率分布上的梯度,所述yu,yv为第u,v个低维数据点,所述p
ab
为高维联合概率分布,所述q
uv
为低维联合概率分布;
[0046]
沿着所述梯度方向对所述低维数据点进行迭代修正;
[0047]
在所述梯度为零时,得到所述低维数据点在所述低维空间的最优数据点。
[0048]
为了解决上述问题,本发明还提供一种智慧大数据可视化处理装置,所述装置包括:
[0049]
数据划分模块,用于获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;
[0050]
数据距离计算模块,用于计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;
[0051]
高维联合概率分布计算模块,用于根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;
[0052]
低维联合概率分布计算模块,用于构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;
[0053]
可视化显示模块,用于计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。
[0054]
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
[0055]
至少一个处理器;以及,
[0056]
与所述至少一个处理器通信连接的存储器;其中,
[0057]
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序
被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的智慧大数据可视化处理方法。
[0058]
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的智慧大数据可视化处理方法。
[0059]
本发明实施例通过将混合型数据集分为数据型数据及分类型数据;计算数值型数据之间的数值数据距离,及计算分类型数据之间的分类数据距离,更精确地计算不同数据之间的距离;根据数值数据距离及分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据混合数据距离计算混合型数据的高维联合概率分布,得到每个混合型数据在的高维空间中的数据分布,准确地对混合型数据进行分类;构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布,对所述混合型数据进行降维,有利于数据可视化的准确度;计算高维联合概率分布与低维联合概率分布之间的相对熵,利用梯度下降法对相对熵进行优化,得到混合型数据在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示,使得混合型数据在低维空间中的位置信息与高维空间一致,从而准确地对混合型数据进行可视化显示。因此本发明提出的智慧大数据可视化处理方法、装置、电子设备及计算机可读存储介质,可以解决进行大数据可视化效果较差的问题。
附图说明
[0060]
图1为本发明一实施例提供的智慧大数据可视化处理方法的流程示意图;
[0061]
图2为本发明一实施例提供的计算分类数据距离流程示意图;
[0062]
图3为本发明一实施例提供的计算高维联合概率分布的流程示意图;
[0063]
图4为本发明一实施例提供的智慧大数据可视化处理装置的功能模块图;
[0064]
图5为本发明一实施例提供的实现所述智慧大数据可视化处理方法的电子设备的结构示意图。
[0065]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0066]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0067]
本技术实施例提供一种智慧大数据可视化处理方法。所述智慧大数据可视化处理方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述智慧大数据可视化处理方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集、云端服务器或云端服务器集等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0068]
参照图1所示,为本发明一实施例提供的智慧大数据可视化处理方法的流程示意图。在本实施例中,所述智慧大数据可视化处理方法包括:
[0069]
s1、获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;
[0070]
本发明实施例中,所述混合型数据集中包含了大量混合属性的混合型数据,其中,所述混合型数据包含多个数据属性,例如,年龄、年薪等数值属性,以及职业、婚姻状况等分类属性,因此,所述混合型数据集中的数据为高维数据。
[0071]
本发明实施例中,由于混合型数据中包含多个数据属性,可利用预设的数据属性字段信息将所述混合型数据划分为数值型数据及分类型数据,将混合型数据中的属性进行划分,为后续属性降维提供条件。
[0072]
本发明实施例中,所述属性字段信息用来标识所述混合型数据中的每个数据属性,包括数值数据属性及分类数据属性,具体地,所述预构建的属性字段信息可以根据所述混合型数据集的数据来源构建属性字段信息,使得数据分类更精确。
[0073]
本发明实施例中,通过将所述混合型数据集分为数值型数据以及分类型数据能够针对性地对不同的数据进行分析,能够有效地处理混合型数据,有利于后续数据降维的准确度。
[0074]
s2、计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;
[0075]
本发明实施例中,所述数值数据距离数据可利用数据之间的欧氏距离直接计算数据之间的数据数值距离,但由于所述分类型数据中的每个分类属性对数据距离计算具有不同的贡献度不同,因此需要针对每个分类数据计算对应的贡献度,从而得到更精确地分类数据距离。
[0076]
详细地,参阅图2所示,所述计算所述分类型数据之间的分类数据距离,包括:
[0077]
s21、计算所述分类型数据对应的分类属性的信息熵;
[0078]
s22、根据所述信息熵计算所述分类属性的距离贡献度;
[0079]
s23、基于所述数据贡献度计算所述分类型数据的分类数据距离。
[0080]
本发明实施例中,利用如下公式计算所述分类属性的距离贡献度:
[0081][0082]
其中,所述k为所述分类属性,所述wk为所述分类属性距离贡献度,所述hk为所述分类属性的信息熵,m2为所述分类型数据的分类属性总数;
[0083]
本发明实施例利用如下公式计算所述分类型数据的分类数据距离:
[0084][0085]
其中,所述i,j为第i,j个分类型数据,所述wk为所述分类属性距离贡献度,所述d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,所述x
i,k
为第i个分类型数据的k分类属性,所述x
j,k
为第j个分类型数据的k分类属性。
[0086]
本发明实施例中,通过分别计算所述数值型数据的数据距离以及分类型数据的数值距离,同时根据信息熵考虑不同分类属性对距离计算过程中不同的贡献程度,使得后续混合型数据的距离计算更准确,提高数据可视化的效果。
[0087]
s3、根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;
[0088]
本发明实施例中,所述混合数据距离为数据属性与分类属性相融合,得到混合属性数据之间的数据距离,本发明实施例中,所述高维联合概率分布为所述混合型数据在高维空间上的数据分布。
[0089]
本发明实施例利用如下公式计算所述混合型数据之间的混合数据距离:
[0090][0091]
其中,d为混合数据距离,de为数据数值距离,d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,m1为数值型数据的数值属性总数,m2为所述分类型数据的分类属性总数。
[0092]
详细地,参阅图3所示,所述根据所述混合数据距离计算所述混合型数据的高维联合概率分布,包括:
[0093]
s31、计算以所述混合型数据为中心的高斯函数方差;
[0094]
s32、基于所述高斯函数方差及所述混合数据距离计算所述混合型数据之间的条件概率;
[0095]
s33、根据所述条件概率计算所述混合型数据的高维联合概率分布。
[0096]
本发明实施例中,利用如下公式计算所述混合型数据之间的条件概率:
[0097][0098]
其中,所述a b,g为混合型数据,p
a|b
为混合型数据a在混合型数据b下的条件概率,d
ab
为混合型数据a,b之间的混合数据距离,d
ga
为混合型数据a,g之间的混合数据距离,σ为高斯函数方差;
[0099]
利用如下公式计算所述混合型数据的高维联合概率分布:
[0100][0101]
其中,所述p
ab
为高维联合概率分布,p
b|a
为混合型数据b在混合型数据a下的条件概率,n为混合型数据的总数。
[0102]
本发明实施例中,所述混合型数据之间的条件概率为混合型数据在另一混合型数据条件下的概率,再根据所述条件概率构建混合型数据的联合概率分布,由于混合型数据中包含高维属性,得到高维联合概率分布。
[0103]
本发明实施例中,通过所述高维联合概率分布能够准确地显示高维的混合型数据的在高维空间中的分布,能够进一步地提高后续可视化的效果。
[0104]
s4、构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;
[0105]
本发明实施例中,所述低维数据点集由在二维平面中构建的二维数据点构成,将所述低维数据点与所述混合型数据集中的数据一一对应,用于模拟高维的混合型数据在二
维平面中的概率分布。
[0106]
详细地,所述构建与所述混合型数据集对应的低维数据点集,包括:
[0107]
随机抓取一个混合型数据作为坐标原点,并将所述坐标原点作为圆心;
[0108]
获取预设的圆形半径,基于所述圆心在所述圆形半径内构建数据搜索空间;
[0109]
在所述数据搜索空间内随机选取数据点分别与所述混合型数据集中的数据相对应,得到低维数据点集。
[0110]
本发明实施例中,所述预设的圆形半径可以为50,60等值,通过所述圆形半径将低维数据点固定在预设的范围内,使得混合型数据在低维空间中更集中,有利于后续的可视化显示。
[0111]
本发明实施例利用如下公式计算所述混合型数据的低维联合概率分布:
[0112][0113]
其中,q
uv
为第u,v个低维数据点之间的低维联合概率分布,yu,yv为第a,b混合型数据对应的第u,v个低维数据点,yf,y
l
为第f,l个低维数据点。
[0114]
本发明实施例中,通过所述低维联合概率分布将高维联合概率分布映射在低维空间中,能够避免由于高维空间由于维度过高造成的维度信息丢失,使得混合型数据的维度信息在低维空间更充分地展示,进一步地提高混合型数据的可视化效果。
[0115]
s5、计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。
[0116]
本发明实施例中,所述相对熵为kl散度(kullback-leibler散度kl散度),用于计算所述低维概率分布与高维联合概率分布之间的损失信息,在对所述低维联合概率分布进行优化,使得损失的信息最小,即混合型数据的低维概率分布与高维联合概率一致,得到更为精确的低维概率分布。
[0117]
本发明实施例中,利用如下公式计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵:
[0118][0119]
其中,所述c为相对熵,所述p
ab
为高维联合概率分布,所述q
uv
为低维联合概率分布。
[0120]
详细地,所述基于所述相对熵对所述低维联合概率分布进行优化,得到所述低维数据点在低维空间的最优数据点位置,包括:
[0121]
根据所述相对熵计算所述低维数据点在所述低维概率分布上的梯度;
[0122]
沿着所述梯度方向对所述低维数据点进行迭代修正;
[0123]
在所述梯度为零时,得到所述低维数据点在所述低维空间的最优数据点。
[0124]
本发明实施例利用如下公式计算所述混合型数据点在所述低维概率分布上的梯度:
[0125][0126]
其中,所述c为相对熵,为低维数据点yu在所述低维概率分布上的梯度,所述yu,yv为第u,v个低维数据点,所述p
ab
为高维联合概率分布,所述q
uv
为低维联合概率分布。
[0127]
本发明实施例中,利用梯度下降法对所述地位数据点进行优化,在梯度为零时使得所述相对熵接近于最小值,从而所述低维数据点在低维空间的位置最接近于高维联合概率分布时的位置。
[0128]
本发明实施例中,通过所述最优数据点位置能够对所述混合型数据集进行聚类,使得相同属性的数据或属性相近的数据在低维空间中的位置更近,同时使得所述混合型数据的高维属性在低维空间中的属性分类更精确,混合型数据的可视化视图更直观,从而能够更好的理解和发现现高维空间数据的结构,提高混合型数据的可视化效果。
[0129]
本发明实施例通过将混合型数据集分为数据型数据及分类型数据;计算数值型数据之间的数值数据距离,及计算分类型数据之间的分类数据距离,更精确地计算不同数据之间的距离;根据数值数据距离及分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据混合数据距离计算混合型数据的高维联合概率分布,得到每个混合型数据在的高维空间中的数据分布,准确地对混合型数据进行分类;构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布,对所述混合型数据进行降维,有利于数据可视化的准确度;计算高维联合概率分布与低维联合概率分布之间的相对熵,利用梯度下降法对相对熵进行优化,得到混合型数据在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示,使得混合型数据在低维空间中的位置信息与高维空间一致,从而准确地对混合型数据进行可视化显示。因此本发明提出的智慧大数据可视化处理方法,可以解决进行大数据可视化效果较差的问题。
[0130]
如图4所示,是本发明一实施例提供的智慧大数据可视化处理装置的功能模块图。
[0131]
本发明所述智慧大数据可视化处理装置100可以安装于电子设备中。根据实现的功能,所述智慧大数据可视化处理装置100可以包括数据划分模块101、数据距离计算模块102、高维联合概率分布计算模块103、低维联合概率分布计算模块104及可视化显示模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0132]
在本实施例中,关于各模块/单元的功能如下:
[0133]
所述数据划分模块101,用于获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;
[0134]
所述数据距离计算模块102,用于计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;
[0135]
所述高维联合概率分布计算模块103,用于根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;
[0136]
所述低维联合概率分布计算模块104,用于构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;
[0137]
所述可视化显示模块105,用于计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。
[0138]
详细地,本发明实施例中所述智慧大数据可视化处理装置100中所述的各模块在使用时采用与上述图1至图3中所述的智慧大数据可视化处理方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
[0139]
如图5所示,是本发明一实施例提供的实现智慧大数据可视化处理方法的电子设备的结构示意图。
[0140]
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如智慧大数据可视化处理程序。
[0141]
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行智慧大数据可视化处理程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
[0142]
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如智慧大数据可视化处理程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0143]
所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0144]
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶
显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0145]
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0146]
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0147]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0148]
所述电子设备1中的所述存储器11存储的智慧大数据可视化处理程序是多个指令的组合,在所述处理器10中运行时,可以实现:
[0149]
获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;
[0150]
计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;
[0151]
根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;
[0152]
构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;
[0153]
计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。
[0154]
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
[0155]
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0156]
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
[0157]
获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;
[0158]
计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;
[0159]
根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合
型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;
[0160]
构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;
[0161]
计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。
[0162]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0163]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0164]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0165]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0166]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0167]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0168]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
[0169]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术特征:


1.一种智慧大数据可视化处理方法,其特征在于,所述方法包括:获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。2.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,所述计算所述分类型数据之间的分类数据距离,包括:计算所述分类型数据对应的分类属性的信息熵;根据所述信息熵计算所述分类属性的距离贡献度;利用如下公式计算所述分类属性的距离贡献度:其中,所述k为所述分类属性,所述w
k
为所述分类属性距离贡献度,所述h
k
为所述分类属性的信息熵,m2为所述分类型数据的分类属性总数;基于所述数据贡献度计算所述分类型数据的分类数据距离;利用如下公式计算所述分类型数据的分类数据距离:其中,所述i,j为第i,j个分类型数据,所述w
k
为所述分类属性距离贡献度,所述d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,所述x
i,k
为第i个分类型数据的k分类属性,所述x
j,k
为第j个分类型数据的k分类属性。3.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,利用如下公式计算所述混合型数据之间的混合数据距离:其中,d为混合数据距离,d
e
为数据数值距离,d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,m1为数值型数据的数值属性总数,m2为所述分类型数据的分类属性总数。4.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,所述根据所述混合数
据距离计算所述混合型数据的高维联合概率分布,包括:计算以所述混合型数据为中心的高斯函数方差;基于所述高斯函数方差及所述混合数据距离计算所述混合型数据之间的条件概率;利用如下公式计算所述混合型数据之间的条件概率:其中,所述ab,g为混合型数据,p
a|b
为混合型数据a在混合型数据b下的条件概率,d
ab
为混合型数据a,b之间的混合数据距离,d
ga
为混合型数据a,g之间的混合数据距离,σ为高斯函数方差;根据所述条件概率计算所述混合型数据的高维联合概率分布;利用如下公式计算所述混合型数据的高维联合概率分布:其中,所述p
ab
为高维联合概率分布,p
b|a
为混合型数据b在混合型数据a下的条件概率,n为混合型数据的总数。5.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,所述构建与所述混合型数据集对应的低维数据点集,包括:随机抓取一个混合型数据作为坐标原点,并将所述坐标原点作为圆心;获取预设的圆形半径,基于所述圆心在所述圆形半径内构建数据搜索空间;在所述数据搜索空间内随机选取数据点分别与所述混合型数据集中的数据相对应,得到低维数据点集。6.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,利用如下公式计算所述混合型数据的低维联合概率分布:其中,q
uv
为第u,v个低维数据点之间的低维联合概率分布,y
u
,y
v
为第a,b混合型数据对应的第u,v个低维数据点,y
f
,y
l
为第f,l个低维数据点。7.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,所述基于所述相对熵对所述低维联合概率分布进行优化,得到所述低维数据点在低维空间的最优数据点位置,包括:根据所述相对熵计算所述低维数据点在所述低维概率分布上的梯度;利用如下公式计算所述混合型数据点在所述低维概率分布上的梯度:其中,所述c为相对熵,为低维数据点y
u
在所述低维概率分布上的梯度,所述y
u
,y
v

第u,v个低维数据点,所述p
ab
为高维联合概率分布,所述q
uv
为低维联合概率分布;沿着所述梯度方向对所述低维数据点进行迭代修正;在所述梯度为零时,得到所述低维数据点在所述低维空间的最优数据点。8.一种智慧大数据可视化处理装置,其特征在于,所述装置包括:数据划分模块,用于获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;数据距离计算模块,用于计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;高维联合概率分布计算模块,用于根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;低维联合概率分布计算模块,用于构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;可视化显示模块,用于计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的智慧大数据可视化处理方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的智慧大数据可视化处理方法。

技术总结


本发明涉及数据可视化技术领域,揭露了一种智慧大数据可视化处理方法,包括:获取混合型数据集,将混合型数据集划分为数值型数据以及分类型数据;计算数值型数据之间的数值数据距离及分类型数据之间的分类数据距离;根据数值数据距离及分类数据距离计算混合数据距离,根据混合数据距离计算高维联合概率分布;构建对应的低维数据点集,并计算低维联合概率分布;计算高维联合概率分布与低维联合概率分布之间的相对熵,基于相对熵对所述低维数据点进行优化,得到最优数据点位置,基于最优数据点位置对混合型数据集进行可视化显示。本发明还提出一种智慧大数据可视化处理装置、电子设备以及存储介质。本发明可以提高大数据可视化效果。果。果。


技术研发人员:

甘桃红

受保护的技术使用者:

甘桃红

技术研发日:

2022.09.30

技术公布日:

2022/12/23

本文发布于:2024-09-23 07:16:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/46900.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   数据   混合型   据点
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议