利用网格互信息快速计算提高化工大数据建模速度的方法与设计方案

技术公开了一种利用网格互信息快速计算提高化工大数据建模速度的方法,通过优化网格宽度的选取,优化了海量大数据情况下或不规则分布情况下的互信息计算速度,提高了化工过程中预处理的速度,节省了建模过程中所耗的时间,并有效地解决了超出电脑内存或卡顿的问题。
权利要求书
1.一种利用网格互信息快速计算提高化工大数据建模速度的方法,其特征在于,内容包括以下步骤:
在得到数据后,确定一个合适给定的网格宽度参数,利用以下公式确定间隔
持续惊恐Nm=N0(1-β)m,
其中N0是总体样本数,Nm是第m次迭代时的样本数,β是给定参数;它也可以用作停止迭代的阈值,当Nm小于N0β时迭代将停止;在每次迭代中,Nm样本中的最大欧几里德距离被用作间隔的宽度;
获得网格后可作直方图,以此来获得化工大数据的概率密度;
根据概率密度计算得到互信息;
利用互信息作为参数判断相关性,将数据中相关变量与不相关变量分成不同部分优化下一步的化工数据建模。
2.根据权利要求1所述利用网格互信息快速计算提高化工大数据建模速度的方法,其特征在于,所述互信息计算为以下公式:
I(x1,x2)=H(x1)+H(x2)-H(x1,x2),
其中H(x1)和H(x2)分别为x1和x2的信息熵,其公式为:
H(x)=-∫xP(x)logP(x)dx,
H(x1,x2)指变量x1和x2的联合熵,其公式为:
由此互信息可得出。
技术说明书
利用网格互信息快速计算提高化工大数据建模速度的方法
技术领域
本技术属于信息学理论领域,涉及一种利用网格互信息快速计算提高化工大数据建模速度的方法。
背景技术
互信息是一个来源于信息理论背景的概念。在信息论中,互信息是一种评估了两个变量间的相互依赖性的统计量,它考虑了变量之间的线性相关和非线性关系。因此,通常用于特征选择或衡量变量间的相关性。具体地,对于两个随机变量x1和x2,互信息定义为:庇护所
其中P(x1,x2)为联合概率密度。P(x1)和P(x2)分别为x1和x2的边缘概率密度。
由上述公式可知,互信息的计算首先应求取两个变量的边缘概率密度以及联合概率密度。而概率密度一般通过直方图来计算。常规互信息的计算通常使用固定宽度间隔的直方图来计算联合概率密度和边际概率密度。但直方图中的固定间隔可能会对某些分布类型的数据造成显著的计算负担,会花费大量的时间以及计算成本,尤其是在大数据或是数据分布极端不均情况下此种负担更为突出,甚至会出现超出计算机内存或卡顿现象。比如,当一部分数据的分布较密集点很远,此时为了计算这少部分数据所包含互信息需要继续按设定好的等距间隔做直方图,此时会大量的增加计算机的运算压力与内存消耗,甚至导致计算机的卡死。
由于化工过程中有多个变量,且变量之间存在一定的机理关系。因此利用化工数据建模前通常会做预处理,使其中相关与不相关的变量分成多个不同部分。而互信息常常用作衡量相关性的指标。因此化工数据建模速度与互信息的计算速度有直接的关系。互信息计算越快,整体数据建模速度越快。
技术内容
为了解决现有技术中存在的问题,本技术提供一种利用网格互信息快速计算提高化工大数据建模速度的方法,解决现有技术中互信息计算运算压力与内存消耗过大引起的计算机卡死、化工建模速度慢的问题。
2010ema
本技术的技术方案为:
一种利用网格互信息快速计算提高化工大数据建模速度的方法,包括以下步骤:
在得到数据后,确定一个合适给定的网格宽度参数,利用以下公式确定间隔:
Nm=N0(1-β)m,
其中N0是总体样本数,Nm是第m次迭代时的样本数,β是给定参数;它也可以用作停止迭代的阈值,当Nm小于N0β时迭代将停止;在每次迭代中,Nm样本中的最大欧几里德距离被用作间隔的宽度;
获得网格后可作直方图,以此来获得化工大数据的概率密度;
根据概率密度计算得到互信息;
利用互信息作为参数判断相关性,将数据中相关变量与不相关变量分成不同部分优化下一步的化工数据建模。
所述互信息计算为以下公式:
I(x1,x2)=H(x1)+H(x2)-H(x1,x2),
其中H(x1)和H(x2)分别为x1和x2的信息熵,其公式为:
H(x)=-∫xP(x)logP(x)dx,
H(x1,x2)指变量x1和x2的联合熵,其公式为:
由此互信息可得出。之后其值可用于化工数据的建模的预处理中。
本技术有益效果:对于分布不均的数据尤其是化工过程大数据,本技术方法通过优化网隔的选取,网格的分配主要由给定参数确定,不易受大数据本身分布的影响,即使数据分布极端的情况下也能快速
计算,因此面对分布不均的情况比普通互信息方法计算更快,优化了海量大数据情况下或不规则分布情况下的互信息计算速度,防止了超出内存或卡顿等情况的发生。互信息是一个非常好判断相关性的参数。化工大数据的建模常需做一些预处理,将数据中相关变量与不相关变量分成不同部分可优化下一步的建模。由于可变宽度网格互信息拥有更快的计算速度,因此数据预处理也更快,整体化工大数据的建模速度得到了提高。用于化工建模的预处理,大大增加了化工过程建模的速度。
附图说明
图1不固定间隔快速互信息的直方图;
图2固定间隔互信息的直方图;
图3本技术方法的流程图。
具体实施方式
下面结合具体实施例进一步阐述本技术,应理解,这些实施例仅用于说明本技术而不用于限制本技术的保护范围。
在大数据环境下,数据的分布情况通常比较复杂,因此很可能出现分布极度不均的情况。因此在这种
情况下或是数据本身分布不均的情况下利用原有的基于固定间隔的互信息估计耗时耗力。此时可使用本技术基于中心点距离的不固定间隔互信息估计方法以大幅降低计算成本,有效地缩短了计算耗时并且预防了计算机超出内存或卡死的情况。山西储备物资管理局
对于两个随机变量x1和x2,首先对所有样本到原点的欧几里德距离进行排序。根据图2所示,得到数据后确定一个合适给定参数(人为设定),然后利用以下公式确定间隔:
Nm=N0(1-β)m
获得间隔后可作直方图,以此来获得概率密度。其后再使用公式计算互信息。为了方便实际计算,互信息由定义式改为以下公式:
I(x1,x2)=H(x1)+H(x2)-H(x1,x2)
其中H(x1)和H(x2)分别为x1和x2的信息熵,其公式为:
H(x1,x2)指变量x1和x2的联合熵,其公式为:
由此互信息可得出。互信息计算出后,就可用于化工数据的建模的预处理中,利用互信息作为参数判断相关性,将数据中相关变量与不相关变量分成不同部分优化下一步的化工数据建模。
如图1所示,不固定间隔快速互信息的直方图外围的点较少,因此间隔较大,坐标中心的点较多,因此较间隔划分较密集。
图2给出了固定间隔互信息的直方图;可见不论数据点如何分布,间隔依旧固定不变,等步长划分;其局部放大图也相应给出。
图1与图2对比所示,对于相同的数据,如果采用固定间隔的直方图估计互信息则会产生大量间隔,使之花费大量的时间用于概率密度估计。而经不固定间隔算法优化后间隔数目减少,明显提高了互信息估计的计算速度。此种情况在大数据或数据复杂度增高的情况下尤为明显。
如图3所示不固定间隔快速互信息估计方法的流程图,在获得要计算的数据后,首先认为给定β,之后可计算出间隔并作出直方图,求取概率密度,得到互信息,对化工数据预处理。
下面对于同一种数据(变量数为2,样本数为10000。前9000个样本为正态分布,后1000个样本均值为零,标准差为10。)采用不同的方法计算其互信息,以此说明本方法的有效性。与原互信息计算相比,可大幅提高速度。固定间隔设为0.1,β设为0.07,两算法的比较列于下表。
表1.不固定间隔与固定间隔的结果比较
由表可知,固定间隔的互信息计算速度是不固定间隔互信息的2倍左右。由此可得出不固定间隔互信
电脑爱好者2012息在某些情况下大大优于传统的互信息估计。互信息计算速度的提高也直接导致化工数据建模速度的提高。
本技术应用了具体实施例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其中心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护。
>背屈

本文发布于:2024-09-24 23:28:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/435663.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:互信息   数据   间隔   计算   技术
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议