基于变量聚类的主成分Lasso降维算法与模拟

统计与决策2021年第4期·总第568期
理论探讨
引言
在对模型中的高维数据进行处理的过程中,可以利用变量选择得到重要自变量,进而使得模型的复杂度降低,且能保证筛选出的自变量对因变量具有较强解释性。该方法使得模型具有低维理想模型的优良性能,因此成为各领域学者的常用方法。对变量选择方法的研究出发点进行总结,一是从自变量层面进行研究,通过建立合适的规则来检验每个自变量是否能够进入模型,这些研究形成了基于AIC 准则、BIC 准则、RIC 准则等传统的模型选择算法,但这种思路在高维情形下容易陷入计算困难的困境,即常提到的“维数灾难”问题[1];二是从自变量的参数集出发,进而衍生出稀疏模型这一方法,该方法既能实现变量选择,又能简化计算过程,因此被广泛应用于各领域的研究中,成为近些年处理高维数据最受欢迎的方法之一。
Mitchell (1997)
[2]
第一次提出稀疏模型这一概念,该模型在损失函数中加入一个关于参数的正则项,从而得到对模型参
数进行估计的表达式,然后通过表达式对参数进行求解。这一模型概念的引入可以从加入正则项后的损失函数的新表达式看出对模型参数进行估计的难易程度,同时通过判断变量前的参数是否为0,得出模型中的显著变量,使得模型具有稀疏性。众多学者的研究表明,利用稀疏模型得到的自变量的参数估计值即正则化估计值,不仅在预测未来数据的准确性方面优于最小二乘估计值的表现结果,而且能够更加接近真实模型,也使得模型结果便
于解释。常见稀疏模型的代表是由Tibshirani (1996)
[3]
建立的Lasso 模型,该模型在损失函数中加入的正则项是L 1范数,即对回归系数实施L 1惩罚,该惩罚可以使得回归模
型中一些自变量的估计参数变小,更能使一些绝对值较小
的估计参数缩减为0,这个过程实现了筛选变量的目标。该方法能够选择变量的前提条件是自变量之间没有线性相关性,是独立的。在高维数据和实际应用中,这种独立性很多时候不存在,例如在基因学研究中,处理基因微阵列数据时,存在多个基因序列能够使生物功能表现一致,针对这种基因间的独立性不存在的情况,刘建伟等(2017)
[4]
把具有相同生物功能的基因序列看作一组,即对于与因
变量具有共同相关性的变量应看成一组变量进行处理。在研究变量组之间存在的相关性问题上,为了得到组变量,常见的处理方式是对变量进行聚类,使得具有同种结构的变量分为一类。具有代表性的变量聚类方法是先求解变量的相关阵(或协方差阵),并用该矩阵体现变量间的差异,然后把该矩阵应用到分裂聚类或谱系聚类中得到更新的聚类方法;在保证聚类后的每组变量的第一主成分或者重心分量能够对变量进行解释的方差最大的前提下对变量类别进行判断。但是由于数据中的变量类型有所不
同,聚类方法也应该进行调整,Chavent 等(2012)
[5]
针对数据中同时存在定性变量和定量变量的情形,对混合的变量进行变量聚类。
由于组稀疏模型是在变量的组结构信息已知条件下使用的,而通过对变量进行聚类后得出的组结构,就可以利用组稀疏模型选择出解释性强的组变量和组内变量。关于组稀疏模型如何选择对组参数的范数进行惩罚的问题,许多学者对此进行了广泛研究。针对组变量的选择问
题,Yuan 和Lin (2006)
[6]
以Logistic 回归为研究背景,首次对组参数施加惩罚,提出Group Lasso 的概念,该模型能够筛选出在回归模型中显著的组变量。随之,关于如何选择组变量涌现出许多方法,如Adaptive Group Lasso [7]、
Group 基金项目:国家社会科学基金资助项目(17BJY210)
作者简介:许赟娟(1993—),女,河南驻马店人,硕士,研究方向:统计建模。
(通讯作者)罗幼喜(1979—),男,湖北红安人,博士,副教授,研究方向:数据挖掘、计量经济建模。
基于变量聚类的主成分Lasso 降维算法与模拟
许赟娟,罗幼喜
(湖北工业大学理学院,武汉430068)
摘要:在较高维度下的特征集合中如何筛选出重要子集是统计学中经常遇到的问题,而利用建立合适的
稀疏模型使得模型复杂度降低的方法是近年来各领域学者研究的热点。文章基于在模型建立前考虑存在因高维自变量间的高度线性相关性而具有的组结构特性问题,提出了一种新的基于变量聚类的主成分Lasso (简记为VPLasso )降维算法。数值模拟结果表明,当模型中自变量同时具有组间稀疏和组内稀疏两种特性时,提出的降维算法不仅在回归参数的估计精确度上,而且在变量选择准确性上都优于经典的组结构特征选择算法。
关键词:稀疏模型;组结构;变量聚类;主成分Lasso
中图分类号:
O213文献标识码:A 文章编号:1002-6487(2021)04-0031-06DOI:10.13546/jki.tjyjc.2021.04.007
31
统计与决策2021年第4期·总第568期
SCAD [8]、Group MCP [9]等方法,这些方法都能通过选择相应的惩罚函数得到组变量的参数估计,而组参数估计的结果是否全为0,可以判断组变量的显著性。但存在与因变量关系紧密的组内变量极大可能被剔除的问题,因此就有了对更具一般性的惩罚函数的研究。Sparse Group Lasso 方法中的惩罚函数,就是将Lasso 和Group Lasso 混合在一起对参数进行惩罚,从而得到模型在组和个体特征方面都较稀疏的解。
统计方法中处理高维数据的一类重要手段就是变量提取,常见的有主成分分析法,然而由于该方法中得到的主成分系数存在不显著自变量的系数不为0的情况,从而导致对模型结果难以解释。于是有学者尝试把多种方法结合使得模型更稀疏,如Jolliffe 等(2003)[10]
将L 1惩罚引入
主成分分析,提出了SCoTLASSO (Simplified component Technique LASSO );基于主成分思想对组参数施加更一般的二次惩罚,对模型参数施加Lasso 惩罚,提出了主成分Lasso 法(Principal Component Lasso,pcLasso )。在假设组结构信息已知的前提下,该方法可以有效地识别出重要组变量和组内变量。然而,如何在组稀疏模型建立前识别自变量的组结构,是稀疏化模型需要解决的一个问题。
本文基于Bootstrap 方法和变量聚类技术,挖掘出变量间由于线性相关隐藏的组信息,并结合主成分L
asso 稀疏模型的思想,提出了基于变量聚类的主成分Lasso 降维算法,并通过计算机模拟仿真对新方法和现有文献较经典的方法进行比较分析。1
基于Bootstrap 方法的变量组结构信息识别
1.1变量距离矩阵
记变量X i =(x 1i  x 2i    x ni )T ,X j =(x 1j   x 2j    x nj )T ,其中x ti ()t =1  n 表示对变量X i 进行第t 次的观测得到的数值,同样x tj ()t =1  n 就是变量X j 在记录第t 次观测时得到的值,关于变量X i 与X j 的夹角余弦的定义,公式如下:
C ij =cos θij =
åt =1
n
x ti x tj åt =1n
x 2
ti åt =1n
x 2tj ()
i  j =1  q (1)
如果|
|C ij 越接近1,则两个变量关系越紧密,越接近0,则关系越疏远,由|
|C ij 定义可以得到q 个变量之间的距离矩阵为:
D =(d ij )q ´q =()
1-||C ij
q ´q
(2)
1.2调整兰德系数
调整兰德系数(Adjusted Rand index )是对兰德系数在
随机划分时得到的值不能满足接近0的背景下,由Hubert 和Arabie (1985)[11]
提出的,它被用来判断聚类模型是否合
适。首先定义集合S ={}O 1 O 2  O n ,可以看到集合中
有n 个对象,
然后对集合S 进行随机划分,得到两个集合为G ={}g 1 g 2  g R 和H ={}h 1 h 2  h T ,其中集合G 包含了实际样本所在类的信息,集合H 包含了样本通过聚类被划分到不同类别的信息,并且两个划分同时满足两个条件:一是
i =1
R g i =S ,
j =1T
h j
=S ;二是g i ¹h j ,即通过划
分得到集合中的元素都不一样,n ij 表示两个集合都存在的数据点个数,
n i 表示在集合G 中有多少个数据,n .j 表示在集合H 中有多少个数据
(见表1)。表1
两个分类的符号
实际类别
g 1g 2
g R
求和
聚类类别
h 1n 11n 21 n R 1n .1
h 2n 12n 22 n R 2n .2
h T n 1T n 2T  n RT n .T
求和n 1.n 2. n R .n
调整兰德系数表示为:
ARI =
RI -E ()
RI max ()RI -E ()
RI (3)
其中,RI =åi  j æèçöø
÷n ij 2,E ()
RI =éëêùûú
åi æèçöø÷n i 2åj æèçöø÷n j 2()
n 2
,max ()RI =12éëêùû
úåi æ
èçöø÷n i 2+åj æèçöø÷n j 2,ARI Î[]-1 1,ARI 的值越大说明变量的聚类结果与变量所属实际类别越接近。1.3
变量组结构识别算法
根据上文定义的变量间距离和衡量聚类指标的调整兰德系数,采用Bootstrap 方法给出本文识别变量组结构算法的步骤:
(1)确定Bootstrap 数据集S :从原数据集中的训练集中进行有放回的随机抽取,假设抽取n 个样本。
(2)变量标准化:对得到的Bootstrap 数据集S 中的q 个变量进行标准化处理。
(3)计算变量距离矩阵:通过式(2)求标准化后的变量的距离矩阵D 。
(4)变量聚类:基于步骤(3)得出的结果,利用层次聚类法对变量进行聚类,并根据调整兰德系数计算公式求得不同类别数l 下的调整兰德系数ARI ()l  l =1 2  q 。(5)计算调整兰德系数的平均值:把前面4个步骤执
行N 次得到每次求出的不同类别数l 下的--------ARI (l ) l =1 2  q 。
(6)确定最佳变量类别数:定义变量类别数为k ,
表示为k =arg max l =1 2 ... q
--------ARI (l )。
(7)计算D ′:计算原数据集标准化后的变量之间的距离矩阵D ′。
(8)得到变量聚类信息:基于D ′再次利用层次聚类法得到k 组的变量,
得出变量所属类别。32
统计与决策2021年第4期·总第568期
2基于变量聚类的主成分Lasso 2.1
主成分Lasso
常用的线性回归模型为:y i =β0+åj =1q
x ij βj +εi
多德弗兰克法案
假设随机误差项服从正态分布,分布表示为ε~N
()0 σ2I n
,y =()
y 1
y 2
y n
T
为因变量,β0为回归常数,每
个变量的系数为βj ()j =1 2  q ,则β=(β1 β2  βq )T 为模型的回归系数,如果记X i =()x 1i  X 2i    X ni T
()i =1 2  q 为第i 个变量的n 次观察值,
则q 个自变量的设计矩阵表示为X =()
X 1 X 2  X q 。
回归系数的求解有两种情况:一是如果对数据进行了中心化和标准化并且列满秩,这时回归常数为0,再用普通最小二乘估计方法对回归系数进行求解;二是数据不满足列满秩的情况,即变量之间存在相关性时,对回归系数采用传统的普通最小二乘估计方法失效,则可以运用正则化的方法进行求解。上文介绍到Lasso 是通过在最小化平方损失函数的后面加入L 1范数正则项使得模型具有稀疏解,由于Lasso 得到的估计是有偏的,因此在自变量具有组结构的背景下从模型参数估计考虑,估计结果的准确性就会下降,从模型精确度来看,求得的模型和实际模型就会存在偏差甚至导致模型出现错误。主成分Lasso 则可以解决这个问题,先从当q 个自变量都属于一组时引入对模型的介绍,该模型通过对式(4)进行求解得到模型参数:
arg min βÎR q  y -X β2
2+λ  β1+θ2βT VD d 21-d 2j
V T β
(4)
其中,  ·p 是L p 范数的表示,λ是模型的调整参数,且大于等于0,表示对所有变量实施惩罚的权重大小,λ取
不同值选入模型的变量不同,从式(4)的θ2βT VD d 21-d 2j
V T β
可以看到对组变量施加了二次惩罚,这个惩罚函数的构造是基于主成分的奇异值分解(Singular Value Decomposi-tion,SVD )这个概念形成的,根据式(5)进行分解:
X =UDV T
(5)
其中,U 是一个n 行n 列的单位正交矩阵,矩阵U 的n 个特征向量构成了X 的左奇异向量,D n ´q 为对
角矩阵,
对角元素是矩阵X 的奇异值,元素所在的位置是按照降序进行排列得到的,V 是q 行q 列的单位正交矩阵,矩阵V 的q 个特征向量构成了X 的右奇异向量。
式(4)第三部分罚函数的表达式θ2βT VD d 21-d 2j V T β是
L 2惩罚的一般化表达形式,可记为βT VZV T β,其中Z 为
对角矩阵,对角元素为d 21-d 21 d 21-d 22  d 21-d 2
m
,可以看出对角元素是一个关于奇异值平方的函数,其中m =rank ()X ,θ也是模型的调整参数,是一个大于等于0的数,表示对组变量施加二次惩罚的权重大小。当θ是一
个确定的值时,可以从对角元素中初步得出构造的L 2罚
函数对组参数的惩罚力度,在主成分分析中,第一主成分包含的变量信息最多,把该思想推理到惩罚函数上得到对第一右奇异向量的惩罚力度就应该比较小,以保证不丢失变量信息。而θ值不同,进入
模型中的组变量的个数不同,通过这个罚函数进而达到了对变量组进行选择的目的,从而使得模型具有稀疏性。2.2基于变量聚类的主成分Lasso
由于主成分Lasso 中组变量的信息是已知的,故当自变量之间由于线性相关性而产生组结构时,把q 个自变量按照提出的变量组结构识别算法分为k 组,且令每个自变量不能重复出现在多个组中,即分成的变量组是非重叠的。把设计矩阵按照得到的变量组进行构造,得到第l 组
的设计矩阵,如果第l 组具有m l 个自变量,则第l 组的设计矩阵表示为X
()
l =æèöø
X ()l 1 X ()l 2  X ()
l m l ,且满足所有组的变量个数总和为q 的条件,
即ål =1
k
m l =q ,令β()
l 表示第l 组变量的回归参数,则基于变量聚类的主成分Lasso (VPLas-so )归结为求解以下问题:
arg min βÎR q        y -ål =1
k X ()l β()l 2
2+λ  β1+θ2ål =1k æèöøβ
()l T æèçöø÷V l D d 2l 1-d 2lj
V T l æèöø
β()l (6)
其中,
V l 是X ()
l 的右奇异向量,把X
()
高镍合金l 的奇异值进行
降序排列得到d l =()
d l 1 d l 2  d lm l ,D d 2l 1
-d 2lj
是一个对角
线,对角线的元素是通过计算X ()
l 的第一大奇异值的平方
与其他奇异值平方的差得到的,即d 2l 1-d 2
lj (j =1 2  m l ),
为了可以与Group Lasso、Sparse Group Lasso 两种模型进行比较,将式(6)进行改写,表达形式如下:
arg min βÎR q 12        y -ål =1
k X ()l β()l 2
+λ  β1+θ2ål =1k      R l 12β()l 2(7)
其中,R l =V l D d 2l 1
-d 2lj
V T l 。
2.3
VPLasso 计算流程
利用上文提出的变量组结构算法,结合主成分Lasso 稀疏模型思想,对VPLasso 计算流程总结如下四个步骤:(1)由变量组结构识别算法挖掘自变量的组结构信
息,从而得到每组的设计矩阵X ()
l =æèöø
X ()l 1 X ()l 2  X ()
l m l ,l =1 2  k 。
(2)利用式(5)对X ()
l 进行奇异值分解并计算
R l =V l D d 2l 1
-d 2lj
V T l 。
(3)求解arg min βÎR q 12        y -ål =1
k
X ()l β()l 2
+λ  β1+θ2ål =1k
R l 1
2β()l 2
,通式(7)得到模型回归系数的估计值。(4)把最小系数绝对值容忍度δ作为变量是否留在模
33
统计与决策2021年第4期·总第568期
型的判断标准,即如果某回归系数估计绝对值小于δ时,则该系数估计值设置为0,表示该变量不在模型中,否则该变量在模型中。
3数值模拟
首先根据Simon 等(2013)[12]
的模拟思路生成数据,
把变量进行均匀分组、不均匀分组和加入定性变量,并从这三个方面进行模拟。在每个模拟中,为了便于表示,把提出的基于变量聚类的主成分Lasso 降维算法简写为VP-Lasso,Group Lasso 模型简记
为GL,Sparse Group Lasso 模型简记为SGL,下面从三种情况进行模拟并对三个模型的表现结果进行分析。3.1
模拟1:考虑变量均匀分组的情况
首先生成数据的样本量为100,变量的个数为100,且自变量服从的分布是均值为0矩阵,
而协方差矩阵为Σ=diag ()
Σl
的多元正态分布,协方差矩阵满足的条件是
Σl
=c l (σij )=c l 0.8
|
|i -j ()i  j =1  10 l =1  10,
而每组的协方差矩阵前的系数设置c l =(0.1 0.15 0.2 0.25 0.3
)0.35 0.4 0.45 0.5 0.55,然后把变量均匀分组,得到第l 组变量的设计矩阵X ()
l ()l =1 2  10,并按照模型y =ål =1k
X ()l β()
l +ε()ε~N ()0 I 生成因变量Y 的100个观测
值,对应每组的回归系数分别为:
β()
1=()2 -1 3.5 3 -2.5 -2 1.5 1 1 -1.5T
,β
()
2=
()2 2 2 2 2 2 2 2 2 2T
β()
3=(3 2 -2 1.5 1 -1.5 1 -1 -3 2)T
,β()
4=(2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5)
T
β
()
5=β
()
6=
(0  0)10个0T ,β()
7=(2 1.8 1.6 1.4 1.2 1 0.8
)0.6 0.4 0.2T
,β()8=()1 0.5 2 1.5 1.5 1 1 1 0.5 0.5T
,β()
9=æèçç
ö
ø
÷÷2 1.8 1.5,      (0  0)7个0T
,β()10=      (0  0)10个0通过对模型进行M 次模拟,得到因变量的实际值和
估计值,把关于两者的均方根误差的平均值作为模型预测误差的度量方式,进而可以对模型预测效果进行考察,该指标简写为yRMSE ,
表达式如下:yRMSE =1M åm =1
M
()y -y 2时间统计法
通过三种模型可以得到不同模型下回归系数的估计值,且回归系数的实际值已知,则计算每个模型下两个值的均方根误差的平均值[13],
该值体现了回归系数的估计效果,把这一指标简记为rcRMSE ,
计算公式如下:rcRMSE =1M åm =1M
1q åj  l æèö
ø
β()l j -β()l j 2联想100分学校
对各种模型下变量选择的结果与实际模型显著变量的结果是否准确进行考察,采用计算重要自变量的平均
选择个数这一指标来衡量模型的总体稀疏性,指标表达式为:
GS =
å
m =1
M
ål åj
I æèö
ø
β()
l j ¹0M
三种模型都可以通过观察变量的回归系数是否为0
进而判断进入模型的自变量,宋瑞琪等(2019)
[14]
尝试用回归系数的灵敏性和特异性来考察模型的变量选择能力。基于此思路,对多次模拟下的回归系数的灵敏性和特异性分别求平均值,得到关于平均灵敏度(记为ASe )和平均特异性(记为ASp )的表达值,这两个指标的定义表达式如下:
ASe ()
β β=1M åm =1
M
ål åj
I æèö
øβ()
l j ¹0 β()
l j ¹0ål åj I æèö
ø
β()
l j ¹0ASp ()
β β=1M åm =1
M
ål åj
I æèö
øβ()
l j =0 β()
l j =0ål åj
I æèö
ø
β()
l j =0其中,I (.)为示性函数,ASe Î[]0 1,ASp Î[]0 1。从上面两个表达式可以看出,指标度量的是所有组的回归系数的估计值和真实值是否为0在真实值下的占比。不同点在于平均灵敏考察的是三个模型筛选显著变量的能力,平均特异性则衡量的是三个模型剔除不显著变量的能力;相同点是两个指标值接近1,说明了模型的变量选择能力较强。
上面平均灵敏度和平均特异性是考察模型选择所有变量的能力,而进行比较的模型能够选择组变量从而使得模型具有组稀疏性。为了对三种模型的组稀疏性进行考察,把模型是否能够识别出显著的组变量选为比较对象,该指标简记为:
SGVR =1M åm =1
M
ål åj I æèö
øβ()l j ¹0ål åj
I æèöø
β()
l j ¹0该表达式表示通过估计得出模型中的显著组变量在实际模型中显著组变量的所占比值。值越小说明模型在筛选显著组变量方面表现效果越差;值越大说明模型在筛选显著组变量方面表现效果越好。
三个模型中参数λ的取值是利用10折交叉验证来得到使模型取得最优解下的值,并分别进行M=30、100、200次模拟,从横向和纵向两个方向对三个模型的多个指标结果进行比较分析,下页表2给出了在变量均匀分组下的模拟结果。
通过表2结果进行纵向比较,模拟次数从小到大进行变动时,每个模型的yRMSE 在不同模拟次数下的差距减小,
rcRMSE 的值逐渐趋于稳定,GS 值的变动减少,ASe 、ASp 和SGVR 的值基本没有变化;
对结果进行横向比较,从yRMSE 和rcRMSE 两个指标可以看出,
VPLasso 模型下34
统计与决策2021年第4期·总第568期
的指标值比GL 模型相对较小,SL 模型下的两个指标结果比另外两个模型的指标值大;从模型的GS 指标来看,实际进入模型中的变量有63个,通过模拟进入SGL 模型的变量数目最少,进入GL 模型的变量数目最多;对三个模型的ASe 指标比较得出,
GL 模型下的指标值为1,即所有自变量都在模型中,VPLasso 模型的指标值接近1,即模型中显著的变量基本都被选入模型,SGL 模型的指标值最小,说明该模型具有很强的稀疏性;对ASp 指标值进行分析,GL 模型下的值最小,由此看出模型中存在较少的不显著变量,而SGL 模型的指标值最大,表明不显著变量被模型剔除了,VPLasso 模型的指标值表明较多的不显著变量进入模型;比较SGVR 指标值,VPLasso 和GL 两个模型在选择显著组变量上表现结果较好,而SGL 模型下的指标值则说明了许多显著的组变量没有进入模型。3.2
模拟2:考虑变量不均匀分组的情况
该次模拟生成的100个自变量服从的分布也是多元正态分布,只是协方差矩阵有所不同,令c l =(0.5 0.45 )0.4 0.35 0.3 0.25 0.2 0.15 0.1,同时将模拟1下的变量
均匀分组变成不均匀分组,考虑把变量分为9组,同时令每组的变量数目为5、6、7、7、10、10、15、20、20,生成因变量的观测值的模型与上文相同,并设置每组的回归系数值为:
β()1=()1 0.5 1 -0.5 -1T ,β()
2=()-1 0.5 1 -0.5 0 1T
,β()3=()1.5 0.5 0 -0.5 1 0 -1T
,β
()
4=(1 -0.5 1 0.5
)-1 -1.5 0T
,β()
5=()0.5 1 0 0 0 1 -0.5 -1 1 -1.5T
,β
()
6=
(0, ,0)10个0
T ,β()
7=
(0, ,0)15个0
T ,β()8=β()
9=
(0, ,0)20个0
T
从表3模拟结果得出,当模拟次数从30变成200时,三种模型的所有指标值随着次数的增加而减少;比较yRMSE 和rcRMSE 两个指标,
康普顿效应SGL 模型的指标值最大,VPLasso 模型比GL 模型的指标值大;比较GS 指标值,进入SGL 模型的变量数最小,VPLasso 模型与实际模型中显著变量数基本相同,而GL 模型筛选出的变量最多;关于AS
e 指标方面,
GL 模型的表现结果最优,其次是VPLasso 模型,最后是SGL 模型;比较ASp 指标值可以得出,由于GL 模型的不显著变量最多,导致该模型的复杂度最高,SGL 模型中不显著变量都从模型中剔除了,而VPLasso 模型在删除不显著变量方面表现较好;对SGVR 指标值进行比较可以看出,GL 模型和VPLasso 在筛选显著的组变量方面表现结果良好,而SGL 模型则删除了较多的显著组变
量。3.3
模拟3:考虑变量中含有定性变量的情况
在变量生成方式上,定量变量的生成方式与模拟1的方式相同,不同的是,模拟3中加入一个取值有4个水平的定性变量,并用3个虚拟变量来代替此定性变量,同时,把这3个虚拟变量作为1组,而因变量的生成方式与上面两次模拟的模型相同,所以模拟3的自变量共有11组,对每组的回归参数设置如下:
β()
1=()2 -1 1.5 -2 -1 -2 1.5 1 1 -1.5T
,β
()2=
()2 2T ,β()
3=()1 -2 0.5 1.5 -1 -1.5 1 -1 -0.5 2T
,β()
4=()2  2T ,β()
5=()0.5 1 -1 1.5 0 1 0.5 -0.5 -1 -1.5T
,
β()6=()1 0.5 2 1.5 -1.5 1 -1 1 0.5 0.5T ,β()金环银环
7=β()8=β
()
9=β
()
10=
(0, ,0)10个0
T ,β()
11=(2 1.5 1)T
模拟3的结果如表4所示。
表4变量含有定性变量下三种稀疏组模型的不同指标表现结果模型GL
SGL VPLasso M M =30M =100M =200M =30
M =100M =200M =30
M =100
M =200
yRMSE 3.2623.2633.26911.95612.12712.1773.6113.6363.639
rcRMSE
0.7950.7970.7971.1931.1961.1980.7820.7820.782
GS
58.6758.7058.408.308.328.3446.1346.5846.49
ASe
0.930.930.930.130.130.130.700.700.70
ASp
0.980.980.981.001.001.000.930.930.93
SGVR
0.710.710.710.290.290.290.860.860.86
对表4进行纵向比较可以得到,当模拟次数从30变为200时,所有衡量指标的值都趋于稳定;对模拟结果横向分析,因变量y 的均方根误差yRMSE 在Sparse Group Lasso 稀疏模型下最大,再者是VPLasso 稀疏模型,最后是Group Lasso 稀疏模型,且该指标在VPLasso 和Group Lasso 两种稀疏模型下得到的值相差不大;回归参数的均方根误差rcRMSE 在Group Lasso 和VPLasso 两种稀疏模型下,VPLasso 稀疏模型表现良好;在总体稀疏性GS 方面,实际回归中显著的变量共有62个,Sparse Group Lasso 筛选出的变量最少,VPLasso 模型选择变量的能力强于Group Lasso;在平均灵敏度ASe 方面,由于该指标衡量了在实际回归参数不为0的个数中,回归参数估计值且实际参数值都不为0所占百分比的平均值,该指标越小,说明回归参数估计值存在越多为0的情况,间接表明了模型具有更强的组间变量稀疏性。所以从该指标角度出发,产生稀疏解
表3变量不均匀分组下三种稀疏模型的不种指标表现结果
模型GL
SGL
VPLasso M
M =30M =100M =200M =30
M =100M =200M =30
M =100
M =200
yRMSE 1.3661.3561.3673.5913.5403.5402.2982.2292.229
rcRMSE
0.3190.3210.3210.4690.4690.4690.4020.4000.400
GS
66.0066.3065.481.501.781.7527.5327.3027.28
ASe
1.001.001.000.050.060.060.530.550.55
ASp
0.470.470.481.001.001.000.820.800.80
SGVR
1.001.001.000.200.200.200.800.800.80
表2变量均匀分组下三种稀疏模型的不同指标表现结果模型GL
SGL VPLasso M M =30M =100M =200M =30
M =100M =200M =30
M =100
M =200
yRMSE 3.8943.8843.86816.88616.82916.8063.5463.5333.518
rcRMSE
0.8450.8430.8431.3571.3581.3580.8330.8310.831
GS
90.0089.9089.908.308.338.3271.5072.2272.39
ASe
1.001.001.000.130.130.130.900.900.90
ASp
0.270.270.271.001.001.000.600.590.59
SGVR
1.001.001.000.290.290.291.001.001.00
35

本文发布于:2024-09-24 04:13:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/146377.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:变量   模型   进行   得到   方法   聚类   参数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议