基于子空间多核学习的企业财务困境预测方法

第30卷 第1期运 筹 与 管 理
Vol.30,No.1
2021年1月OPERATIONSRESEARCHANDMANAGEMENTSCIENCE
Jan.2021
收稿日期:2018 11 14
基金项目:国家自然科学基金青年项目(717D1063);黑龙江工程学院创新团队项目(2018CX15)作者简介:张向荣(1979 ),女,黑龙江海伦,副教授,研究方向:数据挖掘、分析与预测
基于子空间多核学习的企业财务困境预测方法
张向荣
(黑龙江工程学院经济管理学院,黑龙江哈尔滨150080)
摘 要:财务指标的异构性是影响企业财务困境预测精度的重要因素,现有多核学习方法能够用于解决异构数据
学习问题。本文首先介绍了子空间多核学习财务困境预测理论框架,在此基础上根据子空间学习的最大化方差准则、类别可分性最大化准则、非线性子空间映射原理,提出了三种子空间多核学习方法,分别为最大化方差投影子空间多核学习、类别可分性最大化子空间多核学习、非线性子空间多核学习。利用采集的我国上市公司数据进行实验,对比所提出的方法同现有代表性财务困境预测方法,并对实验结果进行分析。实验结果表明,本文提出的子空间多核学习财务困境预测框架行之有效,该框架下所构造的子空间多核学习预测方法能够有效地提升财务困境预测精度。关键词:财务困境预测;核方法;支持向量机;多核学习中图分类号:F273 文章标识码:A 文章编号:1007 3221(2021)01 0184 08 doi:10.12005/orms.2021.0026
SubspaceMultipleKernelLearningMethodsforPredictionofFinancialDistress
ZHANGXiang rong(SchoolofEconomicsandManagement,HeilongjiangInstituteofTechnology,Harbin15
信号检测与估计理论0080,China)Abstract:Heterogeneityoffinancialindicatorsisanimportantfactoraffectingtheaccuracyoffinancialdistress
prediction.Existingmultiplekernellearning(
MKL)methodscanbeusedtosolvetheproblemofheterogeneousdatalearning.Firstly,thispaperintroducesthetheoreticalframeworkoffinancialdistresspredictionbasedonsubspaceMKL.Onthisbasis,threesubspaceMKLmethodsareproposedaccordingtothemaximizationvariance
criterion
,themaximizationofclassseparabilitycriterionandtheprincipleofnon linearsubspacemapping.TheyaremaximizationvarianceprojectionsubspaceMKL,separabilitymaximizationsubspaceMKL,andno
nlinearsubspaceMKL,respectively.UsingthecollecteddataofListedCompaniesinChina,theproposedmethodsarecomparedwiththeexistingrepresentativefinancialdistresspredictionmethods,andtheexperimentalresultsareanalyzed.TheexperimentalresultsshowthattheproposedsubspaceMKLfinancialdistresspredictionframeworkiseffective,andthesubspaceMKLpredictionmethodsconstructedunderthisframeworkcaneffectivelyimprovetheaccuracyoffinancialdistressprediction.Keywords:predictionoffinancialdistress;kernelmethods;supportvectormachine;multiplekernellearning
0 引言
企业财务危机预警研究起步于上世纪60年代的美国,到上世纪九十年代后期,随着经济发展多样化、全球经济一体化、局部经济小圈化和科技更新快速化的大经济发展,以及新型信贷方式各领域中
的广泛普及,使得企业财务危机预警或财务困境
预警成为热点问题。我国资本市场发展历史短,到
20世纪90年代初,我国学者初步对财务危机预警展开研究,通过对企业财务状况的分析,建立上市公司财务危机预警系统。加强对上市公司的监控,不仅有利于投资者和债权人的投资决策,对于保持我国证券市场的健康发展也有着积极的意
义[1~10]
。财务困境预测研究的实质是利用统计学
或机器学习的方法对财务正常的企业和被特殊处
理的企业两种数据进行的决策分类,或者将财务困境程度不同的企业归入相应的多个类别的多类预测过程。财务困境预警中,受控于有待分析的企业样本范围、财务比率指标获取、财务比率特征构建(即变量转换)、正常与特殊处理企业数据分类以及分类结果的评价是判定企业财务困境预警好坏与否的重要因素[11]。
当前财务困境预测已经得到了广泛的研究,针对静态数据的财务困境预测方法主要分为:传统统计模
型、专家系统模型、机器学习模型以及集成预测模型。特别是以神经网络和支持向量机为代表的机器学习方法已经取得了重要进展。基于机器学习的财务困境预测大多将静态财务数据分为训练样本集和测试样本集,通过对训练样本集进行学习和训练,得到有效的经验型财务困境预测模型,然后针对测试样本集进行预测实验,验证预测性能。代表性方法包括神经网络[12~16]、支持向量机、多核学习等。
支持向量机(SupportVectorMachine,SVM)是一种典型的基于统计学习的分类方法,在小样本情况下可以实现得到最优解的有效算法,被广泛应用于模式识别问题,也被用于对企业财务困境预警的研究,如Chaudhuri将模糊支持向量机方法用于企业破产预警研究[17]。一些研究人员将支持向量机与其他方法进行联合用于财务困境预警,如Hsieh将粒子算法与蚁算法引入了支持向量机中用于对支持向量机参数的优化,由此进一步提升财务困境预测的性能[18]。还有一些研究人员将财务比率特征选择和支持向量机方法结合,构成了新的财务困境混合预警方法,如Yeh等利用数据包络分析首先对输入输出数据的有效性进行检验,然后利用粗集理论对特征进行筛选,最后利用SVM对约简的特征子集进行学习、训练,得到了一种新的混合预警方法[19]。除此之外,还有研究人员将当前一些研究热点算法[20,21](如流形学习与偏最小二乘方法)与支持向量机方法相结合,也得到了较好的财务困境预测性能。广义来讲,支持向量机属于核方法(KernelMethods,KM)的范畴,因为支持向量机中主要的形式是核
函数的引入与对高维空间分类超平面的解决。而核方法则是对所有利用核技巧将非线性不可分的问题变换为线性可分问题的统称。核方法已经在财务困境预警研究中有了很多成功应用,如VanGestel将线性和非线性核分类器用于财务困境预警[21],Huang将非线性核Fisher方法用于特征提取与对支持向量机的改进,提高了财务困境预测效果[22]。
近年来,研究人员已经逐渐认识到了单核支持向量机学习能力的限制,由此更激励研究人员发展学习能力更强的多核学习(MultipleKernelLearn ing,MKL)方法。在支持向量机框架下扩展的多核学习具备更好的学习能力和泛化能力[23~28]。本质上,多核学习的不同基核可以共享相同特征或不同特征,由此能够更有效地利用和处理表征财务状况的异构特征。当前,如何更好地利用不同基核的学习能力,构造更有效的多核学习预测方法仍是一个热点方向。
现有多核学习预测方法面临的主要问题在于:大多数多核学习方法同时求解最优权重和最优分类器,由此导致计算复杂、难以得到最优解。针对多核学习用于财务困境预测面临的优化难题,本文重点研究如何行之有效地利用多核学习理论与方法进行财务困境预测,有针对性地提出了子空间多核学习框架,将复杂的多核学习优化转化为两阶段优化问题;然后,在两阶段多核财务困境预测一般框架下,结合子空间分析方法,发展了三种子空间多核学习方法;最后,利用我国上市公司真实财务样本数据进行数值实验,通过仿真实验结果对比来验证和说明本文构建的多核财务困境预测一般框架的可行性和所提出的财务困境预测方法的有效性。
1 子空间学习多核财务困境预测
本文构建的多核财务困境预测原理框图如图1所示,包括四个模块。(1)企业财务数据模块:该模块主要负责企业财务样本数据预处理,包括财务指标设计、财务特征选择、财务指标统计特性分析等;(2)财务指标多核相似性度量学习模块:该模块的输入为训练样本集,包括正负样本。该模块主要作用是首先确定具有不同尺度参数的核函数,利用这些多尺度核函数对输入样本财务指标的相似性分别进行度量,即在各个尺度上计算不同样本财务指标的相似性;(3)多核预测决策模块:实现不同尺度相似性度量的集成,即集成来自于不同尺度下样本异构财务指标的相似性度量信息,有效集成不同尺度对于异构财务指标相似性度量的优势,形成性能更优的集成多核决策预警模型;(4)预测输出模块:输出预测结果,即测试集中未知财务状况的样本输入到训练好的预测模型中,对未知样本的财务状况进行预测,输出预测结果,形成对未知样
第1期        张向荣:基于子空间多核学习的企业财务困境预测方法
本企业财务状况健康或是异常的判决结果。
图1 多核财务困境预测原理框图
1.1 子空间多核学习一般框架
以支持向量机为例,通常由单核学习到多核学习的扩展,主要是考虑将支持向量机决策函数中单核函数利用众多基核的某种组合来代替,如线性组合或非线性组合。这里,首先考虑以线性组合为例。利用线性加权方式可以得到基核函数的凸组合:
kη(xi,xj)=∑M
m=1
wmk
m(xi,xj)(1)局域表面等离子体共振
这里需要满足:∑M
m=
1wm=1,
ηm 0,wm是第m个基核的权重。
根据公式(1),如果将每个基核矩阵考虑成单个样本(可通过矩阵向量化方式实现),那么上式可以看成是样本学习问题,即公式(1)可以转化为一个子空间学习问题:
{w
}=argmin{wm}
‖kη(
xi,xj)-∑M
m=1
wmkm(xi,xj)‖2(2)
矩阵向量化运算是指将元素的二维矩阵表达形式,转化为向量以便于后续运算和处理。矩阵向量化运算可以简单地表示为a=vec(A)。考虑将公式(2)中的矩阵元素进行向量化运算,可标记为:kw(xi,xj)→kw=vec({kw(xi,xj)}i=1,2,…,N,j=1,2,…,N)km(xi,xj)→km=vec({km(xi,xj)}i=1,2,…,N,j=1,2,…,N)(
3)其中,kw∈瓗
2×1
,km∈瓗
N2
×1
。针对上述子空间学习问题,引入矩阵向量化运算符,对公式(2)进一步改写,可以得到如下表达形式:
={w
}=argmin{w m
}‖kη
-∑M
m=1
wmkm‖2
2(4)
公式(4)给出的是一个典型的线性子空间学习问题,在给定已知样本集合条件下,学习这些样
本的最优表示,同时获取样本权重w
和最优表示向量k
w,
可得到线性子空间表示形式:k w
=∑M
m=1
mkm(5)
进一步,根据核函数构造的Mercer定理可知,满足条件的核矩阵都是半正定(PositiveSemidefinite,PSD)的。因此,上述问题可以采用线性子空间学习方法来进行求解。在得到最优的基
核线性组合核k
w后,
将其导入支持向量机预测器中,进行最优多核预测器的学习。图2给出了子空
间多核学习的原理框图。
图2 子空间多核学习框架上海电气商和网
1.2 子空间多核学习预测方法
在子空间多核学习框架下,本文提出三种构造子空间多核学习方法,用于企业财务困境预测。1.2.1 最大方差投影子空间多核学习
考虑引入最大方差投影,构建子空间多核学习方法,称之为最大方差投影子空间多核学习(Maxi mumVarianceSubspaceMultipleKernelLearning,MV SMKL)。最大方差投影子空间多核学习的优化问题可以表示为:
=argmax‖w‖=1
{wTΣ
w}(6)
其中,Σ=xT
。相应地,公式中x是全部基核向量化之后构成
的核矩阵,即x=[k1,k2,…,kM]
,x∈瓗N
2×M
,ki
∈瓗N
,i=1,2,…,M。最终的子空间多核学习形式为:
=∑M
m=1
mkm=xw(1)(7)
其中,w(1)=[w1,w2,…,wm]T
下面给出在最大方差准则下进行子空间多核学习的具体流程。
算法1:最大方差投影子空间多核学习MV SMKL
1)预先设定一组基核形式(含参数),即;K={k 0|k=
∑Mm=1
wmkm,wm 0
,trace(k)=c}2)利用训练样本计算基核矩阵;
3)对基核矩阵进行向量化运算;4)对基核样本矩阵进行特征值分解;5)计算得到最大特征值对应的特征向量,将其作为基核线性组合的最优权值;
6)计算最优线性组合核;7)将最优组合核引入到SVM决策函数,代替标准SVM单核,形成最大化边缘决策优化问题;
8)求解支持向量机优化问题,得到最优预测器;9)利用预测器对待判定企业样本数据进行学习;
681运 筹 与 管 理           2021年第30卷
1.2.2 类别可分性最大化子空间多核学习
给定一组基核{K|k1,…,kM},其中ki是第i个核矩阵,进行向量化处理,得到x=[k1,k2
,…,kM],x∈瓗N2
×M,ki∈瓗N2
,ki=vec(k1)
,i=1,2,…,M。需要通过一组基核向量化矩阵x来进行无监督学习。假设利用p1,p2来表示无监督学习中的
两类,则有p1,p2
∈RM×(N2
/c)
,其中M为基核数目,N为样本数目,c为待分类样本类别数目。根据理想核矩阵的定义,理想核矩
阵应该为分块矩阵,对角线上存在以每类训练样本个数为尺寸的“1”块,即对角“1”块;非主对角线上的块元素都为0,即“非对角0块”
。实际中不同基核利用训练样本得到的核矩阵都不能够满足上述理想条件。本文构造了基于最大化类别可分性准则的子空间多核学习方法(MaximumSeparabilitySubspaceMultipleKernelLearning,MS SMKL),通过寻使得对角“1”块和“非对角0块”块内离散度最小、块间离散度最大的线性投影向量,获得类别可分性最好的线性组合核。考虑针对每类计算如下均值向量:   mw1=1n2×c∑n2×c
i=1w1.,i∈RM×1,   mw2=1N2-n2
×c∑N2-n2×c
i=1w2.,i∈RM×1(8)
令si,i=1,2表示类内离散度矩阵,sb表示类
间离散度矩阵,则有
si=
Σ(x-mwi)(x-mwi)T
,i=1,2(9)sb=
(mw1-mw2)(mw2
-mw3)T
(10)总的类内离散度矩阵可以表示为:
st=s1+s2
(11)
依据Fisher准则,投影向量能够通过解决如下
理查兹优化问题来获得:
   w
=argmaxw
{(wTsbw)/(wTst
w)}(12)
为了确保解的稳定性,通常将类内离散度矩阵进行规范化处理,即在对角元素上增加一个很小的值:
st←st+
λI(13)
其中,λ>
0,I表示单位矩阵。公式(12)进一步可以改写为如下形式:w
=argmaxw
{trace((wT
(st+λI)-1
wT
sb
w)(14)
上述问题中涉及到{st+λ1}-1
sb矩阵特征值分解过程。通过求解上述优化问题,即可得到Fisher判别准则下的最优投影向量。下面给出Fisher准则下得到的最大类别可分性子空间多核学习算法的具体流程。
算法2:类别可分性最大化子空间多核学习MS SMKL
)预先设定一组基核形式(含参数),即K={k 0|k=∑Mm=1
wmkm,wm 0
,trace(k)=c}2)利用训练样本计算基核矩阵;
3)对基核矩阵进行向量化运算;4)计算类内离散度和类间离散度;5)求解优化问题,得到Fisher判别最优投影向量,将其作为基核线性组合的最优权值;
6)计算最优线性组合核;7)将最优组合核引入到SVM决策函数,代替标准SVM单核,形成最大化边缘决策优化问题;
8)求解支持向量机优化问题,得到最优预测器;9)利用预测器对待判定企业样本数据进行学习;
1.2.3 非线性子空间多核学习
核主成分分析通过核映射使得原始数据的非线性结构在变换后为线性结构,这大大提高了分类器挖掘原始数据非线性信息的能力。鉴于核主成分分析具有良好的非线性数据处理能力,本文将其引入到子空间多核学习中,利用核主成分分析作用于基核矩阵,提取在特征空间中具有最大方差的第一非线性主分量,即为最优的组合核,实现非线性子空间多核学习(N
onlinearSubspaceMultipleKernelLearning,N SMKL)。具体非线性子空间多核学习算法流程描述如下:
算法3:非线性子空间多核学习N SMKL1)预先设定一组基核形式(含参数),即;K={k 0|k=
∑Mm=1
wmkm,wm 0
,trace(k)=c}2)利用训练样本计算基核矩阵;
3)对基核矩阵进行向量化运算;4)对基核样本矩阵在核映射后的特征空间中进行特征值分解;
5)计算得到最大特征值对应的特征向量,将其作为基核线性组合的最优权值;
6)计算最优线性组合核;7)将最优组合核引入到SVM决策函数,代替标准SVM单核,形成最大化边缘决策优化问题;
8)求解支持向量机优化问题,得到最优预测器;9)利用预测器对待判定企业样本数据进行学习;
2 财务困境预测数据实验与分析
2.1 上市公司财务预警数据
本文从盈利能力、偿债能力、发展能力、资产管理、现金流量、财务弹性七个方面确定初始财务困境预警指标体系,详细情况见表1。本文在中国上市公司中选择实际财务数据指标进行研究。财务数据采集原则主要考虑了公司的多样性、时间的连续性和每类样本的比例。实验选择了2006年至2013年我国上市企业中203家财务状况正常的公司和203家ST公司。根据上述准则以及指标筛
81第1期        张向荣:基于子空间多核学习的企业财务困境预测方法
选,实验选用了筛选后的20个不同原始财务指标。
为了验证子空间多核方法的有效性和先进性,仿真实验选用了典型的财务困境预测方法作为对比。对于不同的方法,每组实验中选择相同的训练集和测试集。对比的方法包括:经典的多元线性分析MD
A、Logist方法、k近邻(KNN)、神经网络NNs和标准支持向量机。本文三种方法标记为MV SMKL、MS SMKL、NS SMKL。在多核学习中核
函数选择为高斯核,核尺度设定为0.05到2之间以间隔0.05进行均匀采样得到40个尺度,及40个基核。各个方法中的模型参数通过5折交叉验证进行确定。所有实验均实验1
0次,最后取其平均值作为最终结果。共设计了3个实验,从3个方面验证所提出方法的有效性和先进性:1)不同年份预测;2)数据集成预测;3)多核模型参数测试。
表1 初始财务指标
指标类型编号 指标名称
永中office2012
盈利能力V1净利润率,V2主营业务利润率,V3总资产报酬率,V4净资产收益率,V5非经常性损益比率,V6市盈率,V7市
净率
偿债能力V8流动比率,V9速动比率,V10资产负债率,V11产权比率,V12利息保障倍数,V13有形净值债务率,V14经营现金流量比率
发展能力V15主营业务收入增长率,V16净利润增长率,V17净资产增长率,V18总资产增长率,V19每股收益增长率,V20每股营业收入增长率,V21每股净资产增长率,V22每股息税前利润增长率资产管理V23应收账款周转率,V24存货周转率,V25流动资产周转率,V26总资产周转率现金流量V27现金流动负债比,V28盈余现金保障倍数财务弹性
V29现金股利保障倍数,V30经营现金流比率
2.2 财务困境预测实验结果2.2.1 不同年份预测结果与分析
表2 不同年份、不同模型下预测精度(%)(配比为1∶1,采样率为0.4)
模型
方法
MDA
LOGITKNNNNsSVMMV SMKLMS SMKLN SMKLT 10683.70±7.1378.48±6.8689.78±5.0374.35±9.9091.09±4.2092.83±3.2591.30±3.7694.13±3.410770.00±10.6784.11±5.3584.82±4.0675.00±7.9486.43±4.1486.61±3.5086.43±3.7887.14±3.770871.67±8.7462.50±4.8180.00±5.1265.83±7.3083.75±5.3684.17±5.4983.75±4.9985.00±6.530970.50±9.2659.50±12.3569.00±7.38
65.50±7.62
79.00±6.5878.50±7.8477.50±6.3577.50±7.551087
.78±6.1767.50±11.8685.83±5.4776.67±10.4989.17±8.0188.89±6.5588.33±6.7891.11±5.561180.00±13.1571.67±16.7679.17±15.3465.00±17.9289.17±6.869
0.83±7.3090.00±8.6191.67±20.711285.71±5.3261.43±9.34
87.50±4.5381.07±11.7993.21±2.6493.21±4.2892.50±4.6092.86±3.281381.25±10.2176.88±10.6482.50±7.10
69.38±7.48
80.00±6.45
81.25±5.89
81.25±6.59
83.75±11.43
avg
78.83
70.2682.3371.686.4887.0486.3887.90T 2
0680.22±11.2570.65±11.9284.7±5.2576.30±9.6280.22±5.8083.26±7.4182.39±6.8886.96±7.540774.46±9.7868.57±8.9680.36±3.0469.46±5.4870.36±8.1776.61±7.3677.68±6.2681.96±4.080859.17±8.29
59.17±10.17
71.67±9.17
64.17±9.25
66.67±8.33长恨歌赏析
68.33±9.0468.33±9.2568.33±7.870956
.50±11.5649.50±18.0264.50±12.5760.00±5.7762.00±11.8363.50±7.0963.00±8.8868.50±9.431069.72±8.3356.11±6.7873.89±5.8967.50±6.4278.89±6.57
80.28±5.7780.83±5.6279.72±4.761178.33±8.9673.33±19.1682.50±4.7371.67±11.2582.50±6.1581.67±5.2781.67±5.2782.50±16.101274.29±8.38
53.57±10.51
74.64±5.9465.71±8.2869.29±7.93
74.29±6.90
73.21±7.1976.43±8.451374.38±10.4061.25±16.0876.88±8.36
75.00±9.77
78.13±6.0781.25±10.21
81.25±8.84
83.75±12.08
  健康企业和被ST企业不同年份数据的特征呈现出差异性。传统方法在个别年份表现出不错的预测性能,但是很难在所有年份都保持优秀的性能,即传统方法对不同数据的泛化能力较差。因此首先在不同年份数据上对所提出方法进行验证。表2给出了在健康企业和ST企业配比为1∶1配置下,不同年份,不同预测模型下不同方法在训练样本采样率为0.4的预测精度。实际中健康企业的数目要明显大于被S
T企业数目,因此实验中考虑了健康企业和被ST企业不均等配比的情况,表3给出了在健康企业和ST企业配比为2∶1配置下的预测结果。表2中可发现,在T 1模型下,最大化方差准则下的子空间多核学习方法(MV SMKL)及其非线性形式(N SMKL)表现突出,T 1模型下的平均精度给出了具体数值。T 2模型实验结果表现出和T 1模型类似的结论。从表3中可以看出,无论是在哪种时间模型下,非线性子空间多核学习方法除在个别年份外均表现出最佳的预测精度。
881运 筹 与 管 理           2021年第30卷

本文发布于:2024-09-21 14:37:34,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/504994.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   预测   财务   方法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议