意愿计算的股市突变点预测方法

收稿日期:2020 04 20;修回日期:2020 06 01  基金项目:安徽省关键研究与开发计划资助项目(201904a05020073);国家自然科学基金面上项目(
61876206)作者简介:姚宏亮(1972 ),男,副教授,博士,主要研究方向为机器学习与数据挖掘(dmicyhl@163.com);董伟伟(1985 ),男,研究生,主要研究方向为人工智能与模式识别;王浩(1962 ),男,教授,博士,主要研究方向为人工智能与数据挖掘;杨静(1979 ),副教授,博士,主要研究方向为人工智能与数据挖掘.
意愿计算的股市突变预测方法
姚宏亮,董伟伟,王 浩,杨 静
(合肥工业大学计算机与信息学院,合肥230601)
摘 要:由于传统分段线性表示方法没有考虑股市数据分布变化导致分段不合理,同时股市突变点相关特征的
局部性导致突变点难以有效预测,所以在分段线性表示方法的基础上提出一种意愿计算的股市突变点预测方法(
WC WSVM)。首先,给出一种波动率分布变化的分段线性表示(V PLR)方法,通过波动率分布变化自适应地优化PLR分段阈值;然后,提取与主力买卖股票意愿相关的股市特征并进行量化,利用逻辑回归(LR)对于所提
取的特征进行融合得到意愿计算结果;最后,将意愿计算结果与P
LR WSVM算法输入特征共同代入到WSVM中,进行突变点预测。在真实数据上的实验结果表明,算法具有强适应性,预测精度得到有效提升。关键词:突变点;分段线性表示;支持向量机;意愿计算;逻辑回归中图分类号:TP181   文献标志码:A   文章编号:1001 3695(2021)04 027 1108 05doi
:10.19734/j.issn.1001 3695.2020.04.0140Predictionmethodofstockmarketmutationpoint
predictionwithwillingnesscalculation
拟合优度
YaoHongliang,DongWeiwei,WangHao,YangJing
(SchoolofComputer&Information,HefeiUniversityofTechnology,Hefei230601,China)
Abstract:Becausethetraditionalpiecewiselinearrepresentationmethoddoesnotconsiderthestockmarketdatadistribution
changes,whichleadstounreasonablesegmentation.Meanwhilethelocalityofthestockmarketmutationpointrelatedcharacte risticsmakesthemutationpointdifficulttopredicteffectively.Therefore,basedonthepiecewiselinearrepresentationmethod,thispaperproposedapredictionmethodofstockmarketmutationpointwithwillingnesscalculation(WC WSVM).Firstly,it
gaveapiecewiselinearrepresentation
(V PLR)methodofvolatilitydistributionchange,andthevolatilitydistributionchangeoptimizedthePLRsegmentationthreshold.Secondly,itextract
edthestockmarketcharacteristicsrelatedtothemainwillingness
tobuyandsellstockstoquantify
,usinglogisticregression(LR)tofusetheextractedfeaturestoobtainthewillingnesscalcula tionresults.Finally,itbroughtthewillingnesscalculationresultsandthePLR WSVMalgorithminputfeaturesintotheWSVM
together
,topredictthemutationpoint.Experimentalresultsonrealdatashowthatthealgorithmismoreadaptableandthepre dictionaccuracyiseffectivelyimproved.Keywords:mutationpoint;PLR;SVM;willingnesscalculation;logisticregression
0 引言
股市是一个复杂的非线性动态系统[1],是众多因素共同作用的结果,受到政策、社会新闻事件、公司本身经营状况以及
投资者心理变化等众多因素的影响[2,3]
,因而股市趋势预测是机器学习领域的一个挑战性问题。其中,突变点预测是股市趋
势预测中的关键性难题[4]
。近年来,股票突变点预测是一个
研究热点。Chang等人[5,6]
提出了一种通过分段线性表示PLR和神经网络对股票交易点预测方法,构建了基于遗传算法设置
动态PLR阈值的股票交易信号决策系统;Luo等人[7,8]
提出了
一种将P
LR与加权支持向量机相结合的股票交易信号预测(PLR WSVM),根据分段点间的收盘价变化率设置权重,利用WSVM进行交易突变点预测,讨论了根据分段点的百分比来动
态设置PLR阈值的方法;石陆魁等人[9]
使用最小方差乘积法确定不同类别的惩罚参数来提高模型识别精度,以更有效地预
测股价拐点;Tang等人[10]
提出了一种自适应函数来自动选择PLR的阈值,采用过采样和欠采样的方法来解决样本不平衡;
赵澄等人[11]
提出基于金融文本情感的股票波动预测,通过海
量新闻数据的多维情绪特征向量化方法,利用支持向量机模型
来预测金融新闻对股票市场的影响。
以上基于分段线性表示的股票突变点(拐点)预测方法,
主要存在以下几个问题:
a)由于股票不同区间波动变化分布不同,当前分段线性表示方法的阈值设置具有不合理性;
b)特征选择方面仅仅是将简单的技术指标作为输入变量代入模型进行预测,没有考虑特征自身的局部性,导致不同技术指标所表达股市状态产生矛盾,使突变点难以预测。针对以上问题,给出
了一种基于意愿计算的股市突变点预测方法。意愿[12]
通常是指主体对想要达到某个特定的目标和方向所产生的想法,是导致决策的根本原因。在股票市场,趋势的转变是主力行为运作的结果,而这种行为决策是由买卖股票的意愿程度决定的。意愿计算是通过提取与主力买卖意愿相关的技术指标进行多指标
融合[
13]
计算得到的概率值,以克服传统特征融合方法对于特征理解的局部性,当值越接近1时,主力买卖股票的意愿越强。
本文提出波动率分布变化的分段线性表示(V PLR),通过
波动率变化来优化不同波动区间的P
LR分段阈值;提取与主力买卖股票意愿相关的指标特征进行离化和量化,进而利用逻辑回归对于所提取的特征进行融合来计算主力买卖股票意愿
第38卷第4期2021年4月 计算机应用研究
武汉工学院
ApplicationResearchofComputersVol 38No 4
Apr.2021
程度;将意愿计算结果与PLR WSVM算法输入特征共同带入
到WSVM中,进行突变点预测。
1 相关背景知识
1 1 分段线性表示
PLR[14]
是一种将时序曲线分割成若干段的方法,每个分
段的最大误差不超过给定的阈值δ。给定时间序列T={y1
,y2,…,yl
},将其用多条近似直线分段表示,可以描述为TPLR={L1(y1,…,yt1),L2(yt1+1,yt1
+2,…,yt2),…,Lk(ytk-1+1,ytk-1
+2,…,yl)}其中:ti是第i段的结束时间;Li(yti-1+1,yti-1+2,…,yti
)表示一条近似直线;ti也称为转折点。1 2 加权支持向量机
支持向量机(SVM)[15]
分类器是20世纪90年代初由Vap nik提出的一种有效的分类问题机器学习算法。支持向量机适合于处理小样本、非线性和高维问题。支持向量机的基本思想是将数据转换为更高的维空间,并到一个分类超平面,将数
据与最大边界分隔开。S
VM模型描述如下:minw,b,ξ12
‖w‖2+C∑li=1ξi
s.t. yi((w· (xi))+b)≥1-ξi
 i=1,2,…,lξi
≥0 i=1,2,…,l(1)
其中:xi∈ n
、yi
∈{-1,1}分别是训练样本和相应的类标签; 是一个非线性映射,将数据转换为高维特征空间;w是边界平面的法线向量;b是偏置值;ξi
(i=1,2,…,l)是松弛变量;C是惩罚参数。加权支持向量机WS
VM[16]模型的分类函数为f(x)=w· (x)+b
(2)
其中: 为未知函数,
最优化问题表示为minw,b1
2‖w‖2+C∑n
=1siξis.t. yi((w·φ(xi))+b)≥1-ξi
 i=1,2,…,nξi
≥0 i=1,2,…,n(3)
其中:C>0为惩罚参数;si为权重;ξi为松弛变量;
n为样本个数;xi为训练数据。
2 意愿计算
在股票市场,主力买卖股票的意愿是决定了主力的行为决策,而主力意愿的强弱会通过一些技术指标直接或间接地体现,例如KDJ指标、BISA乖离率指标等。以个股华胜天成(股票代码:600410)为例来分析主力买卖股票意愿。图1显示了华胜
天成从2
019年4月1日到2019年7月31日的日K线走势图,横轴表示交易点,纵轴表示股价,
黑方框区域为拐点区域。
Fig.1 TrendchartofK lineon600410
结合东方财富交易软件,图1中股价出现连续上涨后在
2019年5月16日达到最高值。指标对于股价状态表达具有局限性,甚至可能造成反向指引,例如单独使用12日BISA乖离率指标进行拐点判断,该指标在2019年5月10日的值为11.50,属于超买阶段,显示主力有强烈的卖出意愿,需要及时卖出股票,但是股价却在未来的几天涨幅超过20%。因而,需要对技术指标进行分析量化并融合来进行意愿计算。本章给出了一种基于意愿计算的股市突变点预测方法。2 1 波动率变化的PLR分段(V PLR)
由于传统PLR分段没有考虑股票不同时期的波动差异,
导致波动较小的区间产生较少的分段,波动较大的区间产生较
多的分段。V PLR是根据股票在不同阶段的波动幅度来对阈值δ进行优化设置。V PLR分段过程描述如下:
sa28a)给出个股的一段历史数据,对股票收盘价进行归一化处理,计算公式如下:
cpnorm=(cp-cpmin)/(cpmax-cpmin
)其中:cp、cpmax、cpmin
分别表示这一段历史数据的收盘价、最高价和最低价。
b)设置PLR分段的初始阈值δ=0.03。c)采用分段区间的波动方差distvar和平均涨跌幅度zfavg
来计算分段区间的波动率fd。当distvar越大,围绕分段直线的波动程度越大,应设置较小的阈值δ,反之distvar越小,波动程度越小,应设置较大的阈值δ;当zfavg
越大,围绕分段直线的波动程度反而越小,应设置较大的阈值δ,反之,zfavg
越小,波动程度反而越大,应设置较小的阈值δ。综上所知,distvar
与阈值δ成反比关系,zfavg
与阈值δ成正比关系。为了得到较优的分段阈值δ,文中取它们的均值来作为分段区间的波动率,计算公式如下:
fd=
distvar+zfavg2
distvar=(∑n
i=1(di-davg
)2
/n)×100zfavg=(cpmax/cpmin-
1)×100
/n其中:distvar为分段区间的波动方差;di、davg
分别表示点i到分段直线的距离和平均距离;n表示分段周期;zfavg
为分段区间的平均涨幅;cpmax、cpmin分别表示分段区间内的最高收盘价和最低收盘价。
d)根据分段区间的波动率来优化设置分段阈值δ,优化调整如下:
if fd>2:δ=4δelse δ=(1+fd)δ
e)若各点到分段直线的最大距离dmax
大于分段阈值δ,则从最大值点位置进行划分,分成左、右两段。
f)左、右分段分别重复执行步骤c)~e),直到波动率变化的PLR分段完成,产生分段点。以平安银行(000001)2017年9月1日到2017年11月30日数据为例,根据不同阈值进行PLR分段,如图2所示。在图2(a)中,δ=0.08,阈值固定且取值较小,会产生较多的分段,红方框(见电子版)中的分段不
太合理;在图2(b)中,δ
=0.15,阈值固定且取值较大,波动区间较小的区间(红方框区间)产生较少的分段,分段不合理;在图2(c)中,采用波动率变化的PLR分段(V PLR),分段适中,
较为合理。
图2 不同阈值δ的PLR分段比较
Fig.2 ComparisionofPLRsegmentswithdifferentthresholdsδ
通过波动率变化的PLR分段所获得分割点是分段点,并
不是突变点,以下给出了突变点定义。
定义1 突变点。设存在分段点序列Pi、Pj
,其对应的收盘价序列为cpi、cpj,分段涨幅为zf=(cpj-cpi)/cpi,当|zf|>R时,则Pi被定义为突变点MP;否则Pi不是突变点,即普通点OP。其中R为给定的分段涨幅阈值,一般情况下取zf=0.08。
对于不同的突变点和非突变点,设置不同的权重μ(tr)
t,计算公式[1]
如下:
μ(tr)t=|cp(nst
)-cp(t)|/cp(t)t∈MPλ×minSt
μSt
t∈{
OP(4)
其中:cp(·)表示收盘价;st、nst分别表示突变点和下一个突变
·9011·第4期姚宏亮,等:意愿计算的股市突变点预测方法   
点;λ是比例因子;μ(tr)t进行归一化处理,
公式为μ(tr)
i=1+μ(tr)i-μ(tr)
minμ(tr)max-μ(tr)
min
(5)
2 2 特征选择
股市的波动是主力资金持续作用的结果,主力买卖股票意
愿的强弱推动了股市趋势的变化,即主力资金买卖意愿的转换,也对应着市场趋势转变。本文通过对10日股价涨跌幅度、K线组合形态、平滑移动平均线(MACD)、随机指标(KDJ)、乖离率(BIAS)以及成交量(VOL)等指标从意愿角度进行分析,提取主要的六个特征,并对所提取的特征实行量化。具体的相关特征如下:
a)10日股价涨跌幅度指标量化。股价在持续上涨后,市场风险不断增强,上方抛压越来越重,主
力获利了结,卖出股票的意愿就越强烈,上涨趋势将可能发生改变;反之,股价在持续下跌后,市场风险不断降低,主力建仓,买入股票的意愿也越来cg时代
越强,下跌趋势也将可能发生改变。本文通过计算股价近1
0日的涨跌幅度zf10
来反映当前的风险程度及主力买卖股票的意愿强弱。计算公式如下:
zf10=(cpi
cpi-10
-1)×100(6)
其中:cpi、cpi-10分别表示第i日、第i-10日的收盘价。当zf10越大,市场风险越高,主力卖出股票的意愿越高;当zf10越小,市场风险越低,主力买入股票的意愿越高。10日股价涨跌幅度指标量化如表1所示。
表1 10日股价涨跌幅度指标量化
  b)K线组合形态指标量化。K线[17]
又称做阴阳线,是以每个分析周期的开盘价、最高价、最低价和收盘价绘制而成。在股市运行期间,随着股价不断上涨或下跌,多空力量碰撞越演越烈,将会出现一些特殊的K线组合形态,这些特殊的K线组合形态体现了主力的资金意图,例如,当股价持续上涨后,出现长上影线的K线形态,表示上方抛压严重,主力卖出股票意愿强烈,预示着趋势将可能会发生向下反转;而当股价持续下
跌后,出现长下影线的K线形态,
表示下方支持较强,主力买入股票意愿强烈,预示着趋势将可能会发生向上反转。本文选择了六种特殊的K线组合形态,具体包括:
(a)10日累计跌幅超过10%后,出现下影线长度大于3%的实体,这种K线组合形态用K1表
示。
(b)10日累计跌幅超过10%后,出现实体大于3%长阳实
体,这种K线组合形态用K
2表示。(c)前两日累计涨跌幅度小于3%,出现实体大于3%的长阳实体,这种K线组合形态用K3表示。
(d)10日累计涨幅超过10%后,出现上影线大于3%的实体,这种K线组合形态用K4表示。
(e)10日累计涨幅超过10%后,出现实体小于-3%的长阴实体,这种K线组合形态用K5表示。
(f)前两日累计涨跌幅度小于3%,出现实体小于-3%的长阴实体,这种K线组合形态用K6表示。
以下给出了K线组合形态指标量化,如表2所示。c)MACD指标量化。MACD是利用收盘价的短期指数移动平均线与长期指数移动平均线之间的聚合与分离状况,对买进、卖出时机做出研判的技术指标。MACD金叉,即DIFF由下向上突破DEA,为
买入信号。M
ACD死叉,即DIFF由上向下突破DEA,为卖出信号。MACD计算公式如下:
difi=ema(cpi,s)-ema(cpi,l)deai=ema(difi,n)macd=(difi-emai
×2(7)
其中:cpi表示第i
天的收盘价;s表示快速指数移动平均线的天数;l表示慢速指数移动平均线的天数。通常s=12,l=26,n=9。
由于M
ACD是中、长线指标,日线级别MACD指标线的金叉、死叉对短期趋势转变的预示具有滞后性,不够灵敏,不能及时有效地反映短期趋势的转变,所以提取30min级别的MACD指标的金叉、死叉来对突变点进行研究。当30min MACD指标的DIFF线由下向上突破DEA线(金叉)时,表示主
力买入股票意愿较强;反之,当D
IFF线由上向下突破DEA线(死叉)时,表示主力卖出股票意愿较强。以下给出了30minMACD指标量化,如表3所示。
!!""#$%&'()*#$%&!'()*+$,-./01$(,*2*+$,*-(-2
" 3*(4+-5%*($,*-(2-.5""#+%&!,-./01234567
"6 "! "788/96": "; "<
8809=>9:
;<
?!77?5*(@ABC '()*#$%D7'()*+$,-./01$(,*2*+$,*-(-2
7?5*(1,4/@ABC 7?5*(@ABC =>
-./01234567
?@88/96AB 8809=69:
;<
?
d)KDJ指标量化。随机指标KDJ是通过统计一个固定周
期内的收盘价以及曾经出现过的最高价位和最低价位之间权重比关系,从而计算得到最后一个统计周期的RSV值,最后按
照加权的平滑移动平均线的计算方法分别获取计算J
和K、D的数值。KDJ指标计算公式如下:
rsvi=cpi-hpi
hpi-lpi×100ki=13rsvi+13ki
-1di=23di-1+13k
ji=3ki-2d
(8)
其中:cpi、hpi、lpi表示第i
天的收盘价、最高价、最低价;通常i=9。KDJ指标中的K、D线通常运行在0
~100,J线通常运行在-20~120。当J线取值大于100时表示超买,数值越大,主力卖出股票的意愿越强烈,趋势越有可能发生向下转变;当J线
取值小于0时表示超卖,
数值越小,主力买入股票的意愿越强烈,趋势越有可能发生向上转变。K
DJ指标量化如表4所示。表4 KDJ指标量化
  e)BIAS指标量化。乖离率(BIAS),又称做偏离率,简称Y
麦麦提依明 努尔麦麦提
值,是通过计算市场指数或收盘价与某条移动平均线MA之间的差距百分比,以反映一定时期内价格与其MA偏离程度的指标,从而得出价格在剧烈波动时因偏离移动平均趋势而造成回档或反弹的可能性。当股价在上方越远离移动平均线时,主力卖出股票的意愿越强烈;当股价在下方越远离移动平均线时,主力买入股票的意愿越强烈。乖离率的计算公式如下:
bias=(cp
man
-1)
×100
(9)
其中:cp表示当日收盘价;man表示n
日移动平均线,本文中n=12。BIAS指标量化如表5所示。
表5 BIAS指标量化
·0111·计算机应用研究 
第38卷
  f)成交量(VOL)量比指标量化。成交量是指股票买卖双
方达成交易的数量。显然,股价和成交量之间存在一定的量价关系。当股价连续上涨后,成交量急剧增加,股价上涨乏力,在高位盘旋,无法向上突破时,表示主力卖出股票意愿强烈,趋势可能发生向下转变。当股价在连续下跌后,成交量不断萎缩,股价小幅变动,表示主力买入股票意愿将会变强,趋势可能发生向上转变。本文通过当日成交量与近100日均量之间的量比vr100=vol/volma100来对突变点进行研究,其中vol、volma100分别表示当日成交量及近100日的平均成交量。成交量量比指标量化如表6所示。
表6 成交量量比指标量化
2 3 意愿计算
1)逻辑回归 逻辑回归[18]
是一种广义线性回归,多用于二分类问题,假设y∈{
0,1},1表示正例,0表示负例。逻辑回归是在线性函数输出预测实际值的基础上,寻一个假设函数
hθ(x)=g(θT
x),将实际值映射到0~1。如果hθ(x)≥0.5,则预测y=1,即y属于正例;如果hθ
(x)<0.5,则预测y=0,即y属于负例。逻辑回归输出的预测函数表达式为
hθ(x)=g(θT
x)=11+e
-θ
Tx(10)
其中:输入θT
x为线性回归模型的输出。
2)意愿计算 基于逻辑回归模型LR,将提取的各个指标变量作为随机变量代入进行融合,进行主力买卖股票意愿计
算。设变量X=(x1,x2,…,x6),其中x1表示1
0日股价涨跌幅度指标;x2表示K线组合形态指标;x3表示30minMACD指标;x4表示KDJ指标;x5表示BISA指标;x6表示成交量(VOL)量比指标。模型公式如下:
Y=11+e-θ
TX=1
1+e-(θ0x0+θ1x1+…+θ6x6)(11)
其中:θ=[θ0,θ1,…,θ6]T
为回归系数;x0=
1。对于m个独立同分布的训练样本X
,其似然函数为L(θ)=∏m
i=1
p(yi|xi;θ)=∏m
i=1
hθ(xi)yi(l-hθ
(xi))1-yi(12)
取对数,则对数似然函数为
logL(θ)=∑m
i=1yiloghθ(xi)+(1-yi)(l-hθ
(xi))(13)
根据最大似然估计,模型的损失函数J(θ
)为J(θ
)=-1m∑m
i=1
yiloghθ(xi)+(1-yi)(l-hθ
(xi))(14)
对损失函数求偏导,具体过程如下:
δδθj
J(θ)=-1m∑mi=1yi1hθ(xi) δδθjhθ
(xi)-(1-yi)1l-hθ(xi) δ
δθj(l-hθ(xi))=-1m∑mi=1(yi1g(θTxi)-(1-yi)1l-g(θTxi
))δ
δθjg(θTxi)=-1m∑mi=1
(yi(1-g(θTxi))-(1-yi)g(θTxi))xj
i=-1m∑mi=1(yi-g(θTxi))xji=1m∑mi=1
(hθ
(xi)-yi)xji将提取的指标代入式(11),通过损失函数式(14)不断优
化参数θ=[b,w1,w2,…,wd]T
,计算得到Y∈[0,1]。Y表示主力买卖股票意愿的强弱,当Y值越接近1时,表示主力买卖股票的意愿越强,趋势转变的概率越大;当Y值越接近0时,表示主力买卖股票的意愿越弱,趋势转变的概率越小。2 4 平衡样本数量
在分类问题中,不同类别数据的数量是不平衡的,也就是说一个类比其余的类别包含了更多的样例数据。通常,不平衡
样本会降低分类器的精度。股票的突变点的研究也反映了数
据的不平衡,普通点的数目远大于突变点的数目。本文通过采用过采样和欠采样来平衡样本数量。过采样方法通常生成虚拟样本以平衡数据集。在预测突变点的问题上,采用PLR算法进行标记。由于趋势的转变具有过程性,所以突变点应该是一个周期而不是一个点。在这种情况下,由PLR算法生成的突变点的下一个邻居点在一定的条件下也应标记为突变点,普通点数量就会相应减少。此外,标记为邻居点的特征也应进行重新标记,使得与突变点的特征相同。当突变点与下一个邻居
点之间的涨幅满足|(cpi+1-cpi)/cpi×
100|≤r时,相邻的下一个邻居点也标记为突变点,同时修改邻居点特征与突变点特征相同。其中r为给定的相邻点之间的涨幅阈值,设置r=3。2 5 WC WSVM算法
WC WSVM算法描述如下:
输入:股票日线数据集dataset。
输出:突变点。a)根据式(1)~(6)及特征量化,从dataset中提取真实突变点标签label及与主力买卖个股意愿强弱相关的六个指标特征。
b)从dataset数据集中提取PLR WSVM算法[1]
的输入特征。c)计算所有样本的权重并赋值。d)采用过采样和欠采样方法来平衡样本。e)根据提取的六个指标特征及真实突变点标签组建训练集train Set和测试集testSet。
f)根据式(11)(14)建立模型,对训练集trainSet提取的六个指标
进行融合,得到新的融合特征Y及参数θ=[b,w1,w2,…,wd
]T
。g)根据式(11)及步骤d)计算得到的参数θ=[b,w1,w2,…,wd
]T
,对测试集testSet提取的六个指标进行融合,得到新的融合特征Y。
h)根据PLR WSVM算法1的输入特征、新的融合特征Y及真实突变点标签组建新的训练集newTrainset和新的测试集newTestset。
i)利用newTrainset来训练WSVM模型。j)利用WSVM模型对newTestset进行突变点预测。
3 实验比较与分析
3 1 实验数据集说明
为了测试本文方法的有效性,从上证股票中随机抽取了处于不同趋势、不同时间区间的10支个股数据作为训练集进行
模型学习,并随机抽取了处于不同趋势、不同时间区间的1
0支个股数据作为测试集,具体数据集说明如表7、8所示。
表7 训练数据集说明
Tab.7 Trainingdatasetdescription
序号股票
代码训练
时间区间趋势总交易点个数非突变
点个数突变
点个数1
00223020170101~20171130上涨22316558260311820181101~20190930上涨22517451360137720181001~20191231上涨30422480430052520181101~20191031上涨24319152500218520181201~20191231上涨25819068630013920161101~20180331下跌34726879760061820171001~20181231下跌30323667800001720151201~20161231下跌24818662900002020170401~20180531下跌2171684910
600305
20171101~20181231下跌
28622462合计
2654
2026
628
表8 测试数据集说明
Tab.8 Testdatasetdescription
序号股票
代码测试
时间区间趋势总交易点个数非突变
点个数突变
点个数1
00223020181101~20190331上涨
1007228260313120181101~20190430上涨1219229360318820160301~20160731上涨634518460137720170601~20170930上涨847014500218520170601~20171031上涨1048024630013920190401~20190930下跌1259035760061
820190401~20190930下跌1259134800001720181101~20190228下跌796712900002020190401~20190831下跌105782710
600305
20190601~20190930
下跌
84
63
21
3 2 模型参数说明
采用支持向量机SVM模型来对突变点进行预测,支持向
·1111·第4期姚宏亮,等:意愿计算的股市突变点预测方法   
量机的核函数采用径向基函数RBF,需要优化对应的惩罚因子C和核参数g。参数使用网格搜索方法进行优化,设定一个参数浮动范围,在此范围对模型参数进行训练优化。表9给出了参数的具体范围。
表9 SVM参数范围Tab.9 SVMparameterrange
参数搜索范围
C[1,10,50,100,200,500]g
[0.0001,0.001,0.01,0.1,1]
3 3 实验分析
为了验证算法的有效性,通过突变点预测的精确率、召回
率以及F1值三个方面与PLR WSVM[8]、IPLR WSVM[9]
以及未代入意愿计算结果的V PLR WSVM三种算法进行比较。算法
比较结果如表1
0~12所示,其中粗体表示最佳结果。1)精确率(precision) 即实际为正的占预测为正的比例,计算公式如下:
P=
tptp+fp
(15)
其中:tp为正确预测正类的个数;fp为错误预测正类的个数。
2)召回率(recall) 即正确预测为正的占全部实际为正的比例,计算公式如下:
R=
tp
tp
+fn(16)
其中:fn为预测为负类,实际为正类的个数。
3)F1值 即精确率和召回率的加权调和均值。计算公式为
F1=2/(1P+1
)(17)
将式(15)(16)代入转换得
F1=2tp2tp+fp+fn
(18)
从表10~12的比较结果可以看出,WC WSVM算法精确
率达到了60%以上,明显要高于PLR WSVM、IPLR WSVM和V PLR WSVM三种算法,WC WSVM算法通过引入指标融合得到意愿计算结果,模型精确率得到很大提升;其召回率、F1值也较其他三种算法有所提高。综合比较后可以得出WC
WSVM算法的精确率更高,
性能更优。个股603131(上海沪工)的突变点预测效果对比如图3所示;其中,603131(上海沪工)从2018年11月1日~2019年4月30日共121个交易点分别通过PLR WSVM、IPLR WSVM、V PLR WSVM和WC WSVM算法预测得到的突变点对比。图3中横坐标表示交易点个数,纵坐标表示归一化处理后的收盘价,黑五星表示预测的突变点。结合表10算法精确率比较
进行分析,图3
(a)PLR WSVM算法所突变点个数较少,精度较低仅44%;图3(b)IPLR WSVM算法所突变点太多,但精
确率为5
0%也不高;图3(c)VPLR WSVM算法所突变点少于IPLR WSVM算法,精确率也为50%,其精确率没有得到提升,但从图中可以看出其预测的突变点较为合理,一些冗余的点没有被标记为突变点;图3(d)WC WSVM算法的精确率为79%,精确率明显提升,且预测的突变点更为合理。
表10 突变点预测精确率统计
Tab.10 Precisionofmutationpointpredictionstatistics
序号股票
代码总交易
点个数PLR
WSVMIPLR
WSVMV PLR
WSVMWC
WSVM1
0022301000.44000.45240.54550.875026031311210.44440.50000.50000.79173603188630.47620.48000.41170.75004601377840.36360.45450.41940.875050021851040.45710.42860.51720.777863001391250.39470.48720.63160.740776006181250.40000.39130.57140.85718000017790.52380.50000.50000.666790000201050.37210.40480.40000.789510
600305
84
0.5185
0.5714
0.5385
0.8333
表11 突变点预测召回率统计
Tab.11 Recallrateofmutationpointpredictionstatistics
序号股票
代码总交易
点个数PLR
WSVMIPLR
WSVMV PLR
WSVMWC
WSVM10022301000.45830.51350.64290.500026031311210.46150.57780.58620.65523603188630.45450.50000.41170.50004601377840.38710.48390.40620.500050021851040.43240.40540.50000.508563001391250.35710.43180.40000.571476006181250.39020.40000.42110.52948000017790.47830.48280.55560.500090000201050.43240.44740.32260.555610
600305
84
0.4667
0.5161
0.5000
0.4762
表12 突变点预测F1值统计
Tab.12 F1v
alueofmutationpointpredictionstatistics序号股票
代码总交易
点个数PLR
WSVMIPLR
WSVMV PLR
深圳指数WSVMWC
WSVM1
0022301000.44900.48100.59020.636426031311210
.45280.53610.53970.71703603188630.46510.48980.41170.60004601377840.37500.46880.41270.636450021851040.44440.41670.50850.666763001391250.37500.45780.48980.645276006181250.39510.39560.48480.65458000017790.50000.49120.52630.571490000201050.40000.42500.35710.652210
600305
84
0.4912
0.5424
0.5185
0.60
61
图3 PLR WSVM、IPLR WSVM、V PLR WSVM和
WC WSVM突变点预测对比
Fig.3 Predictioncomparisonofmutationpointsof
betweenPLR WSVM,IPLR WSVM,V PLR WSVMandWC WSVM
4 结束语
本文研究了股市突变点预测问题,提出波动率变化的分段
线性表示(
V PLR),通过技术指标的融合计算主力买卖股票意愿程度,将意愿计算结果与PLR WSVM算法输入特征共同代入WSVM进行突变点预测。实验结果表明,通过分析与主力资金买卖股票意愿相关的技术指标,计算意愿强弱程度,可以更好地对突变点进行预测。下一步的工作是从大盘、行业等整体进行分析研究,更好地对个股突变点进行预测。参考文献:
[1]李丰,高峰,寇鹏.基于分段线性表示和高斯过程分类的股票转折
点概率预测[J].计算机应用,2015,35(8):2397 2403.(LiFeng,GaoFeng,KouPeng.IntegratingpiecewiselinearrepresentationandGaussianprocessclassificationforstockturningpointsprediction[J].JournalofComputerApplications,2015,35(8):2397 2403.)[2]王浩,李国欢,姚宏亮,等.基于影响力计算模型的股票网络社团
划分方法[J].计算机研究与发展,2014,51(10):2137 2147.(WangHao,LiGuohuan,YaoHongliang,etal.Themethodofdivi dingstocknetworkcommunitybasedoninfluencecalculationmodel[J].ComputerResearchandDevelopment,2014,51(10):2137 2147.)[3]桂新志.数据挖掘在股票分析中的研究与应用[D].武汉:华中科
技大学,2011.(GuiXinzhi.Researchandapplicationofdatamininginstockanalysis[D].Wuhan:HuazhongUniversityofScienceandTechnology,2011.)(下转第1118页)
·2111·计算机应用研究 第38卷

本文发布于:2024-09-21 17:47:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/471934.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:意愿   突变   分段   股票   预测   表示   主力   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议