ARIMA乘积季节模型与GRNN模型在猩红热发病预测中的比较

ARIMA 乘积季节模型与GRNN 模型在猩红热发病预测中的比较*
*基金项目:国家自然科学基金(81872719,81803337);山东省自然科 学基金( ZR2019MH034)
△通信作者:王素珍,E-mail : wangsz @ wfmc. edu. cn ;石福艳,E-mail : shifuyan@ wfmc. edu. cn
潍坊医学院公共卫生学院(261053)冯佳宁 肖宇飞 王晓璇 孙 娜 许小珊 王素珍△ 石福艳△
【提要】目的探寻适合猩红热发病的预测模型,为猩红热的预防和控制提供科学依据。方法利用全国2011 年1月至2018年12月的猩红热月发病率,通过R  3. 6. 1软件建立求和自回归移动平均(autoregressive  integrated  moving  average , ARIMA )乘积季节模型和软件 Matlab  9. 1 创建广义回归神经网络(generalized  regression  neural  netword ,GRNN ), 通过R 2比较模型的拟合效果,平均相对误差比较模型预测能力,并对2019年1月-6月发病率进行预测。结果 创建的 ARIMA(2,1,2)(0,1,1) 12乘积季节模型平稳R 2为0. 336,预测2019年1 -6月的发病率(1 /10万)分别为0. 637、0. 274、 0. 377、0. 579、0. 910 和 0. 937, GRNN  模型的 R 2 为 0. 823,预测 2019 年 1-6 月发病率(1 /10 万)分别为 0. 626、0. 178、0. 321、 0. 445、”. 789和0. 774。模型的平均相对误差分别为31. 1%和20. 3%。结论 ARIMA 模型和GRNN 模型均能对猩红热 发病率进行预测,但GRNN 模型预测能力较前者更优。
不可知论
【关键词】 求和自回归移动平均模型 广义回归神经网络 猩红热 发病预测
【中图分类号】R181.2
【文献标识码】A  DOI  10. 3969/j.issn. 1002 -3674. 2020.06.013
猩红热是儿童常见的急性呼吸道传染病,在我国 属于法定报告的乙类传染病[1]。在对猩红热的发生、 流行及其变化趋势进行预测时,通常采用求和自回归
移 动平均(autoregressive  integrated  moving  average , ARIMA )模型[2-4],但是传染病的相关数据往往是不
稳定的,易受自然和社会因素的影响而发生不同的变
化,这类数据通常具有线性趋势和非线性关系,只通过 线性模型信息提取不够充分。人工神经网络(artificial
neural  network , ANN )以其独特的并行结构、自适应、 自组织、较强的容错性、稳健性等特点和独特的信息处
理方法,在时间序列预测领域得到了广泛的应用[5-6]。 目前在预测上应用较多的BP 神经网络模型,在训练 时存在收敛速度慢和容易出现局部最优解的缺点。而 广义回归神经网络(generalized  regression  neural
network , GRNN )基于径向基神经元和线性神经元建 立,对样本数据要求不高,也可以有很好的预测效果,
尤其对非线性问题处理效果较好。
本研究采用我国2011年1月至2018年12月的 猩红热月发病率进行分析,分别建立ARIMA 乘积季
节模型和GRNN 模型,并对两种模型的预测效果进行 比较,从而为猩红热发病预警提供更优模型,在今后的 预防决策中提供科学指导。
资料与方法
1.猩红热发病资料
本研究资料为中国疾病预防控制中心(http ://
www. chinacdc. cn/)报告系统发布的2011年1月至
2018年12月猩红热月发病人数,计算发病率所用的 人口数来自中国统计年鉴。
2.模型原理与方法
(1) ARIMA 模型建立
ARIMA 模型是由美国统计学家Box 和英国统计
学家 Jenkins  提出的, ARIMA ( p , d , q ) 模型中 p , d , q  分 别表示自回归阶数、差分阶数、平均移动阶数[7]。 ARIMA  模型记作:
V d x
t
@(B ) p  职B)
(
式中,V d  = (1 - B)d  ,B 为延迟算子,④(B) =1 -卩B  -
---cp p B p
为p 阶自回归系数多项式,& ( B ) = 1 -
仇B ----d q B q 为q 阶移动平均系数多项式,£,为随
机误差[8]。本研究选择乘积季节模型
ARMA(p ,d ,q ) X  (P ,D ,Q ) 来提取时间序列的短期 相关性和季节效应。模型的建立可分为以下几步:①
模型识别。通过对原始序列的差分得到平稳序列,计
算差分后的非白噪声序列的自相关系数和偏自相关系
数等, 进行模型定阶。 ②参数估计与检验。 选择最小 二乘法或者最大似然估计进行参数估计[9],对估计值
进行显著性检验以判断是否进入模型,对序列的残差 进行白噪声检验以确定模型对变异解释的拟合效果,
同时通过赤池信息准则(Akaike  information  criterion ,
AIC )对模型进行优化。③模型预测。通过最终确定 的最优模型建立猩红热发病的ARIMA 模型,对全国猩
红热2019年1-6月的发病率进行预测。应用R  3. 6. 1
软件中的 tseries  包和 forecast  包来实现统计学处理。
(2)GRNN 模型建立
GRNN 是一种前馈式神经网络模型,是在观测样 本中得到自变量与因变量的联合概率密度函数后,直
接计算因变量对自变量的回归值[10]。GRNN 只需要
人工调节光滑因子这一个参数,所以其结构的搭建比 其他网络简单。其结构如图1所示,包括输入层、模式
层、求和层与输出层等4层神经元。对应网络输入
x  = [ X 1 ,尢2,…,x ” ]T ,其输出为 Y  = [ y 1』2,…y ”]T 。
经过1阶12步差分后序列满足了平稳性,白噪声检验 显示为非白噪声序列(表1),可以拟合ARIMA 模型 进一步提取信息。
J1
表1差分后序列的白噪声检验
滞后阶数
自由度
P 638. 5526<0. 0011251.47712
<0. 00118
57.179
18
<0. 00124
80. 14024
<0. 001
输人层 模式层 求和层 输出层
图1广义回归神经网络结构图
GRNN 模型建立可简单分为两步:①确定神经网 络的输入和输出数据、训练样本和预测样本。本研究 选择的输入数据为2011年至2017年猩红热月发病 率,输出数据为2013年至2018年猩红热月发病率,训 练样本选择2017年和2018年的1-6月发病率,对
2019年1-6月的发病率预测。②创建GRNN 模型。 模型创建通过MATLAB 中程序代码net  = grnn (P ,T ,
spread )实现,其中P 为输入样本,T 为输出样本,
spread 为光滑因子。预测程序代码为y  = sim ( net ,p ), p 表示预测集的输入数据,y 表示预测结果。通过交叉
验证法获得最优光滑因子spread ,使函数的逼近误差 最小[11]。选择2011年-2017年任意6个月的发病率
作为测试集数据,最小均方误差MSE 对应的spread 即 为最优光滑因子。模型的建立在Matlab  9. 1软件中实
现。两模型比较通过决定系数R 2检验模型拟合优度, 通过平均相对误差MRE 比较预测效果。
结 果
@糊朵
V
I
2
一2013
24
201
5
时201
6
201
7
201
8
201
9
201
a  02y  0-0.2-0.4
0 5 10 15 20 25
延迟阶数/阶
-0.2 =十-------------
_0 4--1--l J __i --1--1——i
'0 5 10 15 20 25
延迟阶数/阶
图3 1阶12步差分后序列的趋势和相关分析
首先观察差分后序列12阶以内的ACF 和PACF  的特征,存在短期相关性;考察延迟12阶的偏自相关
系数,显示序列存在着季节相关,可以考虑建立模型 ARIMA(p ,d ,q ) (P ,D ,Q ) s ,根据 ACF  和 PACF  的特
征拟合短期相关模型ARIMA (2,2)提取短期相关信 息;季节信息的提取根据相关资料可知,一般季节模
型阶数在2阶以内,拟对P 、Q 分别取值0、1、2以确
定最佳模型。经过反复调整,根据AIC 最小的原则, 初步拟合模型ARIMA(2,1,2)(0,1,1)12,详见表2 , 图3o
1.猩红热流行特征
研究数据为2011年1月至2018年12月底全国 猩红热的月发病率。猩红热的流行情况在时间上具有
明显的季节规律,主要集中在每年的5 ~6月和11 ~
12月,具体情况如图2所示。
表 2 ARIMA(p,d,q)( P,D,Q)12 模型的选取
模型
AIC
ARIMA(2,1,2)(0,1,1)12-224.68
ARIMA(2,1,2)(0,1,2)12-222. 87ARIMA(2,1,2)(1,1,0)12-219. 95ARIMA(2,1,2)(1,1,1)12-222. 80ARIMA(2,1,2)(1,1,2)12-221.63
ARIMA(2,1,2)(2,1,1)12
-215.31
M
f
.8I0Z
H
i.Z J O Z
叫寸
t 'I O C
巴 I >9I 0z
E
>9I 0z
t
-I O C
惡野IOC
啦E
野I O C
氏01眇寸I O C
时 r
s a-M
O
C  工卜
>
20
cs
H
f .Eloe
H
寸t-I O C
H I I
軒 I I O CN
斑玉螺H 9>I I 0c
i.I
I O cs
O 9876<^
4321^o
河北医科大学图书馆1.a a o. (R O I m M 縈h
(2)参数估计与模型检验
ARIMA(2,1,2) (0,1,1) a 模型的各参数估计值
检验均有统计学意义,见表3o 且模型顺利通过了白 噪声检验,见表4o 由图4可知,拟合的模型的残差
ACF 与PACF 均落在的2倍标准差范围之内,白噪声 检验均在0. 05之上,可认为模型拟合有效,模型的平
稳R 2为0. 336o 据此确定拟合的模型为:
图2 2011 -2018年猩红热月发病率
2. ARIMA 乘积季节模型建立
(1)模型识别
根据图3中差分后序列均值围绕零值波动,得出
1 +0. 887B  -0.472B%
1 -0. 988B  +0. 849B 八+ 0. 567B 12) e t
根据建立的模型预测2019年1 ~6月的猩红热发
病率(1 /10万)的结果分别为0.637、0. 274、0. 377、 0. 579、0.910 和 0.937
表 3 ARIMA(2,1,2)(0,1,1)12 模型参数估计
0.3
参数
估计值标准误差t 值
P
AR1
0. 9880. 0999. 961<0. 001AR 2
-0. 8490. 094-9. 050<0. 001MA1-0. 8870. 167-5.298
<0. 001MA20. 472
0. 145  3.253
<0. 001SMA1
-0. 5670. 139
-
4. 069
<0. 001
表4
ARIMA(2,1,2)(0,1,1)12模型残差白噪声检验
滞后阶数 疋自由度P
68.49240. 07512
11.754100. 30218
19. 327
160. 2522427.446
22
0. 195
0.3誓-0.1
也-0.3
0 5I  !■ Il  ■ I  ■!    1.1 I 了| I  [[I  ]卩T  ||10 15 20 25 30
延迟期数/阶
益-0.1
遁一 0.3
0 5 10 15 20 25 30
延迟期数/阶
0.60.40
延迟期数/阶
图4 ARIMA (2,1,2)(0,1,1)12模型的残差诊断
3. GRNN 模型建立
本研究选择的训练集为2011年至2018年6月猩
红热月发病率, 测试集为 2018 年 7 ~ 12 月猩红热月发 病率,模型的唯一参数spread 由测试集最小均方误差
MSE 对应的最优值确定。可见图5 ,通过交叉验证寻
最优光滑因子,即当spread  =0. 05时,MSE 最小,对
应的MSE 为0.011,逼近能力强;此时模型的R 2为
0.823,拟合效果较好。根据建立的GRNN 模型预测
2019年1〜6月发病率(1 /10万)分别为0.626、 0. 178 .0. 321.0. 445、”. 789 和 0. 774。
图5光滑因子对应的均方误差曲线图
4.猩红热预测能力比较
分别通过对 2011 - 2017 年 6 月数据进行训练, 预 测 2017 年 7 ~ 12 月发病率; 对 2011 - 2017 年数据进
行训练,预测 2018 年 1 ~ 6 月发病率;2011 - 2018 年 6 月数据进行训练, 预测 2018 年 7 ~ 12 月发病率。 两模
型的预测能力通过比较平均相对误差大小, 其中建立
的三组GRNN 模型的平均相对误差分别为23.0%、
21. 3%、16. 8%以及总的平均相对误差为20. 3% ,三
组ARIMA 模型的平均相对误差分别为47.5%、
25.0% .20.8%以及总的平均相对误差为31. 1 % ,
GRNN 模型的平均相对误差均小于ARIMA 模型,认
为预测能力较后者更优。详见表5〜7。
表5 ARIMA 模型与GRNN 模型第一次预测比较
时间真实值
GRNN  模型
ARIMA  模型
期望值绝对误差相对误差(% )
期望值绝对误差相对误差(% )
2017 年 7 月0.3810. 3350. 04612.00.5270. 14638.32017 年 8 月0. 1710. 2360. 06537. 80. 3460. 175102.52017 年 9 月0.2160. 2580. 04219.30.3760. 16073. 82017 年 10 月0.3080. 3070. 0010.40. 4700. 16252.62017 年 11 月0.5720.4160. 15627.30. 6610. 09015.72017 年 12 月
0.7640. 4510.31341.00.7800.016  2. 1平均
0. 402
0. 334
0. 10423.0
0.5270. 12547.5
表6 ARIMA 模型与GRNN 模型第二次预测比较
时间
真实值GRNN  模型
ARIMA  模型
期望值
绝对误差相对误差( % )
期望值绝对误差相对误差(% )
2018 年 1 月0. 5420. 4220. 12022.20.5270.015  2.72018 年 2 月0. 1550. 1900. 03522.50.2820. 12882.52018 年 3 月0. 2700. 3390. 06825.30.3690. 09836.32018 年 4 月0.4860. 5390. 05310.90.5120. 025  5.22018 年 5 月0.7700.5890. 18223.60. 8360. 0668.62018 年 6 月
0.7680.5870. 18123.50. 8790. 11114.4平均
0. 4990. 4440. 106
21.3
0.567
0. 074
25.0
表7 ARIMA 模型与GRNN 模型第三次预测比较
时间 真实值GRNN  模型
ARIMA  模型
期望值绝对误差相对误差( % )
特朗普不适合当总统期望值绝对误差相对误差(% )
2018 年 7 月0.3860. 3560. 0307. 80.4180. 0328.42018 年 8 月0. 1600. 1790.01911.70.2130. 05333.22018 年 9 月0. 1970. 2390. 04221.30. 2270. 03115.52018 年 10 月0.3740. 3350. 03810.30.3010. 07219.32018 年 11 月0.7110. 6060. 10614.90.5250. 18626.22018 年 12 月
0. 9020. 5910.31134.50.7000. 20222.4平均
0. 455
0.384
0. 09116. 8
0.3980. 09620.
8
讨论
众多研究表明ARIMA模型具有不受数据类型限制和较强适应性的优点,在短期预测中具有较好的表现能力[1_13]。ARIMA乘积季节模型可以提取出数据中蕴含的季节信息,当时间序列同时有短期相关
性和季节趋势时,需要拟合ARIMA季节乘积模型以分析数据中的短期相关性、季节效应与随机误差的复杂关系。ARIMA模型作为一种较为经典的方法在传染病的预测上早已得到广泛的应用,并且表现出短期预测精度较高的优点。
人工神经网络能够逼近任意的非线性关系,具有良好的泛化能力,此外,人工神经网络没有任何对变量的假设要求,许多国内学者已将该模型应用在对疾病的发病率研究当中。GRNN模型其局部逼近能力强,且学习速度较快,既解决了局部最优问题,又同时提高了训练速度,且能保证预测的效果。
本研究结果显示,两种模型的预测结果与实际情况基本符合,均能较好地对全国猩红热发病率进行拟合。通过比较ARIMA乘积季节模型和GRNN模型的R2和预测结果的平均相对误差,GRNN模型均优于ARIMA乘积季节模型,由于猩红热受到气象因素、环境及个人防护等因素的影响,收集的资料数据是非线性的,而GRNN模型不对数据的分布做要求,故GRNN 模型的预测能力更强,可以为今后研究猩红热等传染性疾病的流行趋势及提出防控措施提供科学依据。
本研究尚存在不足之处,GRNN训练样本的选取为猩红热的月发病率,神经网络的学习程度和预测能力可能会受到一定影响,且猩红热与气象因素密切相关,本研究未考虑气象因素也可能影响预测精度,且传染病流行规律复杂多变,在今后的研究中应及时更新数据对模型进行多次拟合,以提高预测水平。
参考文献
[1]谭小华,刘美真,杨宇威,等.2005-2017年广东省猩红热流行特征分析.疾病监测,2019,34(5):411-416.
中国蚕桑丝织技艺
[2]赵梦娇,于秋燕,赵小冬,等.ARIMA季节乘积模型预测济南市猩红热发病趋势.疾病监测,2016,31(5):411-415.
[3]陈远方,张熳,王小莉,等.ARIMA模型和BP神经网络模型在我国乙型肝炎发病预测中的应用.江苏预防医学,2015,26(3):23-26.[4]孙娜,许小珊,冯佳宁,等.ARIMA与GM(1,1)模型对我国年发病人数预测情况的比较.中国卫生统计,2019,36(1):71-74.[5]杨德志.广义回归神经网络在乙肝发病数时间序列预测中的应用.计算机应用与软件,2013,30(4):217-219.
[6]杨召,叶中辉,赵磊,等.ARIMA-BPNN组合预测模型在流感发病率预测中的应用.中国卫生统计,2014,31(1):16-18.
[7]马洁,田野,黄璐,等.ARIMA乘积季节模型与广义回归神经网络模型在布鲁菌病发病预测的比较.山东大学学报(医学版),2018, 56(6):76-82.
[8]马洁,田野,刘晓迪,等.ARIMA乘积季节模型在全国布鲁菌病发病预测中的应用.职业与健康,2
018,34(19):2665-2668.
[9]秘玉清,张继萍,殷延玲,等.基于ARIMA模型的山东省发病趋势预测.中国卫生统计,2018,35(6):879-881.
[10]王永斌,李向文,柴峰,等.采用灰-广义回归神经网络组合模型预测我国尘肺病发病人数的方法探讨.环境与职业医学,2016,33
(10):984-987+999.
[11]黄璐,孙娜,许小珊,等.广义回归神经网络在布鲁氏菌病预测中的应用.郑州大学学报(医学版),2018,53(6):751-754.
[12]宋媛媛,王雷,熊甜,等.ARIMA模型与GM(1,1)模型在痢疾发病数预测中的比较研究.实用预防医学,2019,26(7):888-892.[13]张芳芳,廖瑞斌,宫晓,等.基于ARIMA模型的广东省卫生总费用趋势预测及构成分析.现代预防医学,2019,46(2):289-293.
(责任编辑:张悦)
(上接第850页)
缢死
[4]王学生,王革.中位数检验法在偏态分布资料中应用.中国公共卫
生,2001,17(5):81-82.
[5]陈卫,徐利娜,迭敏,等•线性回归模型在盐酸二甲双弧缓释片降
糖效能非劣效性检验中的应用•现代预防医学,2010,37(3):407-409.
[6]Hodges JL,Lehmann EL.Estimates of location based on rank tests.
Ann Stat.1963,34(2):598-611.
[7]Lehmann EL.Nonparametric confidence intervals for a shift
parameter.Ann Math Stat,1963,34(4):1507-1512.
[8]Hollander M,Wolfe DA.Nonparametric Statistical Methods.1973,
New York:John Wiley&Sons.75-82.
[9]Efron    B.Bootstrap Methods:Another look at the Jackknife.Ann
Statist.1979,7(1):1-26.
[10]Alloway JA;Raghavachari M.Control Chart Based on the Hodges-
Lehmann Estimator.Journal of Quality Technology,1991,23(4):336-347.
[11]Bland JM,Altman DG.Statistics Notes:Bootstrap resampling
methods.BMJ.2015,350:h2622.
[12]侯艳,武振宇,李康•临床新药试验中非劣效性检验界值的确定方
法.中国卫生统计,2008,25(6):648-651.
[13]Jinheum Kim.Confidence Intervals for the Difference of Median
Survival Times Using the Stratified Cox Proportional Hazards Model.
Biometrical Journal,2001,43(6):781-790.
(责任编辑:郭海强)

本文发布于:2024-09-21 08:15:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/295674.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   预测   发病   季节
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议