首页 > 学术百科

基于机器学习算法的樟子松立木材积

第４７卷　第１期２０２３年１月

南京林业大学学报（自然科学版）

ＪｏｕｒｎａｌｏｆＮａｎｊｉｎｇＦｏｒｅｓｔｒｙＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅｓＥｄｉｔｉｏｎ

）

Ｖｏｌ．４７，Ｎｏ．１

Ｊａｎ．，２０２３

　收稿日期Ｒｅｃｅｉｖｅｄ：２０２１０４１２修回日期Ａｃｃｅｐｔｅｄ：２０２１０８０４　

基金项目：国家自然科学基金项目（３１５７０６２４）；黑龙江省应用技术研究与开发计划（ＧＡ１９Ｃ００６）；黑龙江省头雁创新团队计划，国家

林业和草原科学数据中心黑龙江子平台（２００５ＤＫＡ３２２００ＯＨ）。

　第一作者：孙铭辰（１７８０５９３１４＠ｑｑ．ｃｏｍ）。通信作者：姜立春（ｊｌｉｃｈｕｎ＠ｎｅｆｕ．ｅｄｕ．ｃｎ），教授。　

引文格式：孙铭辰，姜立春．基于机器学习算法的樟子松立木材积预测［Ｊ］．南京林业大学学报（自然科学版），２０２３，４７（１）：

３１－３７．ＳＵＮＭＣ，ＪＩＡＮＧＬＣ．ＳｔａｎｄｉｎｇｖｏｌｕｍｅｐｒｅｄｉｃｔｉｏｎｏｆＰｉｎｕｓｓｙｌｖｅｓｔｒｉｓｖａｒ．ｍｏｎｇｏｌｉｃａｂａｓｅｄｏｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ＪｏｕｒｎａｌｏｆＮａｎｊｉｎｇＦｏｒｅｓｔｒｙＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅｓＥｄｉｔｉｏｎ），２０２３，４７（１）：３１－３７．ＤＯＩ：１０．１２３０２／ｊ．ｉｓｓｎ．１０００－

２００６．２０２１０４０１４．

基于机器学习算法的樟子松立木材积预测

孙铭辰，姜立春

（东北林业大学林学院，森林生态系统可持续经营教育部重点实验室，黑龙江　哈尔滨　１５００４０）

摘要：【目的】通过非线性和多种机器学习算法构建并对比不同的立木材积模型，为樟子松（Ｐｉｎｕｓｓｙｌｖｅｓｔｒｉｓｖａｒ．ｍｏｎｇｏｌｉｃａ）立木材积的精准预测提供理论依据。【方法】以大兴安岭图强林业局１８４株樟子松伐倒木数据为基础，建立非线性二元材积模型（ＮＬＲ），并通过十折交叉检验和袋外数据（ＯＯＢ）误差检验的方法得到３种最优机器学习算法，包括：反向神经网络（ＢＰ）、ε 支持向量回归（ε ＳＶＲ）和随机森林（ＲＦ）。对比分析不同模型间的差异，得到最优立木材积模型。【结果】机器学习算法在立木材积的拟合和预测中均优于传统二元材积模型，具体拟合结果排序为ＲＦ＞ＢＰ＞ε ＳＶＲ＞ＮＬＲ。其中ＲＦ的决定系数（Ｒ２

）比传统模型的提高了２．００％，均方根误差（

ＲＭＳＥ）、相对均方根误差（ＲＭＳＥ％）、

平均绝对误差（ＭＡＥ）分别降低了２２．９０％、２２．９３％、３６．３４％，且与真实值相比平均相对误差（ＭＲＢ）的绝对值更低，证明了ＲＦ在立木材积预测中的优越性。【结论】机器学习

算法作为一种新兴的建模方法可以有效地提高立木材积的预测精度，为森林资源的精准调查和经营管理提供新的解决方案。

关键词：樟子松；二元材积模型；ＢＰ神经网络；ε 支持向量回归（ε ＳＶＲ）

；随机森林（ＲＦ）中图分类号：Ｓ７９１．２５３　文献标志码：Ａ开放科学（资源服务）标识码（ＯＳＩＤ）：文章编号：

１０００－２００６（２０２３）０１－００３１－０７ＳｔａｎｄｉｎｇｖｏｌｕｍｅｐｒｅｄｉｃｔｉｏｎｏｆＰｉｎｕｓｓｙｌｖｅｓｔｒｉｓｖａｒ．ｍｏｎｇｏｌｉｃａｂａｓｅｄ

ｏｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍ

ＳＵＮＭｉｎｇｃｈｅｎ，

ＪＩＡＮＧＬｉｃｈｕｎ

（陕西师范大学学报

ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＳｕｓｔａｉｎａｂｌｅＦｏｒｅｓｔＥｃｏｓｙｓｔｅｍＭａｎ

ａｇｅｍｅｎｔ，ＭｉｎｉｓｔｒｙｏｆＥｄｕｃａｔｉｏｎ，ＳｃｈｏｏｌｏｆＦｏｒｅｓｔｒｙ，ＮｏｒｔｈｅａｓｔＦｏｒｅｓｔｒｙＵｎｉｖｅｒｓｉｔｙ，Ｈａｒｂｉｎ１５００４０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：【Ｏｂｊｅｃｔｉｖｅ】Ｕｓｉｎｇｖａｒｉｏｕｓ，ｎｏｎｌｉｎｅａｒｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓ，ｄｉｆｆｅｒｅｎｔｖｏｌｕｍｅｍｏｄｅｌｓｗｅｒｅｃｏｎｓｔｒｕｃｔｅｄ我已故的公爵夫人

ａｎｄｃｏｍｐａｒｅｄｔｏｐｒｏｖｉｄｅａｔｈｅｏｒｅｔｉｃａｌｂａｓｉｓｆｏｒｔｈｅａｃｃｕｒａｔｅｐｒｅｄｉｃｔｉｏｎｏｆｔｈｅｖｏｌｕｍｅｏｆＰｉｎｕｓｓｙｌｖｅｓｔｒｉｓｖａｒ．ｍｏｎｇｏｌｉｃａ．

【Ｍｅｔｈｏｄ】Ａｔｏｔａｌｏｆ１８４ｆｅｌｌｅｄＰｉｎｕｓｓｙｌｖｅｓｔｒｉｓｖａｒ．ｍｏｎｇｏｌｉｃａｔｒｅｅｓｉｎｔｈｅＴｕｑｉａｎｇＦｏｒｅｓｔｒｙＢｕｒｅａｕｏｆｔｈｅＧｒｅａｔｅｒＫｈｉｎｇａｎＭｏｕｎｔａｉｎｓｗｅｒｅｕｓｅｄｔｏｅｓｔａｂｌｉｓｈａｎｏｎｌｉｎｅａｒｂｉｎａｒｙｖｏｌｕｍｅｍｏｄｅｌ（ＮＬＲ）．ＴｈｒｅｅｏｐｔｉｍａｌｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓｗｅｒｅｏｂｔａｉｎｅｄｕｓｉｎｇｔｈｅＫｆｏｌｄｃｒｏｓｓｔｅｓｔａｎｄＯＯＢｅｒｒｏｒｔｅｓｔ，ｉｎｃｌｕｄｉｎｇｂａｃｋ

ｐｒｏｐａｇａｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ（ＢＰ），ε ｓｕｐｐｏｒｔｖｅｃｔｏｒｒｅｇｒｅｓｓｉｏｎ（ε ＳＶＲ），ａｎｄｒａｎｄｏｍｆｏｒｅｓｔ（ＲＦ）．Ａｎｏｐｔｉｍａｌｖｏｌｕｍｅｍｏｄｅｌｗａｓｏｂｔａｉｎｅｄｂｙｃｏｍｐａｒｉｎｇａｎｄａｎａｌｙｚｉｎｇｔｈｅｄｉｆｆｅｒｅｎｃｅｓｂｅｔｗｅｅｎｔｈｅｄｉｆｆｅｒｅｎｔｍｏｄｅｌｓ．【Ｒｅｓｕｌｔ】Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｅｄｔｈａｔｔｈｅｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｗａｓｓｕｐｅｒｉｏｒｔｏｔｈｅｔｒａｄｉｔｉｏｎａｌｂｉｎａｒｙｖｏｌｕｍｅｍｏｄｅｌｉｎｔｈｅｆｉｔｔｉｎｇａｎｄｐｒｅｄｉｃｔｉｏｎｏｆｓｔａｎｄｉｎｇｖｏｌｕｍｅ，ａｎｄｔｈｅｓｐｅｃｉｆｉｃｏｒｄｅｒｗａｓＲＦ＞ＢＰ＞ε ＳＶＲ＞ＮＬＲ．Ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｔｒａｄｉｔｉｏｎａｌｍｏｄｅｌ，ｔｈｅＲ２

ｏｆＲＦｉｎｃｒｅａｓｅｄｂｙ２００％；ｔｈｅＲＭＳＥ，ＲＭＳＥ％ａｎｄＭＡＥｄｅｃｒｅａｓｅｄｂｙ２２．９５％，２２．９３％ａｎｄ３６．３４％，ｒｅｓｐｅｃｔｉｖｅｌｙ；ａｎｄｔｈｅａｂｓｏｌｕｔｅｖａｌｕｅｏｆＭＲＢｗａｓｌｏｗｅｒｔｈａｎｔｈｅｒｅａｌｖａｌｕｅ，ｗｈｉｃｈｐｒｏｖｅｄｔｈｅｓｕｐｅｒｉｏｒｉｔｙｏｆＲＦｉｎｖｏｌｕｍｅｐｒｅｄｉｃｔｉｏｎ．【Ｃｏｎｃｌｕｓｉｏｎ】Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓｃａｎｅｆｆｅｃｔｉｖｅｌｙｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙａｔｗｈｉｃｈｓｔａｎｄｉｎｇｖｏｌｕｍｅｃａｎｂｅｐｒｅｄｉｃｔｅｄ，ｐｒｏｖｉｄｉｎｇａ

ｎｅｗｓｏｌｕｔｉｏｎｆｏｒｔｈｅａｃｃｕｒａｔｅｉｎｖｅｓｔｉｇａｔｉｏｎａｎｄｍａｎａｇｅｍｅｎｔｏｆｆｏｒｅｓｔｒｅｓｏｕｒｃｅｓ．Ｋｅｙｗｏｒｄｓ：Ｐｉｎｕｓｓｙｌｖｅｓｔｒｉｓｖａｒ．ｍｏｎｇｏｌｉｃａ；ｂｉｎａｒｙｖｏｌｕｍｅｍｏｄｅｌ；ＢＰｎｅｕｒａｌｎｅｔｗｏｒｋ；ε ｓｕｐｐｏｒｔｖｅｃｔｏｒｒｅｇｒｅｓｓｉｏｎ（

ＳＶＲ

）；ｒａｎｄｏｍｆｏｒｅｓｔ（

ＲＦ）

南京林业大学学报（自然科学版）

第４７卷

立木材积是森林资源调查的重要指标，也是计算森林蓄积量和生物量的主要依据［１－４

］。因此，在森林经营管理中评价经济效益和生态效益时，立木材积的研究一直以来都备受关注。传

统立木材积的计算通常利用已知的一元、多元立木材积表，或通过拟圆锥法、质心法、重要性采样法等进行估测［５－６

湖南文理学院学报

］。随着人们对森林资源调查的不断深入，针对不同地区不同树种相继建立了不同类型的材积模型［７－８

］。但森林生长是一个复杂连续且具有随机性的非线性生长过程，通过拟合立木材积模型虽然能填补材积预测的空白，但受制于模型和变量的选择以及对模型先验知识的累积，且预测精度受区域变化影响较大，增加了森林资源调查和经营管理的难度。

机器学习算法理论始于２０世纪中叶，相比传统模型，机器学习算法可以在没有先验知识的前提下对数据进行拟合，分析数据中不同变量之间复杂、动态的内部结构［９

］，而且机器学习算法的适用性更广，应用更加方便，能很好地克服数据中可能存在的缺失点、噪音、多重共线性和异方差等现象［１０］，在生物遗传、信息技术和金融工程等领域已有广泛应用。近年来随着统计软件技术的发展，机器学习算法在林业上也得到了一定的应用。Ｇｕａｎ等［１１

］通过胸径及其年增长量建立４种人工神经网络模型，成功地对红松的生存率进行了预测；Ｍａｒｉａ［１２

］通过人工神经网络模型估算树皮材积，发现相比于非线性模型的均方根误差（ＲＭＳＥ）降低了６．０２％；Ｍａｒｉａ等［１３

］通过对比分析不同的非线性模型和ε 支持向量机回归模型对４种黑凯木树皮材积的预测，得出ε 支持向量机回归模型的

Ｆｕｒｎｉｖａｌ指数（ＦＩ）

值分别比３种非线性模型均有所降低，且与真实值更接近。Ｃｏｌｉｎ等［１４

］结合ＬｉＤＡＲ数据建立多个模型对森林生物量进行估算，结果表明支持向量机回归为最优模型。目前，已有部分机器学习算法应用于立木材积中［１５－１９

］，但鲜有对不同类型算法同时进行对比和分析的研究。

本研究以大兴安岭樟子松（Ｐｉｎｕｓｓｙｌｖｅｓｔｒｉｓｖａｒ．ｍｏｎｇｏｌｉｃａ）为研究对象，利用Ｍａｔｌａｂ２０１９ｂ软件建立３种目前应用较为广泛的机器学习算法：反向神经网络模型（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ，ＢＰ）、ε 支持向量机回归模型（ε ｓｕｐｐｏｒｔｖｅｃｔｏｒｒｅｇｒｅｓｓｉｏｎ，ε ＳＶＲ）和随机森林模型（ｒａｎｄｏｍｆｏｒｅｓｔ，ＲＦ），并与传统二元材积模型作对比，评价最优模型，以期为提高樟子松的立木材积预测精度和科学经营提

供理论依据。

１　

材料与方法

１．１　

数据来源

供试樟子松来源于大兴安岭图强林业局（１２２°１８′２８″～１２３°２８′１０″Ｅ，５２°１５′３５″～５３°３３′４２″Ｎ）。将树木伐倒后测量其带皮胸径、树高，并对１５个相对树高的带皮直径，利用区分求积法计算樟子松带皮立木材积。通过散点图排除异常点后得到

１８４株样木，

以５ｃｍ为一个径级分为１０个径阶，按７∶３分径阶随机抽样。最终得到训练样本１２９株、测试样本５５株。样木调查统计量如表１所示。建模前对样本数据进行ｍｉｎｍａｘ标准归一化处理，使其统一介于［０，１］，得到的泛化结果通过反归一化还原，并与真实值对比和评价。

表１　樟子松调查因子统计量

Ｔａｂｌｅ１　ＳｕｒｖｅｙｆａｃｔｏｒｓｔａｔｉｓｔｉｃｓｏｆＰｉｎｕｓｓｙｌｖｅｓｔｒｉｓ

ｖａｒ．ｍｏｎｇｏｌｉｃａ

样本

ｓａｍｐｌｅ统计量ｓｔａｔｉｓｔｉｃｓ胸径／ｃｍＤＢＨ树高／ｍｔｒｅｅｈｅｉｇｈｔ材积／ｍ

３

ｖｏｌｕｍｅ

训练样本ｔｒａｉｎｓａｍｐｌｅ最大值ｍａｘ５０．７０２５．７０２．３８

最小值ｍｉｎ

６．３０５．８００．０１平均值ａｖｅｒａｇｅ２７．９５１８．２８０．７１

标准差ＳＤ

１２．１２４．３３０．６０测试样本ｔｅｓｔｓａｍｐｌｅ最大值ｍａｘ５０．５０２５．６０２．３７

最小值ｍｉｎ

７．６０６．３００．０２平均值ａｖｅｒａｇｅ２８．８７１８．８５０．７５

标准差ＳＤ

１２．１６４．２６０．６１１．２　

模型建立方法

１．２．１　二元材积模型

传统立木材积方程包括一元、多元线性和非线性模型，采用林业上应用较为广泛的非线性二元材积模型（ｎｏｎｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌｓ，ＮＬＲ）作为立木材积计算公式［２０－２１

］。

Ｖ＝ａ０

Ｄａ１

Ｈａ２

。（１）

式中：Ｖ为材积；Ｄ为胸径；Ｈ为树高；ａ０

、ａ１

、ａ２

为方程的参数。

１．２．２　反向神经网络模型

反向神经网络模型（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ，ＢＰ）是由输入层、隐含层和输出层组成的反向传播网络模型，不同层通过神经元相互连接，但相同层神经元互不相连。通过激活函数将上一层的输入转化为下一层的输出，如输出结果超出期望误差，则通过误差逆向传播算法修正各神经元函数

的权值和阈值，并不断重复上述过程以达到降低误差的目的［２２

］。经研究表明，３层ＢＰ神经网络即可拟合任

２

３

第１期

孙铭辰，等：基于机器学习算法的樟子松立木材积预测

何非线性曲线。

以胸径Ｄ、树高Ｈ作为输入节点，材积Ｖ作为输出节点，建立结构为２∶Ｓ∶１的３层神经网络模型。其中隐含层激活函数选用ｔａｎｓｉｇ，输出层激活函数选用ｐｕｒｅｌｉｎ函数。利用经验公式Ｓ＝ａ＋槡ｂ＋ｃ

（式中，

Ｓ为隐含层神经元个数，ａ、ｂ分别为输入层和输出层节点数，ｃ为１到１０之间的整数）可得隐

含层神经元个数为３～１２。通过适当更改隐含层训练算法和神经元个数可以有效提高网络拟合的速度和精度［２３

］，并用提前结束训练的方法防止模型过拟合。

选用目前较为常用的几种训练算法：①梯度下降算法，包括变学习率动量梯度下降算法（ＧＤＸ）、变学习率梯度下降算法（ＧＤＡ）、弹性梯度下降算法（ＲＰ）；②共轭梯度算法，包括ＰｏｗｅｌｌＢｅａｌｅ共轭梯度算法（ＣＧＢ）、ＦｌｅｔｃｈｅｒＲｅｅｖｅｓ共轭梯度法（ＣＧＦ）

、ＰｏｌａｋＲｉｂｉｅｒｅ共轭梯度法（ＣＧＰ）、Ｓｃａｌｅｄ共轭梯度算法（ＳＣＧ）；③拟牛顿及其他优化算法，包括拟牛顿算法（ＢＦＧ）、一步正割算法（ＯＳＳ）、

ＬｅｖｅｎｂｅｒｇＭａｒｑｕａｒｄｔ算法（ＬＭ）

。１．２．３　ε 支持向量回归模型 ε 支持向量回归模型（ε ｓｕｐｐｏｒｔｖｅｃｔｏｒｒｅｇｒｅｓｓｉｏｎ，ε ＳＶＲ）

是一种基于结构风险最小化原理的超平面模型。通过核函数将低维空间中难以区分的向量通过非线性变换映射至高维空间中使其线性可分，借助惩罚因子（Ｃ）和核参数（ｇａｍｍａ）降低数据与超平面之间的残差，以达到提高模型精度的目

的［１７

］。因此改变核函数类型以及Ｃ、

ｇａｍｍａ参数可以有效降低误差，得到最优ε ＳＶＲ模型。常用的核函数方法包括线性核函数（ｌｉｎｅ）、多项式核函数（ｐｏｌｙｎｏｍｉａｌ）、径向基核函数（ＲＢＦ）

等。其中Ｃ、ｇａｍｍａ参数通常选用网格搜寻法，

即设定两个参数的范围，按一定步长进行组合建模。但这种方法费时费力且精度不高，因此本研究选用遗传算法（ｇｅ

ｎｅｔｉｃａｌｇｏｒｉｔｈｍ，ＧＡ）

进行参数寻优。ＧＡ是通过模拟物种进化过程研发的一种全局搜索优化算法。通过生成一个初始体并对数据进行编码、选择、杂交、变异，不断生成新的组合，计算每个组合的适应度，通过“优胜劣汰”的方法不断筛选最优个体，并以适应度达到最大时的结果作为最优参数，以十折交叉检验对参数的解释能力进行评估。综上所述，ＧＡ是一种通用性很强的参数寻优方法，在机器学习中也有着广泛的应用［２４

］。１．２．４　随机森林回归模型随机森林回归模型（ｒａｎｄｏｍｆｏｒｅｓｔ，ＲＦ）

是一种基于ｂａｇｇｉｎｇ回归的集成学习算法。通过对样本数

据进行随机且有放回重复采样得到多个样本组合，并通过节点分裂和随机特征变量的随机抽取形成多个决策树构成“森林”，对每个决策树得到的结果进行加权平均，作为样本的回归结果［２５

］。由于每次采样中总有大约１／３的样本未被选用，它们被

称为袋外数据（ｏｕｔｏｆｂａｇ，ＯＯＢ）。因此可利用这

部分数据计算袋外错误率（ｏｕｔｏｆｂａｇｅｒｒｏｒ）代替交叉检验作为验证模型泛化能力的标准，使得随机森林可以有效地避免过拟合现象［２６

］。

通过控制变量的方法对决策树个数（ｎｔｒｅｅ）

、最小叶子大小（ｍｉｎｌｅａｆ）、随机抽取变量个数（ｍｔｒｙ）３个参数进行寻优，以得到最优的ＲＦ模型。其他参数均选用软件默认设置。１．３　模型评价与检验指标选用决定系数（Ｒ２

）、平均绝对误差［ＭＡＥ，式中记为σ（ＭＡＥ）］、均方根误差［ＲＭＳＥ，式中记为σ（

ＲＭＳＥ）］、相对均方根误差［ＲＭＳＥ％，式中记为σ（

ＲＭＳＥ％）］评价模型拟合和预测的能力，并通过平均相对误差［ＭＲＢ，式中记为σ（ＭＲＢ）］检验模型预测偏差的大小。为评价模型的无偏估计能力，选用ｚ检验判断模型泛化结果与真实值是否存在显著差异［１９

］。Ｒ２

＝１－∑ｎｉ＝１

（ｙｉ

－ｙ＾

ｉ

）２

／∑ｎ

ｉ＝１

（ｙｉ

－ｙ－

）２

；（

２）σ（

ＲＭＳＥ）＝∑ｎｉ＝１

（ｙｉ

－ｙ＾

ｉ

）２

槡

／ｎ；（３）σ（

ＲＭＳＥ％）＝σ（ＲＭＳＥ）×１００％；（４）σ（

ＭＡＥ）＝∑ｎ

ｉ＝１

（ｙｉ

－ｙ＾

ｉ

）／ｎ；（５）σ（ＭＲＢ）＝１００

ｎ∑ｎ

ｉ＝１

（ｙｉ

－ｙ＾

ｉ

ｙ

ｉ

）。（６）式中：ｙｉ

为实际值；ｙ－

为实测样本均值；ｙ＾

ｉ

为预测值；ｎ为样本数，ｉ为样本数据。

２　

结果与分析

２．１　ＮＬＲ

模型的拟合结果

通过最小二乘法得到３个参数分别为ａ０

＝３７０６０×１０－５

，ａ１

＝１．５１２６，ａ２＝１．５６６２。最终二元材积表达式为Ｖ＝３．７０６０×１０－５

蓝瘦香菇被抢注

Ｄ１．５１２６

Ｈ１．５６６２

。２．２　ＢＰ模型的拟合结果通过胸径Ｄ、树高Ｈ和材积Ｖ建立３层ＢＰ模型，采用十折交叉检验的方法对训练样本分别进行算法优选和神经元参数寻优。为保证不同算法在统一标准下对比分析，模型的其他参数统一设置如下：隐含层神经元个数为８、最大训练次数为

构建和谐社会的意义３

３

南京林业大学学报（自然科学版）第４７卷

２×１０３

、训练目标误差为１×１０－５

、学习速率为０．０５、动量为０．９，其余参数均采用软件默认数值，并采取提前终止的办法防止模型过拟合。各算法结果如表２所示，可以看出在３种梯度下降算法中ＲＰ算法的４个评价指标均明显优于其他两种。通过比较可以看出４种共轭梯度算法的精度总体差距不大，其中ＣＧＦ算法的Ｒ２

略高于

其他三者，但在ＲＭＳＥ、

ＲＭＳＥ％、ＭＡＥ的表现不如ＣＧＢ算法，

拟合误差相对较大。在其他３种优化算法中ＬＭ算法拟合优度和误差检验均为最佳，相

比于其他算法Ｒ２

提高１．１３％～５．２６％，

ＲＭＳＥ降低１３．１２％～３９．８１％，ＲＭＳＥ％降低１７．４１％～４２．４６％，ＭＡＥ降低１４．９７％～４５．９４％。因此将ＬＭ算法作为ＢＰ模型的训练算法。

表２　不同算法下ＢＰ神经网络拟合精度

Ｔａｂｌｅ２　ＦｉｔｔｉｎｇａｃｃｕｒａｃｙｏｆＢＰｎｅｕｒａｌｎｅｔｗｏｒｋ

ｗｉｔｈｄｉｆｆｅｒｅｎｔａｌｇｏｒｉｔｈｍｓ

类型

ｔｙｐｅ

算法

ａｌｇｏｒｉｔｈｍＲ２ＲＭＳＥＲＭＳＥ％ＭＡＥ

梯度下降算法ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔａｌｇｏｒｉｔｈｍｓ

ＧＤＸ０．９３３３０．１３９８１９．７０３１０．１０８１ＧＤＡ０．９２０４０．１５９５２３．１４０５０．１２０８ＲＰ０．９５４００．１１６８１６．２５５９０．０８６１共轭梯度算法

ｃｏｎｊｕｇａｔｅｇｒａｄｉｅｎｔａｌｇｏｒｉｔｈｍｓ

ＣＧＢ０．９５４８０．１１０５１６．１２８４０．０７６８ＣＧＦ０．９５８００．１１６１１６．５７５５０．０８３５ＣＧＰ０．９５０２０．１２６６１８．０５５４０．０８９０ＳＣＧ

０．９４７７０．１１９１１６．９１８８０．０９０８拟牛顿及其他优化算法

ｑｕａｓｉＮｅｗｔｏｎａｎｄｏｔｈｅｒｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｓＢＦＧ０．９４６６０．１１６６１６．５２５３０．０８７５ＯＳＳ０．９３２７０．１３２３１９．４８２９０．０９８３ＬＭ

０．９６０８０．０９６０

１３．３１９９０．０６５３

注：

ＲＭＳＥ．均方根误差ｒｏｏｔｍｅａｎｓｑｕａｒｅｅｒｒｏｒ；ＲＭＳＥ％．相对均方根误差，

％ｒｅｌａｔｉｖｅｒｏｏｔｍｅａｎｓｑｕａｒｅｅｒｒｏｒ；ＭＡＥ．平均绝对误差ｍｅａｎａｂｓｏｌｕｔｅｅｒｒｏｒ。下同。Ｔｈｅｓａｍｅ

ｂｅｌｏｗ．

图１　不同神经元的ＢＰ模型精度对比Ｆｉｇ．１　ＣｏｍｐａｒｉｓｏｎｏｆＢＰｍｏｄｅｌａｃｃｕｒａｃｙｏｆ

ｄｉｆｆｅｒｅｎｔｎｅｕｒｏｎｓ

根据经验公式计算可得隐含层神经元个数在３～１２之间，通过试错法依次建模比较，在隐含层神经

元个数为７时模型Ｒ２

最高且ＲＭＳＥ最低（图１）。综上所述，最优ＢＰ模型为训练算法输入变量神经元个数输出变量（

ＬＭＤＨ７Ｖ）。２．３　ε ＳＶＲ模型的拟合结果

ε ＳＶＲ通过核函数将数据映射至高维空间中，寻样本期望风险最小的最优超平面实现线性回归。采用遗传算法对３种常见的核函数［线性核函数（ｌｉｎｅ）、多项式核函数（ｐｏｌｙｎｏｍｉａｌ）、径向基核函数（ＲＢＦ）］进行参数寻优，具体参数设置如下：

最大进化数为２００、

种进化数量为２０、变异值为０．９、不敏感损失参数ｐ＝０．０１、惩罚因子Ｃ搜索范围（０，３０）、核参数ｇａｍｍａ搜索范围（０，１０），并通过十折交叉检验得到３组最优的模型参数。各模型结果如表３所示，可以看出精度最高的

核函数是ＲＢＦ，

其次是ｐｏｌｙｎｏｍｉａｌ和ｌｉｎｅ核函数。ＲＢＦ相比于多项式函数和线性核函数Ｒ２

分别提高１．８０％和１１．１１％，ＲＭＳＥ降低２１．４６％和５２．８２％，ＲＭＳＥ％降低２１．４４％和５２８３％，ＭＡＥ降低３１．６９％和５９．０２％，由此可见ＲＢＦ不仅可以提高拟合能力，还能很好地降低误差，故选用ＲＢＦ作为ε ＳＶＲ模型的核函数并建立模型。

表３　不同核函数下的模型参数和拟合精度

Ｔａｂｌｅ３　Ｍｏｄｅｌｐａｒａｍｅｔｅｒｓａｎｄｆｉｔｔｉｎｇａｃｃｕｒａｃｙ

ｕｎｄｅｒｄｉｆｆｅｒｅｎｔｋｅｒｎｅｌｆｕｎｃｔｉｏｎｓ

核函数ｋｅｒｎｅｌｆｕｎｃｔｉｏｎ

Ｃ

核参数

ｇａｍｍａ

Ｒ２ＲＭＳＥＲＭＳＥ％ＭＡＥ

线性核函数ｌｉｎｅ

０．１１７０１．６９７４０．８７４９０．２１２６３０．１２０５０．１３２０多项式函数

ｐｏｌｙｎｏｍｉａｌ０．１２２７９．８５４５０．９５４９０．１２７７１８．０８３９０．０７９２

径向基核函数ＲＢＦ１２．８６１１３．１００１０．９７２１０．１００３１４．２０６７０．０５４１

２．４　ＲＦ模型的拟合结果

ＲＦ是通过构建多个决策树（ｎｔｒｅｅ）随机选取不同的变量（ｍｔｒｙ），并以每个决策树最小叶子节点（ｍｉｎｌｅａｆ）

均值作为模型最后回归的结果，因此参数的大小直接影响模型拟合的精度。经研究发现，模型误差大小随ｎｔｒｅｅ增加而逐渐减少至某一定值后，便不再发生变化。因此为确保模型充分训练，预设ｎｔｒｅｅ个数为２０００。采用控制变量的方法测定最优ｍｉｎｌｅａｆ的数量，在默认ｍｔｒｙ值下对比ｍｉｎｌｅａｆ为１、３、５、１０、２０时的ＯＯＢ误差值。结果如图２所示，可以看出随着ｍｉｎｌｅａｆ值逐渐减小，模型的误差也逐渐减小，因此得出最优的ｍｉｎｌｅａｆ值为

１。同时从图２Ａ中也可以看出，当ｎｔｒｅｅ大于１００后，ＯＯＢ误差基本不再下降，意味着在

建立１００颗决策树后模型已完成了训练。为缩短训练时间，提

４

３

第１期

孙铭辰，等：基于机器学习算法的樟子松立木材积预测

高模型运行的效率，故将ｎｔｒｅｅ的值调整为１００。由于模型的输入变量只有２个，故ｍｔｒｙ的取值范围为［１，２］，调整参数后对不同ｍｔｒｙ值重新建立模型，由图２Ｂ所示两条误差曲线随着ｎｔｒｅｅ的提高最终重叠在一起，说明改变ｍｔｒｙ值不会对模

型误差产生影响。但是在拟合过程中可以看出，当ｍｔｒｙ为２时模型收敛速度明显优于ｍｔｒｙ为１，故ｍｔｒｙ值设置为２

。

图２　不同ｍｉｎｌｅａｆ和ｍｔｒｙ下随机森林的ＯＯＢ误差曲线（ＭＳＥ为归一化后的模型误差）

Ｆｉｇ．２　ＴｈｅＯＯＢｅｒｒｏｒｃｕｒｖｅｏｆｒａｎｄｏｍｆｏｒｅｓｔｕｎｄｅｒｄｉｆｆｅｒｅｎｔｍｉｎｌｅａｆａｎｄｍｔｒｙ

（ＭＳＥｉｓｔｈｅｎｏｒｍａｌｉｚｅｄｍｏｄｅｌｅｒｒｏｒ）

２．５　

模型评价与检验

选用最优参数对训练样本建模，并用测试样本验证模型的预测能力。结果如表４所示，机器学习算法无论在拟合和预测中均明显优于传统的二元材积模型，且机器学习算法中训练样本与测试样本的精度差异不大，证明模型并未发生过拟合现象。通过训练样本得到的拟合评价结果可以看出，４种模型的Ｒ２

均高于０．９６，且ＲＭＳＥ均低于０．１２，说明模型都具备较好的拟合能力。其中ＲＦ模型表现

最好，相比于ＮＬＲ、ＢＰ、ε ＳＶＲ模型，

Ｒ２

分别提高３４３％、２．０５％、２．４５％，ＲＭＳＥ降低６７．３０％、５９４０％、６２３１％，ＲＭＳＥ％降低６７２９％、５９３８％、６２２８％，ＭＡＥ降低７１４８％、６０９６％、５９５２％。通过计算ＭＲＢ可以看出，所有模型的拟合结果均略高于真实值，其中ＲＦ模型的偏差最小。对４种模型的拟合评价作对比，除在ＭＡＥ中ε ＳＶＲ略优于ＢＰ模型，其余检验精度均满足ＲＦ＞ＢＰ＞ε ＳＶＲ＞ＮＬＲ。

表４　模型拟合和预测结果评价

Ｔａｂｌｅ４　Ｍｏｄｅｌｆｉｔｔｉｎｇａｎｄｐｒｅｄｉｃｔｉｏｎｒｅｓｕｌｔｅｖａｌｕａｔｉｏｎ

模型ｍｏｄｅｌ数据集ｄａｔａｓｅｔ

Ｒ２

ＲＭＳＥＲＭＳＥ％

ＭＡＥ

ＭＲＢ

国家新农合信息平台

ＮＬＲ

训练ｔｒａｉｎ０．９６３００．１１５６１６．３８０８０．０７６８－５．６９９５测试ｔｅｓｔ０．９５３１０．１３０７１７．５０３５０．０９１９－４．９００３ＢＰ

训练ｔｒａｉｎ０．９７６００．０９３１１３．１９１５０．０５６１－２．０９０４测试ｔｅｓ

ｔ０．９６２８０．１１６４１５．５８４４０．０７５１－１．６３６３ε ＳＶＲ

训练ｔｒａｉｎ０．９７２２０．１００３

１４．２０６７０．０５４１－２．５９４５测试ｔｅｓｔ０．９６０４０．１２０１１６．０７７６０．０７５３

１．２８３５

ＲＦ

训练ｔｒａｉｎ０．９９６００．０３７８５．３５８５０．０２１９－１．５５０８测试ｔｅｓｔ０．９７２２０．１００７

１３．４８９４０．０５８５

０．１６９０

注：ＭＲＢ．平均相对误差。

根据已建立的模型对测试样本预测，可以看出

４

种模型都有较好的预测能力，Ｒ２

均高于０９５，ＲＭＳＥ

均低于０１４，且与拟合结果相同，精度均满足ＲＦ＞ＢＰ＞ε ＳＶＲ＞ＮＬＲ。相比于其余三者，ＲＦ模

型的Ｒ２

分别提高２００％、

０９８％、１２３％，ＲＭＳＥ降低２２９５％、１３４９％、１６１５％，ＲＭＳＥ％降低２２９３％、１３４４％、１６１０％，ＭＡＥ降低３６３４％、２２１０％、２２３１％。结合模型预测结果图（图３）和ＭＲＢ发现，ＮＬＲ与ＢＰ模型的预测结果略高于真实值，ε ＳＶＲ与ＲＦ的预测结果略低于真实值，通过比较ＭＲＢ绝对值可知二元材积模型的预测偏差最大，ＲＦ模型偏差最小。

为客观评价模型的无偏估计能力，故对模型的拟合和预测结果进行置信度为９５％的ｚ检验，以验证泛化结果与真实值的分布是否一致。如表５所

示，可以看出４种模型的Ｐ值均远大于０．０５，

故保留原假设，即结果与真实值不存在显著差异。

表５　模型的ｚ检验结果

Ｔａｂｌｅ５　Ｚｔｅｓｔｒｅｓｕｌｔｓｏｆｔｈｅｍｏｄｅｌ

模型ｍｏｄｅｌ数据集

ｄａｔａｓｅｔ

ｚ值

ｚｖａｌｕｅＰ结论

ｃｏｎｃｌｕｓｉｏｎ

ＮＬＲ

训练ｔｒａｉｎ

０．０３３３０．９７３５不存在明显差异测试ｔｅｓｔ０．１４７８０．８８２５不存在明显差异ＢＰ

训练ｔｒａｉｎ０．０３１３０．９７５１不存在明显差异测试ｔｅｓｔ－０．０２７３０．９７８２不存在明显差异ε ＳＶＲ

训练ｔｒａｉｎ－０．２２２７０．８２３８不存在明显差异测试ｔｅｓｔ－０．１２０１０．９０４４不存在明显差异ＲＦ训练ｔｒａｉｎ０．０２１７０．９８２７不存在明显差异测试ｔｅｓｔ０．０８５１

０．９３２２

不存在明显差异

５

３

本文发布于:2024-09-21 15:46:43，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/352048.html

上一篇：遥感在林业方面的应用

下一篇：森林防火“天空地人”立体监测预警系统解决方案

标签：模型算法拟合

留言与评论（共有 0 条评论）