基于深度稀疏学习的土壤近红外光谱分析预测模型

基于深度稀疏学习的土壤近红外光谱分析预测模型
王儒敬;陈天娇;汪玉冰;汪六三;谢成军;张洁;李瑞;陈红波
【摘 要】提出一种基于深度稀疏学习的土壤近红外光谱分析预测模型。首先,使用稀疏特征学习方法对土壤近红外光谱数据进行约简,实现土壤近红外光谱内容的稀疏表示;然后采用径向基函数神经网络以稀疏表示特征系数为输入,以所测土壤成分为输出,分别建立土壤有机质、速效磷、速效钾的非线性预测模型。结果表明用该模型预测土壤有机质的含量是可行的,但对土壤速效磷和速效钾含量的预测还需对模型做进一步的优化。%This paper presents a soil near-infrared spectroscopy prediction model based on sparse rep-resentation and radial basis function neural. The model first makes the soil near-infrared large spec-troscopy data to be sparse, then the model uses radial basis function neural network with sparse repre-sentation coefficients as input and the measured soil composition value by chemical methods as output to establish effective nonlinear predictive model of soil organic matter, available phosphorus and potas-sium respectively. The results show that the model is feasible to predict soil organic matter content, but the model needs to be further optimized on the soil phosphorus or potassium effective prediction.
【期刊名称】《发光学报》
【年(卷),期】2017(038)001
【总页数】8页(P109-116)
【关键词】苏拉 沙玛土壤近红外光谱;深度稀疏学习;神经网络模型
【作 者】王儒敬;陈天娇;汪玉冰;汪六三;谢成军;张洁;李瑞;陈红波
【作者单位】中国科学院 合肥智能机械研究所,安徽 合肥 230031;中国科学院 合肥智能机械研究所,安徽 合肥 230031;中国科学院 合肥智能机械研究所,安徽 合肥 230031;中国科学院 合肥智能机械研究所,安徽 合肥 230031;中国科学院 合肥智能机械研究所,安徽 合肥 230031;中国科学院 合肥智能机械研究所,安徽 合肥 230031;中国科学院 合肥智能机械研究所,安徽 合肥 230031;中国科学院 合肥智能机械研究所,安徽 合肥 230031
成人性行为【正文语种】中 文
【中图分类】O235
近年来,国家为了能准确掌握土壤养分分布信息,每年都要投入几十甚至上百亿元的专项资金 在全国范围内实施推广测土配方施肥工作,采用网格式定点取样和实验室分析检测相结合的方法。然而,传统的土壤检测方法存在着一系列的弊端,不仅需要投入大量的人力物力,检测时间长,成本高,而且所使用的化学药品对环境也具有一定的污染性[1]。近红外光谱分析方法具有操作简便、成本低廉、耗时短、绿无污染等优点[2],近年来,可见/近红外光谱已被国内外学者广泛应用于土壤多种养分含量的检测中。近红外光谱分析方法是一种间接校正方法,分析的准确性和鲁棒性取决于所建预测模型的质量[3]。目前,人们主要使用线性和非线性的多元校正方法进行可见/近红外光谱模型的搭建。在土壤近红外光谱分析中,建立定量分析模型的线性方法主要有多元线性回归(MLR)、主成分回归(PCR)、偏最小二乘(PLS)以及局部权重的偏最小二乘回归(LWPLS)等,其中 PLS 是目前主流的线性定量分析建模方法。何勇等[4-5]采用NIRS结合偏最小二乘回归方法对土壤中有机质和三大营养元素的含量进行了回归建模分析。朱登胜等[6]用偏最小二乘回归方法对经简单处理土样的有机质含量和pH 值进行了研究。李伟等[7]采用偏最小二乘法和人工神经网络方法分别建立了0.9 mm 筛的风干土壤碱解氮、速效磷和速效钾含量预测的近红外光谱分析模型, 结果表明,人工神经网络方法所建立的校正模型优于偏最小二乘法所建立的模型。Mouaze
n等[8]结合偏最小二乘回归和BP神经网络建立了预测模型,其效果优于偏最小二乘和主成分回归模型。这些线性方法在解决非线性的土壤各项指标预测问题上均具有一定的局限性。近年来,学者们又开始研究将一些非线性回归或者分类预测方法与土壤近红外光谱数据结合起来进行建模,以充分发掘待测样品组分与采集的光谱数据之间的非线性关系,如神经网络(BP算法)、支持向量回归等,这些方法在解决非线性问题与模型抗干扰方面比PLS等优越[9-10]。神经网络常用的方法有BP[11-15]、自组织映射[16-19]和径向基函数神经网络[20-22]。
深度学习本质是复杂的非线性模型的学习。从机器学习的发展史来看,深度学习的兴起代表着机器学习技术的自然演进,自2006年被Hinton等[23]提出以来,已被成功地应用到图像处理、语音处理、自然语言处理等多个领域,取得了巨大成功,成为当今具有代表性的IT先进技术[24-25]。光谱数据量大且冗余,如何有效地表示光谱信号是近红外土壤预测处理的基础,而高效的表示又要求用较少的信息(如数据压缩、特征抽取等)来描述光谱的重要特征。由于土壤近红外光谱信息获取的时间连续性与空间关联性,土壤样本近红外光谱数据包含有大量冗余,有必要去除土壤近红外光谱冗余信息,实现土壤近红外光谱内容的非线性表示,提高光谱表示能力。作为深度学习模型之一的稀疏表示学习是一种无监督学
习方法,它用来寻一组“超完备”基向量来更高效地表示样本数据。数据的稀疏表示可以降低数据处理的成本,提高压缩效率[26-27]。对光谱信号的稀疏表示涉及冗余字典的选取,MOD、MAD、FOCUSS、K-SVD[28]等字典训练算法已具备利用近红外光谱完成冗余字典的训练能力。
ms dos本文对室内光谱仪测量的土壤近红外反射率光谱进行研究,尝试使用土壤近红外光谱在训练字典深度稀疏特征学习下结合径向基函数神经网络的回归校正方法来预测土壤的有机质、速效磷和速效钾含量,研究了土壤近红外光谱在冗余字典的稀疏分解下结合径向基函数神经网络的回归预测方法能否显著提高土壤重要成分含量的预测性能。
2.1 土壤样本的采集
供试土样来自安徽省亳州市蒙城县某农场的田块。采样时分别选择某一小区,在小区4个角落和其对角线的交点处分别采样,采样深度为30 cm,然后将这些样本混合作为一个土样。总共采集了420个土样,随机选取400个样本作为校正集,其余20个样本作为验证集,将样本分为 2 份以备后续试验使用,其中一份用于化学分析,另一份用于近红外分析。
2.2 土壤养分的测量
分别采用常规化学分析方法获得校正集土壤样本中有机质( OM) 、速效磷( P) 、速效钾( K) 的测量结果,统计参数见表1。
土壤近红外信息的时间和地理空间位置强相关,因而光谱结构复杂,数据量大,且包含有大量冗余。稀疏表示可以降低数据处理的成本,提高压缩效率,实现光谱降噪、压缩和有效的特征表示。另外,由于基于神经网络的非线性预测模型计算量很大,所以很有必要对光谱进行一定程度的稀疏降维。
在土壤近红外光谱信号的有限维空间Rn中, 近红外光谱y∈Rn可由一组稀疏基D=[dk],dk∈Rn线性表示,y=Dx,如图1所示。矩阵D中列向量代表稀疏基, 若k>n,则认为D是冗余的(过完备、超完备),称为冗余字典。当训练样本数量较大时,此时的稀疏编码非常耗时,因此学习一个更加紧凑的并且具有稀疏表示能力的字典十分必要。
从线性组合角度看,可以将上述问题转换为式(1)所示的优化问题:
其中T0为稀疏表示系数中非零分量的数目的上限。对已知的光谱信号做预处理后(预处理方法见5.1),应用非监督学习算法奇异值分解算法(K-SVD)创建过完备字典,求解如下优化问题:
Y=[N]为已知样本的光谱信号集合,xi是某一个样本的稀疏表示向量,X=[N],因此通过解式(2)最优化问题,可以得出土壤近红外光谱的过完备训练字典D。
由于近红外光谱仪的状态、测量环境等因素对光谱的影响大多属于非线性的,还有一些质量参数和光谱的关系也是非线性的,所以最直接的解决方法是非线性校正方法。神经网络在处理高复杂度的非线性问题时有显著的优越性,常用的方法有BP神经网络和径向基函数神经网络等。在逼近能力、分类能力和学习速率等方面,径向基函数 (Radial basis function,RBF)网络表现出比 BP网络更优的性能,其结构如图2所示。
隐含层是基于高斯径向基函数,其形式为:
输入层实现从光谱特征向量x→Ri(x)的非线性映射,输出层实现从Ri(x)→y的线性映射,即:
本文预测模型如图3所示,主要步骤如下:gsmmodem
(1)根据已知的光谱数据集应用非监督学习算法K-SVD创建过完备字典;
(2)求解校正集在字典上的稀疏系数;
(3)将校正集的稀疏系数作为输入层参数,与该光谱对应的样本的成分含量参数作为输出层参数,通过径向基函数神经网络训练RBF神经网络预测模型;
徒手画(4)求解验证集在字典上的稀疏系数,输入训练好的RBF网络,可得对验证集样本某一成分含量的预测值。
5.1 光谱数据的采集
将采集的土壤样本在室内摊开,风干、碾碎后,将土壤样本过1 mm的筛,然后用于光谱实验。
实验中,采用卤素灯照射土壤表面,土壤的漫反射光谱通过光纤被可见光/近红外光谱仪(美国Ocean Optics公司的USB4000光谱仪和日本Hamamstu公司的TG-cooled NIR-2 光谱仪)接收,USB4000光谱仪的波长范围为350~1 000 nm,分辨率为1.5~2.3 nm;TG-cooled NIR-2光谱仪的波长范围为1 100~2 200 nm,最大光学分辨率为8 nm。
测量前根据仪器测量要求,调整好测量高度和角度,将被测土样放在培养皿,每一位置的测量次数为5次,每个样本的扫描次数为15次。平均处理后,将其按照lg(1/R)转换为吸光度,然后将数据导出进行谱图预处理。使用目前应用较广泛的Savitzky-Golay卷积平滑法和多元散射校正进一步对光谱数据进行预处理。一个土壤样本的光谱数据共有381个点,图4为校正集部分土壤样本的近红外光谱图。图中横坐标是波长(nm), 纵坐标为吸光度lg(1/R)。训练时每个样本去除原始光谱边缘不平滑区域,只取波长 600~2 000 nm的光谱信息使用。
5.2 光谱稀疏度对模型预测的影响
由于光谱数据中噪声的不确定性, 实验设置T0参数在6~15范围内分别对有机质、速效K和速效P模型预测结果进行观察。对校正集采取交叉验证, 可利用交叉验证标准差(SECV)来确定模型最佳预测结果下的稀疏度T0,图5表示了土壤成分有机质、速效P和速效K在不同稀疏度下的模型预测结果。当稀疏度为10时, 有机质、速效P和速效K模型的SECV基本均具有局部极小点。
食品工业科技采编平台

本文发布于:2024-09-23 04:29:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/178271.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:土壤   光谱   方法   预测   样本   模型   学习   表示
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议