第39卷第3期
2222年3月分析测试学报FENXI CESHI XUEBAO (Soomal of 1/0x 0160— Analysis )Vol. 39 No. 121450 -1438櫏櫏櫏櫏櫏櫏殽 doi : 10. 3969/j. issn. 1004 -4957. 2020.10. 008
j 研究报告:偏最小二乘近红外光谱模型中潜变量个数 对模型传递性能的影响
李永琪5洪士军0,黄 雯4,张立国0,葛 炯4*
*,栾绍~0,倪力军0*收稿日期:2222 -27 -20;修回日期:2222 -08 -27
基金项目:国家烟草专卖局卷烟烟气重点实验室开放性课题1K2218 -152P)
*通讯作者:倪力军,博士,教授,研究方向:分子光谱技术及其应用,E-maii : ngfyt@ 125.30m
葛 炯,工程师,研究方向:烟草化学和光谱技术,E - mail : yej@U. Whacco. can co
(1.华东理工大学 化学与分子工程学院,上海204237; 2.上海烟草集团有限责任公司
技术中心理化实验室,上海200082)
摘 要:以玉米中水分、蛋白质、脂肪和淀粉4种主要成分含量以及烟叶总植物碱的偏最小二乘近红外光谱 (PLS-NIRs)模型传递为例,考察了模型中潜变量个数(nLVs)对模型传递误差的影响。研究发现,根据累积 贡献率大于99. 7%确定的玉米、烟叶样品PLS -NIRs 模型的nLVs 分别为1和13, nLVs = 1时建立的玉米模 型对两台从机样品4个成分的预测值和主机预测值的重现性指标均满足国标要求;nLVs = 13时建立的烟叶 总植物碱模型经分段直接校正(PDS )后,可使4台从机样品的平均相对预测误差(MRE )小于6%。采用留一 交叉验证或四折交叉验证确定的玉米、烟叶PLS - NIRs 模型的nLVs 分别为5~10, 3与19,在这些nLVs 下 建立的玉米PLS - NIRs 模型对从机样品的预测误差显著增大,超过许可的误差范围,且模型即使经PDS 校正 后,从机样品预测值与主机样品预测值的重现性指标大多不满足国标要求;nLVs > 13时所建烟叶总植物碱 PLS - NIRs 模型的转移误差随nLVs 增大而增大,且PDS 校正后不能保证模型对所有从机样品的MRE 小于 6%。根据累积贡献率大于97. 7%或接近97. 9%为准则选取nLVs ,可有效避免过拟合,提高NIRs 模型的传 能。
关键词:近红外光谱模型传递;偏最小二乘;潜变量个数;玉米;烟叶
中图分类号:O657.3 文献标识码:A 文章编号:344 - 4957(2424 ) 3-1231 -08Effect of NomOor of Latex- Va/adlof for Partial Leas) Spoarc Mode- Based on
Near Infrared Spectmscopy on Modetf Transfer PeUormanco
LI Yony-ql 1, HONG Shi-jan 1, HUANG Wen 2, ZHANG Li-gao 1, GE JUng 2* ,
LU A N Shgo-mny 1 , NI Li-jan 1 *
(1. College of Chemistu and Molechlar Enyinee/ny , East China University of Science and 丁©。!:/)/—, Sha/hai 200237, China ; 2. 丁©。!:/)/— Center PsychoPyical LaPoutory , Sha/hai Tobacco Gmop Co. , Lth. , Shanyhal 200082, China )Abstract : Using tha cUibration model transfar of PLS 一 NIRs models for pmdicti/ contexts of moi 、。 taro - protein , fat and starch in cou , as welt as total alkaloids in tobacco Povas as an examptv - feet of numbor of lateot va/aPlos ( nLVs ) on tha transfar errors of tha models were idvestigateb in this paper. It was found that tha nLVs in PLS 一 NIRs models tr corn and tobacco /avos selected b y chmuladva contribuPon rata yreator than 99. 9% were 0 and 13, respective-e. Tha pmyimion mpuy dacibilitios for tha four ingrepieots in cou betweeo mastor and slave samplos prePicteP be tha PLS 一 NIRs models with ono lateot va/aPto Ut satis/eb tha repuiremeots of naUonat standarks. Wbex tha PLS - NIRs model prePictiny total UnUoids context built on tha mastor with 13 /text va/aPlos was transorreb to four slavos , mean of rel
ative prePiction errors ( MRE ) of tobacco /avos tested on tha four slavos were alt /war than 6% aftor piecewise direct standardization ( PDS ) coruction. Whito tha nLVs in PLS - NIRs models tr cou and tobacco /avos deteunineb by /aviny ono sample in tau as cuss validation set or mnrth-mlU cuss vaUdation method were 5 - 17, 3 and 3, respective-e. Tha
1232分析测试学报第39卷
prediction errors for tha slavv com samples de/ved from Wo models with nLVs prentar than5were sigl 00(X11/0increased and exceeded Wo al/waP1a eyor level.Even after being conysd bp PDS method,most indices of prediction rexoPncibility for tha four inpredients in com between master and slavv samples given bp these models could not satisfp tha requirements of national standards.Tha transfer yoo of PLS一NIRs models for total alOaloibs in sdacce leaves bp selecting nLVs greater than18i/l crecsed with tha increase of nLVs,while PDS conytion can/ot puarantea tha MRE for all slavv instruments given bp these models lower than6%.Results indicated that selecting nLVs for PLS一NIRs models based on tha pO/cipta of pccxmulativv contriPution rata prentar than99.2%or near to99.2% could ehectivetp avoid over-fitting and impravv tha transfer perfovna/ce of tha models.
Key words:near infrared spytoscopy model transfer;paOiat least spuaro;n/mbar of latent//s-blas;com,todacce
近红外光谱(NIRs)技术作为一种快速、无损的绿检测技术,在各行各业的定量与定性分析中得到了广泛应用5]。该技术以一些具有代表性的定标样品的定量指标或定性指标为因变量,其近红外光谱信息为自变量,通过多元统计方法建立相关指标的近红外光谱定量模型或样品的定性模型,根据模型实现对未知样品的定量或定性分析5]。建立一个良好的近红外光谱模型需要积累大量样品的光谱和待测性质数据,并优化模型中的相关参数,模型建立和维护的工作量较大。通常希望在一台机器上建立的光谱模型(该机器通常称为主机)能够转移到其他仪器上(简称为从机)继续使用[5],简称为模型传递或模型共享46。但由于主、从机光谱在不同区域存在或大或小的差异,通常光谱模型传递到从机后误差会增大,因而出现了各种降低模型对从机样品预测误差的模型传递方法5]o分段直接校正(Piecewise direct standardization,PDS)方法是最经典常用的模型传递方法,该方法以主、从机均测试的转移集样品为基础,通过对从机光谱分段校正后再应用主机模型预测从机样品。
近红外光谱定量模型通常采用偏最小二乘(PaOiat least spuaros,PLS)方法建立样品光谱信息与待测物质信息间的数学模型5]。PLS模型建立过程中需要确定潜变量的个数(nLVs),—般采用留一交叉验证或四折1三折)交叉验证的方法确定nLVs54]或是选取内部检验集样品预测误差最小时对应的潜变量个数作为最佳值。本课题组研究发现,采用这种原则确定的近红外光谱PLS模型通常能够对单台仪器给出不错的结果,但这样选取的nLVs往往个数偏多,会引入噪声和无效信息,导致模型传递时预测误差显著增大,使得模型不能在从机直接应用。本文以网上公开发布的玉米数据及烟草企业多台近
红外仪器所测烟叶样品数据为例,探究nLVs的选恥(寸主、从机模型误差的影响,为建立稳健、可共享的近红外光谱模型提供依据和支持。卡巴斯基安全部队2012
1实验与方法
1.1样品与数据集
玉米样品数据集来自http:///ww.eSe/vectar/datOCooi/cooo mat。包含M5、MP5、MP63台近红外仪上测得的80个玉米样品的近红外光谱及这些样品中主要营养成分的含量数据。玉米样品中水分的质量分数在9.38%~10.99%之间,均值为10.23%;蛋白质的质量分数在5.65%~9.73%之间,均值为267%;脂肪的质量分数在3.92%-3.33%之间,均值为3.57%;淀粉的质量分数在62.84%-66.47%之间,均值为67.92%。烟叶样品有2套数据集,Set A由5个烟叶样本分别在主机M(M ps-ter)、4台从机S1、S2、S3和S4上测得的近红外光谱组成,5台近红外仪均为Anta/s II近红外仪器(赛默飞世尔科技有限公司),生产年份不尽相同;Set B则由1077个在主机M上测得的烟叶样本光谱组成。Set A、Set B中各烟叶样品的总植物碱采用YC/T12-2002[11]测定,其含量在0.55%-2.32%之。
1.2模型建立与评价
根据课题组前期研究结果,采用标准正态变换(SNV)结合一阶导数进行31点平滑对样品的近红外光
谱进行预处理可消除因散射和背景漂移引起的光谱误差,基于该预处理光谱所建模型与其他预处理光谱(多元散射校正、一阶导数、原始光谱等)模型的效果相当口2-13。由于该法不需要使用其他样品
第4期李永琪等:偏最小二乘近红外光谱模型中潜变量个数对模型传递性能的影响1238的光谱信息,故本文采用SNV +—阶导数光谱建立玉米中主要营养成分及烟叶总植物碱的近红外光谱 定量模型。采用蒙特卡洛采样(Month-Carla Sampling ; MCS )方法剔除异常点54。采用综合考虑光谱 与待测性质信息来筛选代表性样品的SPXY( Sample set paOitioniny based on joint u -y distance)方法57挑 选主机建模样本,剩余样品作为内部验证集。一般情况下采用建模集均方根残差1 RMSEC )来评价模型 的拟合性能,验证集的均方根残差(RMSEP )来评价模型的预测性能5]。考虑到RMSEP 相当于绝对误 差,难以根据该指标判断模型误差的相对大小,本文增加检验集或从机样本模型预测值与实测值相对 误差的绝对值均值(简称为平均相对误差,MRE)来评估模型对主、从机样本的预测性能。另外,为与 国标[12-I5]w 的评估指标相对应,本如采用验证样品组分的近红外模型值扣除系统偏差后与其标准 值(实测值)之间的校准标准差1 SEP)来评估主机模型调整后的准确度。相关评价指标的计算公式如下:同方真爱
MRE 二SEP RMSEP
,actual m - 1)2y O ppdOted 丿y, m /
s S ,2redioed 一i , ml 丿\ 『OaOunl /m
(1)(2)/ y 11 ( 一一 -ooroi 一 bi om ) 2
槡 m - 1bm sm=——y m =i ( 一,2pdioed 一i ^ciuol 丿
(3)
(4)式(D-d)中-m 为第-个样品的实测值,一…为第-个样品的模型预测值,m 为检验集样品 数目。bmsm 是系统偏差,即检验集样品i 的近红外测定值与标准值(实测值)之差的均值。如果不考虑 系统偏差校正,式(3)的SEP 即为式(1)的RMSEP 。
PLS 回归分析时前n 个潜变量(主因子)的方差之和占所有潜变量方差之和的百分比n 称为累积贡 献率,其计算公式如下:
系统平台开发评估n = y :少/y p ./- ⑸
式⑸中扎为第i 个潜变量的方差,p 为所有方差不为零的潜变量个数,pWmn {样本数,波长个数}。 对于从机,采用RMSEP 、MRE 评价模型转移后的准确度,采用重现性指标SR 评价从机近红外测 定结果与主机近红外测定结果的一致性。国标56定义玉米水分、蛋白质近红外模型测定结果再现性指 标 SR 的计算 如 :
SR yi( —toc 一—,40 一 bidst)2
槡 m - 1
biast = P y . (-s t •^4 s = 1 丿 O 丿
,master (6)(7)式(6)与(7)中的-o slav cW —moe 分别表示样品-的从机近红外测定值和主机近红外测定值;bSP 为 验证样品-的从机近红外测定值与主机近红外测定值之差的均值,m 为检验集(预测集)样本个数。
对于玉米中的脂肪与淀粉,国标要求在不同实验室,由不同操作人员使用同一型号不同设备,按 相同测试方法,对相同的玉米样品的两个脂肪独立实验结果之间的绝对差值应不大于0.3% 55 ,对相 同的玉米样品的两个淀粉独立实验结果之间差值应不大于其算术平均值的19% [15]。参照国标的上述描述,本文定义玉米中脂肪、淀粉的再现性评价指标SRv 与SRs 如下:
p m Z O1SRv =y t , slave y i , 0400'
m
p m 乙t = 1SRs =y t , slave y t , m astce -gm m 式(9)中的—m 为样品-的主机近红外测定值—more
与从机近红外测定值—to 。的均值。表1列出了 国标规定的玉米中4种主要成分近红外模型相关评价指标的范围(上限)。
(8)(9)
1234分析测试学报第39卷本文所有算法在MATLAB 平台完成。
表1粮油近红外分析仪性能基本要求中玉米主要成分的近红外模型评价标准:3-15]
TaPte 1 Nees infrared model evaluation standarUs for the main componebts of corn based on the basic peUormanco岛袋宽子
mquiumenW of neos infrared analyzers for determining yuin and oit contents 57 _ 15 ]
Components SEPW SR(SRo, SRs)W Index and formula
Moisture 2. 25% 2. 3%SR, formula(7)
章开沅
Protein 2. 32%
2. 0%SR, formula(7)Oil 2. 4% 2.3%SRo, formula (8 )
Starch 1% 2. 15
SRs, formu/(9)2结果与讨论
2. 1玉米中主要成分的PLS - NIRs 模型对主机样品的预测误差随nLVs 的变化
3台仪器上测定的玉米样品的平均光谱如图1所示,由该图可看出M5与MP5、MP2的原始平均光 谱有明显差异,经SNV+—阶导数 理后3台仪器上样品的 光谱差异减小,但在某些波峰、波 谷区域仍有肉眼可见的差异,MP6与MP5的平均光谱很相近。故选取M5作为主机,MP5、MP6两台 光谱仪为从机。MCS 方法未发现异常样本。 SPXY 方法从M5测试的84个玉米样品中选取前64个
图1 3台近红外光谱仪所测玉米样品的平均光谱
Fig. 1 Avemye spectre of corn samples measured on three NIRs instruments
图2为主机M5检验集样品各主要成分的平
均相对误差随nLVs 的变化。由 ,口LVs =
1时,各成分的MRE 小于3% ,淀粉的MRE 在nLVs = 11 低于1%。
、水分、脂肪含量的MRE :呈现在nLVs < 3 1 步降低
一 相对低点后有 高,nLVs >3后又逐步
降低的趋势。一般选 测误差第一
相对最小 应的nLVs 作为最佳潜变量个数。根据该,脂肪和淀 选nLVs = 2; 和
越野水分模型可选nLVs = 0o 用留一交叉验证、
确定的玉米各营养成分的PLS 模型中nLVs 一般在5〜3之图2玉米中4种成分含量的PLS-NIR s 模型对主机检验 样品的 相 差(MRE)随nLVs 的变化Fig. 2 TUe avemye relative error) MRE) of the PLS - NIRs model for the content of the four componebts in corn of the samples of the Uost test set ve/es with nLVs 间。以水分含量的PLS - NIRs 模型为例, 的前5个潜变量(LV )对应的方差分别为:4.999 39、
4. 004 44、4. 004 08、4. 004 45、4. 004 41。第一个潜变量的方差非常之大, 有潜变量方差之
和的99. 5%以上。玉米中另外3个成分脂肪、
及淀 量PLS- NIRs 模型的第一个潜变量对应的 贡献率也大于99. 5%。因此,如果 nLVs 个潜变量累积贡献率大于99. 5%选取潜变量个
第4期李永琪等:偏最小二乘近红外光谱模型中潜变量个数对模型传递性能的影响1238数,玉米样品近红外光谱模型的nLVs=1,该值大大小于常规方法确定的潜变量个数。2. 2潜变量个数对玉米中主要成分PLS - NIRs 模型及模型转移结果的影响
表2 ~4给出了不同潜变量个数下所建立的主机模型对主机样品和从机样品中水分、脂肪和淀粉含 量的预测结果,以及经过PDS 校正后模型对从机样品的预测结果。根据文献建议值及经验,本文选择 PDS 校正方法中转移因子数为2,转移集数目为1个,窗口宽度为7,容忍度为0.0155]。
蛋白质预测结果与表1相似,限于篇幅,该结果省略。表2~4中斜体数据表明对应的指标满足表 1的要求。由这3个表可知,不同潜变量个数所建模型中,nLVs =1时所建立的PLS_NIR s 模型直接转 移到从机后,对从机样品各成分含量的预测误差RMSEP 及MRE 最小,且模型预测从机样品的误差与 主机样品预测误差相差不多。模型对主机验证集样品的SEP 以及从机的再现性评价指标均满足表1所 列的国标要求。PDS 校正对nLVs = 1下所建模型的传递效果的改进很有限,且PDS 校正后模型对从机 样品脂肪、淀粉含量的预测误差高于模型直接传递的预测误差(见表3、表4中*标注的数据)o 说明 模型直接传递误差不大时,没必要采用PDS 方法进行模型传递。
由留一交叉验证和四折交叉验证选取的nLVs 均大于5,在此原则下建立的玉米各营养成分PLS - NIRs 模型对主机样品的预测误差RMSEP 、MRE 随nLVs 的增大而不同程度地降低,但各模型对从机样 品的RMSEP 及MRE 显著增大,是主机样品对应误差指标的几倍到十几倍,其误差水平超出许可范围。 经PDS 校正从机光谱后,模型对从机样品的预测误差降低到与主机相当的水平。nLVs> 1时建立的玉 米营养成分的PLS - NIRs 模型给出的主、从机预测值的重现性较-Vs = 1时所建模型的重现性高一个 量级,nLVs >4时所建模型对从机样品中各成分含量的预测值大多不满足表1所列的重现性指标要求。 说明从第二个潜变量开始,仪器间光谱信息的一致性变差,导致nLVs > 1时各模型主、从机间近红外 测试值的重现性变差。虽然nLVs 增大可改进模型对主机样品的预测准确度,但会导致模型传递误差变 大,使得模型无法直接转移到从机。
表2玉米水分PLS - NIRs 模型直接传递及PDS 校正后的传递结果
Table 2 Direct transfer results and transfer results Oter PDS correction of We PLS - NIRs model for
predichny moisture context is corn
* * nLVs - 1 , 7 , 5 arc the numbes cf latent vo/ab/s cf the PLS - NIRs model far com wates Uetermined ospechvely accordiny te the cxmula/vo costributios rate yreates thao 99. 2% , fou
s - fold cross - validatiop , and leave - one - out cross - validatiop. The numbes above "/" is the result cf direct model Vansfes, and Sc numbes below "/" is the model transfer result Otes PDS correction (nLVs = 1、7、5 是分别根据累计贡献率大于 96.9%、四折交叉验证、留一交叉验证确定的玉米水分PLS - NIRs 模型的潜变量个数。“/”之上数字为模型直接传递结果,“/s 之下 数字为PDS 校正后的模型传递结果)
Calibration/v a/datSn
spectra
NLVs * *RMSEC (%)RMSEP (%)MRE ( % )SEP ( % )SR ( % )M5/M510. 343 5
0. 244 2 1.970. 22 <0. 2540.41 50. 161 2
1.270. 16 <0. 2550. 123 70. 111 5
0. 900. 11 <0. 2270. 115 60. 108 50. 77
0. 11 <0.25M5/MP510. 330 (W. 325 8 4. 55/2.51
0. 20 <0. 14/2. 20 <0. 2140. 753 4/2. 223 17. 93/S.730. 4 <0, 14/2. 4 <0, 4
5 1. 824 4/2. 255 7 1. 45/2. 040. 43/P. 22
7
4. 040 皿 222 4 1. 57/2. 10. 26/P. 24M5/MP610. 326 9/2. 325 5 4.51/2.51
0 20 <0, 14/2. 20 <0, 1440. 751 .巾.433 87. go/ 810 14W 0. 142. 1
54 06 0/2. 2227 1. 84/2. 390 . 47/P. 25
7 4. 150 9/2. 318 822. 59/2. 60
0 . 3I/P. 23表8玉米脂肪PLS - NIRs 模型直接传递及PDS 校正后的传递结果
Table 3 Direct transfer results and tonsfer results Oter PDS correction of We PLS - NIRs model
for predichny oil context is corn
CaPbra/ou/v alidatiou
nLVs * *spectra
RMSEC (%)RMSEP ( % )MRE ( % )SEP ( % )SRc(% )M5/M5 10. 142 20. 18 78. 10. 14 <0. 2