偏最小二乘近红外光谱模型中潜变量个数对模型传递性能的影响

第39卷第3期
2222年3月分析测试学报FENXI  CESHI  XUEBAO  (Soomal  of  1/0x 0160— Analysis )Vol. 39 No. 121450 -1438櫏櫏櫏櫏櫏櫏殽 doi : 10. 3969/j. issn. 1004 -4957. 2020.10. 008
j 研究报告:偏最小二乘近红外光谱模型中潜变量个数
对模型传递性能的影响
李永琪5洪士军0,黄 雯4,张立国0,葛 炯4*
*,栾绍~0,倪力军0*收稿日期:2222 -27 -20;修回日期:2222 -08 -27
基金项目:国家烟草专卖局卷烟烟气重点实验室开放性课题1K2218 -152P)
*通讯作者:倪力军,博士,教授,研究方向:分子光谱技术及其应用,E-maii : ngfyt@ 125.30m
葛 炯,工程师,研究方向:烟草化学和光谱技术,E  - mail : yej@U. Whacco. can  co
(1.华东理工大学 化学与分子工程学院,上海204237; 2.上海烟草集团有限责任公司
技术中心理化实验室,上海200082)
摘 要:以玉米中水分、蛋白质、脂肪和淀粉4种主要成分含量以及烟叶总植物碱的偏最小二乘近红外光谱 (PLS-NIRs)模型传递为例,考察了模型中潜变量个数(nLVs)对模型传递误差的影响。研究发现,根据累积 贡献率大于99. 7%确定的玉米、烟叶样品PLS  -NIRs 模型的nLVs 分别为1和13, nLVs  = 1时建立的玉米模 型对两台从机样品4个成分的预测值和主机预测值的重现性指标均满足国标要求;nLVs  = 13时建立的烟叶 总植物碱模型经分段直接校正(PDS )后,可使4台从机样品的平均相对预测误差(MRE )小于6%。采用留一 交叉验证或四折交叉验证确定的玉米、烟叶PLS  - NIRs 模型的nLVs 分别为5~10, 3与19,在这些nLVs 下 建立的玉米PLS  - NIRs 模型对从机样品的预测误差显著增大,超过许可的误差范围,且模型即使经PDS 校正 后,从机样品预测值与主机样品预测值的重现性指标大多不满足国标要求;nLVs  > 13时所建烟叶总植物碱 PLS  - NIRs 模型的转移误差随nLVs 增大而增大,且PDS 校正后不能保证模型对所有从机样品的MRE 小于 6%。根据累积贡献率大于97. 7%或接近97. 9%为准则选取nLVs ,可有效避免过拟合,提高NIRs 模型的传
能。
关键词:近红外光谱模型传递;偏最小二乘;潜变量个数;玉米;烟叶
中图分类号:O657.3 文献标识码:A  文章编号:344 - 4957(2424 ) 3-1231 -08Effect  of  NomOor  of  Latex- Va/adlof  for  Partial  Leas) Spoarc  Mode- Based  on
Near  Infrared  Spectmscopy  on  Modetf  Transfer  PeUormanco
LI  Yony-ql 1, HONG  Shi-jan 1, HUANG  Wen 2, ZHANG  Li-gao 1, GE  JUng 2* ,
LU A N  Shgo-mny 1 , NI  Li-jan 1 *
(1. College  of  Chemistu  and  Molechlar  Enyinee/ny , East  China  University  of  Science  and  丁©。!:/)/—, Sha/hai  200237, China ; 2. 丁©。!:/)/— Center  PsychoPyical  LaPoutory , Sha/hai  Tobacco  Gmop  Co. , Lth. , Shanyhal  200082, China )Abstract : Using  tha  cUibration  model  transfar  of  PLS  一 NIRs  models  for  pmdicti/ contexts  of  moi 、。 taro  - protein , fat  and  starch  in  cou , as  welt  as  total  alkaloids  in  tobacco  Povas  as  an  examptv  - feet  of  numbor  of  lateot  va/aPlos  ( nLVs ) on  tha  transfar  errors  of  tha  models  were  idvestigateb  in  this  paper. It  was  found  that  tha  nLVs  in  PLS  一 NIRs  models  tr  corn  and  tobacco  /avos  selected  b y chmuladva  contribuPon  rata  yreator  than  99. 9% were  0 and  13, respective-e. Tha  pmyimion  mpuy  dacibilitios  for  tha  four  ingrepieots  in  cou  betweeo  mastor  and  slave  samplos  prePicteP  be  tha  PLS  一 NIRs  models  with  ono  lateot  va/aPto  Ut  satis/eb  tha  repuiremeots  of  naUonat  standarks. Wbex  tha PLS  - NIRs  model  prePictiny  total  UnUoids  context  built  on  tha  mastor  with  13 /text  va/aPlos  was  transorreb  to  four  slavos , mean  of  rel
ative  prePiction  errors  ( MRE  ) of  tobacco  /avos  tested  on  tha  four  slavos  were  alt  /war  than  6% aftor  piecewise  direct  standardization  ( PDS ) coruction. Whito  tha nLVs  in  PLS  - NIRs  models  tr  cou  and  tobacco  /avos  deteunineb  by  /aviny  ono  sample  in  tau  as  cuss  validation  set  or  mnrth-mlU  cuss  vaUdation  method  were  5 - 17, 3 and  3, respective-e. Tha
1232分析测试学报第39卷
prediction errors for tha slavv com samples de/ved from Wo models with nLVs prentar than5were sigl 00(X11/0increased and exceeded Wo al/waP1a eyor level.Even after being conysd bp PDS meth­od,most indices of prediction rexoPncibility for tha four inpredients in com between master and slavv samples given bp these models could not satisfp tha requirements of national standards.Tha transfer yoo of PLS一NIRs models for total alOaloibs in sdacce leaves bp selecting nLVs greater than18i/l crecsed with tha increase of nLVs,while PDS conytion can/ot puarantea tha MRE for all slavv in­struments given bp these models lower than6%.Results indicated that selecting nLVs for PLS一NIRs models based on tha pO/cipta of pccxmulativv contriPution rata prentar than99.2%or near to99.2% could ehectivetp avoid over-fitting and impravv tha transfer perfovna/ce of tha models.
Key words:near infrared spytoscopy model transfer;paOiat least spuaro;n/mbar of latent//s-blas;com,todacce
近红外光谱(NIRs)技术作为一种快速、无损的绿检测技术,在各行各业的定量与定性分析中得到了广泛应用5]。该技术以一些具有代表性的定标样品的定量指标或定性指标为因变量,其近红外光谱信息为自变量,通过多元统计方法建立相关指标的近红外光谱定量模型或样品的定性模型,根据模型实现对未知样品的定量或定性分析5]。建立一个良好的近红外光谱模型需要积累大量样品的光谱和待测性质数据,并优化模型中的相关参数,模型建立和维护的工作量较大。通常希望在一台机器上建立的光谱模型(该机器通常称为主机)能够转移到其他仪器上(简称为从机)继续使用[5],简称为模型传递或模型共享46。但由于主、从机光谱在不同区域存在或大或小的差异,通常光谱模型传递到从机后误差会增大,因而出现了各种降低模型对从机样品预测误差的模型传递方法5]o分段直接校正(Piecewise direct standardization,PDS)方法是最经典常用的模型传递方法,该方法以主、从机均测试的转移集样品为基础,通过对从机光谱分段校正后再应用主机模型预测从机样品。
近红外光谱定量模型通常采用偏最小二乘(PaOiat least spuaros,PLS)方法建立样品光谱信息与待测物质信息间的数学模型5]。PLS模型建立过程中需要确定潜变量的个数(nLVs),—般采用留一交叉验证或四折1三折)交叉验证的方法确定nLVs54]或是选取内部检验集样品预测误差最小时对应的潜变量个数作为最佳值。本课题组研究发现,采用这种原则确定的近红外光谱PLS模型通常能够对单台仪器给出不错的结果,但这样选取的nLVs往往个数偏多,会引入噪声和无效信息,导致模型传递时预测误差显著增大,使得模型不能在从机直接应用。本文以网上公开发布的玉米数据及烟草企业多台近
红外仪器所测烟叶样品数据为例,探究nLVs的选恥(寸主、从机模型误差的影响,为建立稳健、可共享的近红外光谱模型提供依据和支持。卡巴斯基安全部队2012
1实验与方法
1.1样品与数据集
玉米样品数据集来自http:///ww.eSe/vectar/datOCooi/cooo mat。包含M5、MP5、MP63台近红外仪上测得的80个玉米样品的近红外光谱及这些样品中主要营养成分的含量数据。玉米样品中水分的质量分数在9.38%~10.99%之间,均值为10.23%;蛋白质的质量分数在5.65%~9.73%之间,均值为267%;脂肪的质量分数在3.92%-3.33%之间,均值为3.57%;淀粉的质量分数在62.84%-66.47%之间,均值为67.92%。烟叶样品有2套数据集,Set A由5个烟叶样本分别在主机M(M ps-ter)、4台从机S1、S2、S3和S4上测得的近红外光谱组成,5台近红外仪均为Anta/s II近红外仪器(赛默飞世尔科技有限公司),生产年份不尽相同;Set B则由1077个在主机M上测得的烟叶样本光谱组成。Set A、Set B中各烟叶样品的总植物碱采用YC/T12-2002[11]测定,其含量在0.55%-2.32%之。
1.2模型建立与评价
根据课题组前期研究结果,采用标准正态变换(SNV)结合一阶导数进行31点平滑对样品的近红外光
谱进行预处理可消除因散射和背景漂移引起的光谱误差,基于该预处理光谱所建模型与其他预处理光谱(多元散射校正、一阶导数、原始光谱等)模型的效果相当口2-13。由于该法不需要使用其他样品
第4期李永琪等:偏最小二乘近红外光谱模型中潜变量个数对模型传递性能的影响1238的光谱信息,故本文采用SNV  +—阶导数光谱建立玉米中主要营养成分及烟叶总植物碱的近红外光谱 定量模型。采用蒙特卡洛采样(Month-Carla  Sampling  ; MCS )方法剔除异常点54。采用综合考虑光谱 与待测性质信息来筛选代表性样品的SPXY( Sample  set  paOitioniny  based  on  joint  u  -y  distance)方法57挑 选主机建模样本,剩余样品作为内部验证集。一般情况下采用建模集均方根残差1 RMSEC )来评价模型 的拟合性能,验证集的均方根残差(RMSEP )来评价模型的预测性能5]。考虑到RMSEP 相当于绝对误 差,难以根据该指标判断模型误差的相对大小,本文增加检验集或从机样本模型预测值与实测值相对 误差的绝对值均值(简称为平均相对误差,MRE)来评估模型对主、从机样本的预测性能。另外,为与 国标[12-I5]w 的评估指标相对应,本如采用验证样品组分的近红外模型值扣除系统偏差后与其标准 值(实测值)之间的校准标准差1 SEP)来评估主机模型调整后的准确度。相关评价指标的计算公式如下:同方真爱
MRE  二SEP RMSEP
,actual m  - 1)2y O ppdOted  丿y, m  /
s S  ,2redioed  一i , ml  丿\ 『OaOunl  /m
(1)(2)/ y  11 ( 一一 -ooroi  一 bi om ) 2
槡 m  - 1bm sm=——y m =i ( 一,2pdioed  一i  ^ciuol  丿
(3)
(4)式(D-d)中-m 为第-个样品的实测值,一…为第-个样品的模型预测值,m 为检验集样品 数目。bmsm 是系统偏差,即检验集样品i 的近红外测定值与标准值(实测值)之差的均值。如果不考虑 系统偏差校正,式(3)的SEP 即为式(1)的RMSEP 。
PLS 回归分析时前n 个潜变量(主因子)的方差之和占所有潜变量方差之和的百分比n 称为累积贡 献率,其计算公式如下:
系统平台开发评估n  = y :少/y  p ./- ⑸
式⑸中扎为第i 个潜变量的方差,p 为所有方差不为零的潜变量个数,pWmn {样本数,波长个数}。 对于从机,采用RMSEP 、MRE 评价模型转移后的准确度,采用重现性指标SR 评价从机近红外测 定结果与主机近红外测定结果的一致性。国标56定义玉米水分、蛋白质近红外模型测定结果再现性指 标 SR  的计算 如 :
SR yi( —toc  一—,40 一 bidst)2
槡 m  - 1
biast  = P  y  . (-s  t •^4 s  = 1 丿 O 丿
,master (6)(7)式(6)与(7)中的-o slav cW  —moe 分别表示样品-的从机近红外测定值和主机近红外测定值;bSP 为 验证样品-的从机近红外测定值与主机近红外测定值之差的均值,m 为检验集(预测集)样本个数。
对于玉米中的脂肪与淀粉,国标要求在不同实验室,由不同操作人员使用同一型号不同设备,按 相同测试方法,对相同的玉米样品的两个脂肪独立实验结果之间的绝对差值应不大于0.3% 55 ,对相 同的玉米样品的两个淀粉独立实验结果之间差值应不大于其算术平均值的19% [15]。参照国标的上述描述,本文定义玉米中脂肪、淀粉的再现性评价指标SRv 与SRs 如下:
p  m Z  O1SRv  =y t , slave  y i , 0400'
m
p  m 乙t  = 1SRs  =y t , slave  y t , m astce -gm m 式(9)中的—m 为样品-的主机近红外测定值—more
与从机近红外测定值—to 。的均值。表1列出了 国标规定的玉米中4种主要成分近红外模型相关评价指标的范围(上限)。
(8)(9)
1234分析测试学报第39卷本文所有算法在MATLAB 平台完成。
表1粮油近红外分析仪性能基本要求中玉米主要成分的近红外模型评价标准:3-15]
TaPte  1 Nees  infrared  model  evaluation  standarUs  for  the  main  componebts  of  corn  based  on  the  basic  peUormanco岛袋宽子
mquiumenW  of  neos  infrared  analyzers  for  determining  yuin  and  oit  contents 57 _ 15 ]
Components SEPW SR(SRo, SRs)W Index  and  formula
Moisture    2. 25%  2. 3%SR, formula(7)
章开沅
Protein    2. 32%
2. 0%SR, formula(7)Oil    2. 4%  2.3%SRo, formula  (8 )
Starch 1%  2. 15
SRs, formu/(9)2结果与讨论
2. 1玉米中主要成分的PLS  - NIRs 模型对主机样品的预测误差随nLVs 的变化
3台仪器上测定的玉米样品的平均光谱如图1所示,由该图可看出M5与MP5、MP2的原始平均光 谱有明显差异,经SNV+—阶导数 理后3台仪器上样品的 光谱差异减小,但在某些波峰、波 谷区域仍有肉眼可见的差异,MP6与MP5的平均光谱很相近。故选取M5作为主机,MP5、MP6两台 光谱仪为从机。MCS 方法未发现异常样本。 SPXY 方法从M5测试的84个玉米样品中选取前64个
图1 3台近红外光谱仪所测玉米样品的平均光谱
Fig. 1 Avemye  spectre  of  corn  samples  measured  on  three  NIRs  instruments
图2为主机M5检验集样品各主要成分的平
均相对误差随nLVs 的变化。由 ,口LVs  =
1时,各成分的MRE  小于3% ,淀粉的MRE  在nLVs  = 11 低于1%。
、水分、脂肪含量的MRE  :呈现在nLVs  < 3 1 步降低
一 相对低点后有 高,nLVs  >3后又逐步
降低的趋势。一般选 测误差第一
相对最小 应的nLVs 作为最佳潜变量个数。根据该,脂肪和淀 选nLVs  = 2; 和
越野水分模型可选nLVs  = 0o 用留一交叉验证、
确定的玉米各营养成分的PLS 模型中nLVs  一般在5〜3之图2玉米中4种成分含量的PLS-NIR s 模型对主机检验 样品的 相 差(MRE)随nLVs 的变化Fig. 2 TUe  avemye  relative  error) MRE) of  the  PLS  - NIRs  model  for  the  content  of  the  four  componebts  in  corn  of  the  samples  of  the  Uost  test  set  ve/es  with  nLVs 间。以水分含量的PLS  - NIRs 模型为例, 的前5个潜变量(LV )对应的方差分别为:4.999 39、
4. 004 44、4. 004 08、4. 004 45、4. 004 41。第一个潜变量的方差非常之大, 有潜变量方差之
和的99. 5%以上。玉米中另外3个成分脂肪、
及淀 量PLS- NIRs 模型的第一个潜变量对应的 贡献率也大于99. 5%。因此,如果 nLVs 个潜变量累积贡献率大于99. 5%选取潜变量个
第4期李永琪等:偏最小二乘近红外光谱模型中潜变量个数对模型传递性能的影响1238数,玉米样品近红外光谱模型的nLVs=1,该值大大小于常规方法确定的潜变量个数。2. 2潜变量个数对玉米中主要成分PLS  - NIRs 模型及模型转移结果的影响
表2 ~4给出了不同潜变量个数下所建立的主机模型对主机样品和从机样品中水分、脂肪和淀粉含 量的预测结果,以及经过PDS 校正后模型对从机样品的预测结果。根据文献建议值及经验,本文选择 PDS 校正方法中转移因子数为2,转移集数目为1个,窗口宽度为7,容忍度为0.0155]。
蛋白质预测结果与表1相似,限于篇幅,该结果省略。表2~4中斜体数据表明对应的指标满足表 1的要求。由这3个表可知,不同潜变量个数所建模型中,nLVs  =1时所建立的PLS_NIR s 模型直接转 移到从机后,对从机样品各成分含量的预测误差RMSEP 及MRE 最小,且模型预测从机样品的误差与 主机样品预测误差相差不多。模型对主机验证集样品的SEP 以及从机的再现性评价指标均满足表1所 列的国标要求。PDS 校正对nLVs  = 1下所建模型的传递效果的改进很有限,且PDS 校正后模型对从机 样品脂肪、淀粉含量的预测误差高于模型直接传递的预测误差(见表3、表4中*标注的数据)o 说明 模型直接传递误差不大时,没必要采用PDS 方法进行模型传递。
由留一交叉验证和四折交叉验证选取的nLVs 均大于5,在此原则下建立的玉米各营养成分PLS  - NIRs 模型对主机样品的预测误差RMSEP 、MRE 随nLVs 的增大而不同程度地降低,但各模型对从机样 品的RMSEP 及MRE 显著增大,是主机样品对应误差指标的几倍到十几倍,其误差水平超出许可范围。 经PDS 校正从机光谱后,模型对从机样品的预测误差降低到与主机相当的水平。nLVs> 1时建立的玉 米营养成分的PLS  - NIRs 模型给出的主、从机预测值的重现性较-Vs  = 1时所建模型的重现性高一个 量级,nLVs  >4时所建模型对从机样品中各成分含量的预测值大多不满足表1所列的重现性指标要求。 说明从第二个潜变量开始,仪器间光谱信息的一致性变差,导致nLVs  > 1时各模型主、从机间近红外 测试值的重现性变差。虽然nLVs 增大可改进模型对主机样品的预测准确度,但会导致模型传递误差变 大,使得模型无法直接转移到从机。
表2玉米水分PLS  - NIRs 模型直接传递及PDS 校正后的传递结果
Table  2 Direct  transfer  results  and  transfer  results  Oter  PDS  correction  of  We  PLS  - NIRs  model  for
predichny  moisture  context  is  corn
* * nLVs  - 1 , 7 , 5 arc  the  numbes  cf  latent  vo/ab/s  cf  the  PLS  - NIRs  model  far  com  wates  Uetermined  ospechvely  accordiny  te  the  cxmula/vo  costributios  rate  yreates  thao  99. 2% , fou
s  - fold  cross  - validatiop  , and  leave  - one  - out  cross  - validatiop. The  numbes  above  "/" is  the  result  cf  direct  model  Vansfes, and  Sc  numbes  below  "/" is  the  model  transfer  result  Otes  PDS  correction (nLVs  = 1、7、5 是分别根据累计贡献率大于 96.9%、四折交叉验证、留一交叉验证确定的玉米水分PLS  - NIRs 模型的潜变量个数。“/”之上数字为模型直接传递结果,“/s 之下 数字为PDS 校正后的模型传递结果)
Calibration/v a/datSn
spectra
NLVs * *RMSEC (%)RMSEP (%)MRE ( % )SEP ( % )SR ( % )M5/M510. 343 5
0. 244 2  1.970. 22 <0. 2540.41 50. 161 2
1.270. 16 <0. 2550. 123 70. 111 5
0. 900. 11 <0. 2270. 115 60. 108 50. 77
0. 11 <0.25M5/MP510. 330 (W. 325 8  4. 55/2.51
0. 20 <0. 14/2. 20 <0. 2140. 753 4/2. 223 17. 93/S.730. 4 <0, 14/2. 4 <0, 4
5  1. 824 4/2. 255 7  1. 45/2. 040. 43/P. 22
7
4. 040 皿 222 4  1. 57/2. 10. 26/P. 24M5/MP610. 326 9/2. 325 5  4.51/2.51
0 20 <0, 14/2. 20 <0, 1440. 751 .巾.433 87. go/ 810 14W 0. 142. 1
54 06 0/2. 2227  1. 84/2. 390 . 47/P. 25
7  4. 150 9/2. 318 822. 59/2. 60
0 . 3I/P. 23表8玉米脂肪PLS  - NIRs 模型直接传递及PDS 校正后的传递结果
Table  3 Direct  transfer  results  and  tonsfer  results  Oter  PDS  correction  of  We  PLS  - NIRs  model
for  predichny  oil  context  is  corn
CaPbra/ou/v alidatiou
nLVs * *spectra
RMSEC (%)RMSEP ( % )MRE ( % )SEP ( % )SRc(% )M5/M5 10. 142 20. 18 78. 10. 14 <0. 2

本文发布于:2024-09-21 13:37:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/167604.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   样品   光谱   误差
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议