非靶向代谢组学数据分析方法总结

⾮靶向代谢组学数据分析⽅法总结
⽣物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这⼏年“多组学”的也研究越来越多。其中,代谢组学是相对⽐较年轻的⼀门学科,“代谢组”(metabolome)的概念于1998第⼀次被提出。基因组学和转录组学是⽣物信息的上游,更多的体现的是⽣物活动的内在本质因素,⽽代谢组学是⽣物信息的最下游,体现的是⽣物活动的表型结果。代谢组学分为靶向代谢组学和⾮靶向代谢组学,本⽂将结合本⼈的经验和所学,综述⾮靶向代谢组学的数据分析⽅法。
本⽂可结合另⼀篇博客()⼀起阅读,以便加深理解。
概述
什么是“代谢组学”(metabolomics)呢?
⾸先,我们得明确什么叫“代谢物”(metabolite)。的定义:A metabolite is the intermediate end product of metabolism. The term metabolite is usually restricted to small molecules. 百度百科的定义:代谢物亦称中间代谢物,是指通过代谢过程产⽣或消耗的物质,⽣物⼤分⼦不包括在内。
⽬前METLIN数据库中的标准代谢物分⼦总共超过200,000 种;⼀般⾮靶向代谢组学使⽤质谱仪能检测到⼈体⾎液中的代谢信号峰⼤约接近10,000个。由此可知,代谢组学的特征维度是⽐较⼤的。
其次,我们了解下什么叫“代谢组”(metabolome)。的定义:The metabolome refers to the complete set of small-molecule chemicals found within a biological sample. The biological sample can be a cell, a cellular organelle, an organ, a tissue, a tissue extract, a biofluid or an entire organism. 百度百科的定义:代谢组是指⽣物体内源性代谢物质的动态整体。⽽传统的代谢概念既包括⽣物合成,也包括⽣物分解,因此理论上代谢物应包括核酸、蛋⽩质、脂类⽣物⼤分⼦以及其他⼩分⼦代谢物质。但为了有别于基因组、转录组和蛋⽩质组,代谢组⽬前只涉及相对分⼦质量约⼩于1000的⼩分⼦代谢物质。
那么“代谢组学”(metabolomics)怎么定义呢?上说:Metabonomics is defined as "the quantitative measurement of the dynamic multiparametric metabolic response of living systems to pathophysiological stimuli or genetic modification". 百度百科的解释是:代谢组学是效仿基因组学和蛋⽩质组学的研究思想,对⽣物体内所有代谢物进⾏定量分析,并寻代谢物与⽣理病理变化的相对关系的研究⽅式,是系统⽣物学的组成部分。注意,代谢组学还有个英⽂写法是“metabonomics”,这两个写法都是可以的,但其实这两个词的侧重点有些区别,此处不深究,感兴趣的童鞋可以⾃⾏查资料了解。
代谢组学从研究特点上可分为⾮靶向代谢组学和靶向代谢组学。⾮靶向代谢组学⽆偏向地检测样本中所有能检测到的代谢物分⼦,是通过⽣信⽅法进⾏差异分析和通路分析,寻⽣物标志物,初步建⽴
模型或代谢物Panel的组学⽅法。⽽靶向代谢则是针对特定的代谢物进⾏检测,由于其使⽤标准品,因此可以实现代谢物的绝对定量(⾮靶向代谢组学只能相对定量)。
⽤于代谢组学研究的样本,主要包括:组织、⾎液、尿液等,其他如⽣物体液、分泌物或排泄物也常⽤于代谢组学研究。
数据采集的⽅法上来看,主要分为:核磁共振(NMR)、⽓质联⽤(GC-MS)及液质联⽤(LC-MS)。NMR的灵敏度最低,LC-MS的灵敏度最⾼(可以检测到更多的代谢物)。采集的数据经过处理,可转化成各个代谢信号峰的相对含量值表(常使⽤XCMS等⼯具进⾏处理)。
总的来说,完整的代谢组学研究,应包括实验设计、样本处理、数据采集、数据分析这⼏个部分,本⽂仅介绍⾮靶向代谢组学的数据分析部分(注:本⼈接触的是⾎标本的LC-MS数据)。
数据预处理
采集的数据经过处理,可转化成各个信号峰的相对含量值表,这个表⼀般形式为:每⼀⾏代表⼀个信号(可由RT[保留时间]和m/z[质荷⽐]确定⼀个信号峰)在各个样本中的相对含量,也就是说,每⼀列代表每个样本中各个信号的性对含量(前⼏列除外,表⽰各信号的RT、
m/z等信息)。每个信号可⽤RT值和m/z值组合进⾏命名。
对于得到的这个表,我们常常进⾏如下3个预处理操作:信号峰注释、标准化校正、质控。
信号峰的注释。可以对同位素峰、加合物峰进⾏注释,甚⾄可以初步鉴定部分信号峰所对应的代谢物名称。
标准化校正。可分为批次内校正和批次间校正。需要校正是因为仪器不稳定等情况,可能使信号峰的相对含量出现误差。校正的⽅法有⼏种,⽬前⼀般⾸选基于QC样本的标准化⽅法,即:将所要采集的所有样本取等量混合起来,组成QC样本,然后在采集数据的时候,每隔⼀定数量的样品,插放⼀份QC样本。因为QC样本都是⼀样的,因此可以⽤QC样本来反映数据采集过程中信号的偏移规律。校正的⼯具,⽬前主要推荐中科院ZhuLab开源的MetNormalizer(朱正江研究员的博⼠⽣申⼩涛师兄开发)。
质控。对每个信号峰的QC样本求RSD(相对标准偏差),通常需舍弃RSD超过30%的信号峰(数据质量太差)。
统计分析
变量分析
⼆分类问题的单变量分析主要分为:Wilcoxon秩和检验(或 t检验)和 Fold Change分析。多分类问题
可能需要ANOVA等⽅法。常⽤的可视化⽅法为 Volcano Plot (⽕⼭图),可初步筛选出同时满⾜Wilcoxon检验统计学差异和Fold Change倍数差异的信号峰。单变量分析很简单,但常常很有效。
值得注意的⼀点是,单变量统计学检验,其p值的阈值设定,严格来说不应该设定为0.05,需要进⾏FDR校正(⾼维数据进⾏多次假设检验,容易产⽣⼤量的假阳性)。但作为初筛,许多研究往往卡得⽐较松。
单变量分析中,采⽤中位数还是平均数来代表⼀个组的值呢?⽐如计算FC时,是⽤两组的中位数计算FC还是⽤均数去计算FC呢,以及统计学检验使⽤t检验还是选择wilcoxon检验呢?⼀般来说,如果数据分布是正态分布,则⽤均数,否则⽤中位数。
慎⽤FC值(个⼈观点):随便使⽤FC值去筛选变量,很可能导致重要变量被筛出局,举个栗⼦:
代谢物X在A组15个病例中的峰值分别是:92,95,95,96,96,97,98,100,101,101,101,102,102,103,103,中位数或平均数⼤致为100;
代谢物X在B组15个病例中的峰值分别是:106,107,108,108,108,108,109,110,111,112,112,112,113,113,115,中位数或平均数⼤致为110。
代谢物X的FC值(B/A)为1.1。若此时设定FC值以1.2作为界值,X将被排除出模型;然⽽X可能是⼀
个很好的biomarker,⽆辜出局。
那么,何时⽤FC值呢?FC值⽅法有个特点:FC值越接近1的变量,成为好的biomarker的概率越低。也就是说,噪⾳变量特别多的时候,采⽤FC值去排除噪⾳变量的效率很⾼。亦即信噪⽐很低时,FC很管⽤。所以在特征特别多的任务中,初筛变量的第⼀步会⽤FC爽⼀爽。但若建模效果不理想,有可能是初筛时排除了有效的特征,这个时候应该回过头来放宽界值甚⾄去除FC标准。
P值是否也需要注意?相对来说,初筛时p值还算靠谱,宽松时可以不进⾏FDR校正,卡在0.05也还OK。刚刚说的FC值法,实际上触发了假阴性的情况,那么p值其实也有类似情况,当选⽤⾮参数检验时,假阴性率会上升。因此慎⽤⾮参数检验⽅法。同样的道理,若初筛后发现建模效果不理想,可以回过头来放宽界值甚⾄选择统计学检验效能更强的⽅法。
多元统计分析
多变量分析之前,需要对变量进⾏标准化(包括中⼼化和尺度化),尺度化的⽅法主要有以下两种。
Auto scaling:⾃动标度化,分为两步:第⼀步为mean-centering中⼼化,第⼆步为UV scaling(Unit Variance scaling),也就是中⼼化后除以该变量的标准差。Auto scaling 也叫Z-score标准化。
Pareto scaling:柏拉图标准化,⼀般写成Par标准化,与UV scaling的不同之处就是对标准差开根号。
⼀般⽤的较多的是Z-score标准化/Auto scaling。
多元统计分析⾮常重要的⼀步是降维。提到降维,很多⼈的反应便是PCA、LASSO、PLS等⽅法。代谢组学中较多使⽤PLS(偏最⼩⼆乘法),因为信号峰之间的相关性较⾼,LASSO降维不仅会将意义较⼩的变量剔除,也会将相关性较⾼(共线性)的变量中剔除多余的。⼀般代谢组学需要探索代谢物之间的互作与研究结局变量的关系,因此PLS更受欢迎。当然,根据研究⽬的的不同(⽐如单纯为了显著价值的互相独⽴的biomarker),也可以使⽤LASSO等⽅法降维。⽽PCA作为⽆监督的⽅法,在代谢组学中主要仅⽤于质控或寻天然的分组。
此处对PLS进⾏简略介绍(详细介绍可参考博客:)。
PLS作为监督学习的⼀种⽅法,不仅对⾃变量x成分进⾏了映射处理,还对结局变量y进⾏逐步残差拟合。除了PLS,还有其加强算法——OPLS,区分能⼒略微更强,可视化效果略微更好。
PLS/OPLS的得分图类似于PCA的得分图,但是PLS/OPLS还可对每个变量(特征)求⼀个VIP值
(Variable Importance in Projection),反应的是每个变量对模型解释的贡献度,VIP越⼤的变量越重要。
除了VIP值,还可以求最终模型中各变量的系数(⼜称PLS-BETA值)和Corr.Coeffs,以及⼆者对应的p值。
可综合VIP值和Corr.Coeffs值筛选变量(V-Plot),或者综合PLS-BETA值和Corr.Coeffs值筛选变量(S-Plot)。
评价(O)PLS-DA 模型拟合效果使⽤R2X、R2Y和Q2Y这三个指标,这些指标越接近1 表⽰PLS-DA 模型拟合数据效果越好。其中,R2X 和R2Y 分别表⽰PLSDA分类模型所能够解释X 和Y 矩阵信息的百分⽐,Q2Y 则为通过交叉验证计算得出,⽤以评价PLS-DA模型的预测能⼒,Q2Y 越⼤代表模型预测效果较好。
PCA分析中R2X >0.4为好;PLS-DA 和 OPLS-DA分析中,R2X 这个参数不重要了,主要是R2Y 和Q2,这两个值>0.5 为好,越接近1越好。OPLS-DA中Q2(cum),是指建模后模型的预测能⼒,以⼤于0.5为宜,越接近1越好,cum 表⽰累积的意思。
对于PLS/OPLS,我们常常需进⾏ permutation test(置换检验)(勿与交叉检验混淆),以确定模型是否过拟合。⼀般需检验模型的
Q2值和R2值。对于Q2,要求置换检验结果的在y轴上的截距不超过0.05,⽅可认为模型没有过拟合。置换检验的基本原理:将真实分类结果(标签)屏蔽,重新随机赋予分类结果(标签),再进⾏建模。如果真实建模的Q2和随机标签建模的Q2接近,则说明模型过拟合。具体原理请参考其他资料。置
换检验可视化的图,横坐标表⽰的是置换后的标签与真实标签的相关性(有多少⽐例的样本未打乱重新赋予标签)。
进⾏降维后,除了使⽤PLS/OPLS多元分析⽅法可以继续进⾏多元统计建模外,还可使⽤SVM、RandomFores、ANN等⽅法进⾏建模。另外,最终最好使⽤Logistic回归建⽴具备临床(或⽣物学)解释意义的模型。
另外,瑞典查尔默斯理⼯⼤学的施琳⼤神前不久发表在bioinformatics上的⼀篇⽂章,介绍了⼀个⽤于多元统计分析的⽅法,并开发了⼀个R包。
物质鉴定
对于质谱仪测定的代谢物,有公共数据库可以根据m/z等信息进⾏鉴定,如HMDB,MassBank,METLIN等。
有时候需要先对两批数据中取交集,这个时候可以根据m/z值和RT值进⾏确定,⽐如同时满⾜容差条件:m/z在5ppm内,RT在50内。之后还可根据⼆级谱图(MS-MS)的信息,进⼀步确定。
关于ppm,举个栗⼦(摘⾃:):
C6H12O6理论精确分⼦量为180.0634
如果测得分⼦量为180.0631,则误差为
180.0631-180.0634=-0.0003Da=-0.3mDa
(180.0631-180.0634)/180.0634=1.67e-6 即 1.67ppm
⽹络分析
包括富集分析(Enrichment analysis)和通路分析(Pathway analysis)。通路分析中添加了通路的拓扑分析,输出通路在整体⽹络中的重要性(impact),重要性越⼤,可能意味着在整个通路中的地位越核⼼,那么从impact值也可以反映出来。
致谢
感谢申⼩涛⼤神、施琳⼤神和陈显扬⼤神等前辈曾给予指点!
参考资料
相应词条
相应词条
及该博⽂的参考资料

本文发布于:2024-09-24 18:21:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/394921.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:代谢   组学   变量   信号   代谢物
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议