基于生物信息学方法的儿童急性不明确谱系白血病的潜在靶基因筛选...

Vol.41No.3Mar.2021
上海交通大学学报(医学版)
JOURNAL OF SHANGHAI JIAO TONG UNIVERSITY (MEDICAL SCIENCE)
基于生物信息学方法的儿童急性不明确谱系白血病的潜在靶基因筛选
吴任燕1,郭晓琳1,洪登礼1,陈
磊2
1.上海交通大学基础医学院病理生理学系,细胞分化与凋亡教育部重点实验室,上海200025;
2.上海交通大学医学院上海市免疫学研究所,
病房呼叫系统设计
上海200025
[摘要]目的·利用生物信息学分析方法探索儿童急性不明确谱系白血病(acute leukemia of ambiguous lineage ,ALAL )致病通路、
生存相关的独特基因表达谱及枢纽基因。方法·从TARGET (Therapeutically Applicable Research to Generate Effective Treatment )和GEO (Gene Expression Omnibus )数据库下载患者和健康人的表达数据,利用limma 、clusterProfiler 、survival 等生信工具对基因表达量进行差异分析、功能分析及生存分析,最后通过构建蛋白-蛋白相互作用网络筛选得到与ALAL 发病及生存相关的枢纽基因。
结果·将ALAL 组和健康对照组进行比较,共筛选得到4053个显著差异基因(均P <0.05),其中表达上调基因1844个,表达下调基
因2209个。利用GO (Gene Ontology )和KEGG (Kyoto Encyclopedia of Genes and Genomes )富集分析发现,上调基因参与细胞周期及剪接,下调基因参与免疫调节。通过与其他类型白血病的表达谱进行比较,发现ALAL 中生存相关基因呈现独特的表达模式。蛋白质-蛋白质相互作网络显示生存基因网络的核心基因为CXCL8(C-X-C motif chemokine ligand 8)和LMNA (lamin A/C )。结论·ALAL 的发病机制与细胞周期以及免疫相关,ALAL 预后不良可能与其生存基因的独特表达谱有关;CXCL8和LMNA 在ALAL 中发挥重要作用,可能作为潜在的靶点;这些结果对ALAL 的机制研究和临床具有提示作用。
[关键词]生物信息学;数据挖掘;白血病;生存分析[DOI ]10.3969/j.issn.1674-8115.2021.03.006
[中图分类号]R733.73
[文献标志码]A
Identification of potential therapeutic target genes in pediatric acute leukemia of ambiguous lineage based on bioinformatics analysis
WU Ren -yan 1,GUO Xiao -lin 1,HONG Deng -li 1,CHEN Lei 2
1.Key Library of Cell Differentiation and Apoptosis of Ministry of Education,Department of Pathophysiology,Shanghai Jiao Tong University College of Basic Medical Sciences,Shanghai 200025,China;
2.Shanghai Institute of Immunology,Shanghai Jiao Tong University School of Medicine,Shanghai 200025,China
[Abstract ]Objective ·To explore the pathogenetic pathways,unique gene expression profiles related to survival and hub genes in children with acute leukemia of ambiguous lineage (ALAL)by bioinformatics analysis.Methods ·From TARGET (Therapeutically Applicable Research to Generate Effective Treatment)and GEO (Gene Expression Omnibus),the expression data of patients and healt
hy individuals were downloaded.The differential analysis of gene expression,as well as its function and survival analysis,were performed by bioinformatics tools,such as limma,clusterProfiler and survival.Finally,the hub genes of ALAL were screened by constructing protein-protein interaction network (PPI).Results ·Four thousand and fifty-three significant differentially expressed genes were identified in the differential analysis between ALAL group and control group (all P <0.05),of which 1844were up-regulated genes and 2209were down-regulated genes.GO (Gene Ontology)and KEGG (Kyoto Encyclopedia of Genes and Genomes)enrichment analysis indicated that up-regulated genes were related to cell cycle and splicing,while the down-regulated genes were associated with immunity.By comparing the expression profiles with those of other types of leukemia,a unique expression pattern of survival-related genes in ALAL were found.Finally,PPI showed that CXCL8(C-X-C motif chemokine ligand 8)and LMNA (lamin A/C)were the hub genes of the survival gene network.Conclusion ·The pathogenesis of ALAL is related to cell cycle and immunity.The poor prognosis of ALAL may be related to the unique expression profile of survival-related genes.CXCL8and LMNA play an important role in ALAL,and may act as potential therapeutic targets.These results have implications for the mechanism research and clinical treatment of ALAL.[Key words ]bioinformatics;data mining;leukemia;survival analysis
急性不明确谱系白血病(acute leukemia of ambiguous lineage ,ALAL )是一种罕见的白血病类型,不能清楚地分为淋巴系和髓系,其发病率不到5%。根据
2016年世界卫生组织(World Health Organization ,WHO )分类标准[1],ALAL 可分为多个亚型,包括急性未分化白血病(acute undifferentiated leukemia ,AUL )、
[作者简介]吴任燕(1995—),女,硕士生;:****************** 。[通信作者]陈磊,:***************** 。
[Corresponding Author ]CHEN Lei,E-mail:*****************.
论著·基础研究
320
吴任燕,等基于生物信息学方法的儿童急性不明确谱系白血病的潜在靶基因筛选
混合表型急性白血病(mixed phenotype acute leukemia,MPAL)等。尽管大多数白血病已经得到了很好的研究和,但由于ALAL的罕见性,目前普遍采用的是与急性髓系白血病(acute myeloid leukemia,AML)和急性淋巴细胞白血病(acute lymphoblastic leukemia,ALL)相同的手段,
无法对ALAL进行针对性,使得ALAL相较于AML/ALL效果较差[2-3]。因此探究ALAL发生和生存相关的基因和信号通路,有助于对ALAL发病机制的针对性研究,可为ALAL的临床提供参考。
目前已有的研究主要针对ALAL的存活率、免疫分型以及相关microRNA而开展。白血病生存分析[4-5]显示,大多数ALAL患者首选ALL的方案;免疫表型分析[6]显示,早期T细胞前体淋巴细胞白血病和T/M-MPAL在免疫表型上相似,NOTCH
1
可作为T细胞混合表型白血病的潜在靶点;通过高通量测序,ALAL可以根据具有谱系特性的microRNA表达特性被归类为AML或ALL[7]。这些研究大多探讨了ALAL与其他白血病的谱系关系,但有关ALAL独特的基因表达谱、生存基因以及相关通路尚不清楚。高通量测序技术自问世以来,极大地推动了对于疾病标志物的研究进展。通过对公共数据库数据的生物信息学分析,我们可以对疾病的发病机制及靶标进行预测,为疾病的机制研究和药物研发提供思路。
本研究利用小儿ALAL患者和健康对照组的表达谱数据(RNA-seq),对ALAL中的差异表达基因(differential expressed genes,DEGs)进行筛选,利用基因本体数据库(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析,探
讨ALAL发病的生物学过程和相关信号通路;结合生存分析与蛋白互作网络,我们发现了在ALAL中独特的生存基因表达谱,鉴定了与ALAL生存相关的枢纽基因。本研究可为ALAL的临床诊断和提供新的思路。
1材料与方法
1.1RNA-seq数据获得
基因表达数据来自于儿童ALAL患者和儿童健康对照者的血液或骨髓的RNA-seq数据。患者的基因表达数据是从UCSC xena数据门户GDC下载TARGET-ALL-P3数据集,该数据集由有效应用研究(Therapeutically Applicable Research to Generate Effective Treatments,TARGET,https://v/programs/TARGET)计划生成。健康对照者的基因表达数据(GSE111459)从基
因表达汇编数据库(Gene Expression Omnibus,GEO)下载。对异常样本进行过滤后,得到21个健康儿童样本和69个初诊儿童ALAL样本分别作为健康对照组和ALAL 组。纳入诊断样本和复发样本的数据用于不同类型白血病基因表达量比较,以TARGET-ALL-P2的532个ALL样本为ALL组,以TARGET-AML的187个AML样本为AML组,以TARGET-ALL-P3中的136个ALAL患者样本为ALAL完全组。所有患者的数据均可从癌症基因组图谱(The Cancer Genome Atlas,TCGA)获得。
1.2前期处理及DEGs筛选
所有样本的表达量数据均被标准化为每百万片段计数(count per million,CPM)值以进行相关性分析和去除低测序质量样本。低表达基因(在所有样本中均CPM<1.5)和离基因(<Q1-1.5×IQR或>Q3+1.5×IQR)被移除。利用Pearson相关分析方法对样本表达谱相关性进行分析。R 语言limma软件包[8]用于鉴别ALAL标本与健康对照组之间的差异表达基因。采用Benjamini和Hochberg修正法对多次试验进行修正,得到修正后的P值(adjusted P-value)。为消除假阳性结果,DEGs的筛选标准为|log
2
Fold
Change|(|log
2
FC|)>2且修正后的P<0.001。
1.3DEGs的功能分析
上海南市区
为验证数据结果的可靠性,利用R语言DOSE软件包[9]进行DEGs的疾病本体论(Disease Ontology,DO)[10]分析。为研究ALAL中的相关通路,使用clusterProfiler[11]的默认参数对上调和下调的DEGs分别进行GO和KEGG富集分析。显著性筛选标准为P<0.05。
1.4生存相关基因鉴定及其与AML/ALL的表达比较
69例ALAL患者中有48个病例有总生存时间记录,并选择用于生存相关基因的鉴定。根据每个基因在所有样本中的平均表达量,48个样本被分为基因的高表达组和低表达组。生存分析采用R语言的survival和survminer软件包进行,Cox回归模型用于鉴定生存相关基因;以P<0.05,在表达下调的基因中相关系数>0或在表达上调的差异基因中相关系数<0,被认为是合理的ALAL生存相关基因。生存分析是针对与正常样本的差异基因进行,所得到的生存相关基因可能与小儿ALAL的致病相关,但这些生存相关基因的具体作用仍有待进一步的机制研究。
1.5蛋白质-蛋白质相互作用网络构建及枢纽基因筛选
将生存相关基因导入GeneMANIA[12]构建蛋白质-蛋
321
2021,41(3)上海交通大学学报(医学版)
白质相互作用网络(protein-protein interaction network,
PPI),该网络中总共包含22个ALAL生存相关基因以及100个与这些基因具有功能或表达相关性的间接相关基因。利用Cytoscape[13]绘制PPI网络图谱,并利用Cytohubba[14]计算网络图中每一个基因的最大体中心度(maximal clique centrality,MCC),得分值最高的前10个基因,被认为是PPI网络中的枢纽基因。
1.6统计学方法
生存相关基因在不同类白血病及正常人中的表达量以x±s表示,采用R语言stats4.0.2软件包对基因表达量进行统计分析,利用Wilcoxon秩和检验对基因表达的相关性进行评估。P<0.05表示差异具有统计学意义。2结果
2.1数据质控
由于测序技术的特性,我们需要对不同来源的测序数据进行质控,以提高最后分析结果的准确性。在去除低质量样本和离基因后,在原始数据中筛选出总共90个样本的19213个基因的表达值进行后续分析,其中包括21个健康对照组和69个儿童ALAL组的样本。标准化前后的表达值如图1A所示。在ALAL组和对照组中的基因表达量显示出较高的内部样本相关性(图1B),证明筛选得到的数据内部表达谱具有均质性,可以用于后续分析。样本编号与原始数据编号的对应关系见附表1
Note:A.Expression values before and after normalization;columns represent sample ID and rows represent gene expression values;the sample ID corresponding to the original material is in supplementary table1.B.Correlation of gene expression profiles in all samples;color scale bar represents the correlation coefficient.
图1样本数据质控
Fig1Quality control of sample data
322
STUDYON
吴任燕,等基于生物信息学方法的儿童急性不明确谱系白血病的潜在靶基因筛选
表1生存相关基因在不同类白血病患者及健康对照者中的表达值(log
2
CPM)
Tab1The log
2
CPM value of survival-related genes in the control and different leukemia
types
CXCL8
SCHIP1
SLC1A2
CYGB
GREM1
PER1 SMARCA5-AS1 LMNA
TMEM52B RNU6-1208P RPL23AP23 PDE6H
CCNL1
LILRA4
BACH2 RHOXF2B
LEF1
SLC7A8
ABCA11P AMIGO3 RPSAP41
ZNF853
LMOD1
BTN1A1
LINC01355 ZNF135
ST6GALNAC4P1 ZNF582-AS1 PABPC1P7 GBP6
GOLGA6L91.356±0.574
0.092±0.138
0.145±0.180
0.269±0.253
0.158±0.269
3.024±0.237
0.591±0.519
2.208±0.444
0.062±0.124
0.643±0.416
0.073±0.120
5.680±0.177
2.196±0.528
5.090±0.433
0.573±0.491
5.597±0.503
1.664±0.440
1.756±0.450
1.116±0.721
单连波
0.495±0.376
2.311±0.355
0.737±0.640
0.781±0.358
3.194±0.326
2.485±0.434
0.780±0.471
1.500±0.319
0.863±0.308
0.573±0.394
2.353±0.300
4.054±1.972
1.606±1.312①⑧⑬
1.525±0.917①⑧⑬
1.566±1.370①⑬
1.154±1.434①⑭
4.868±1.143①⑬
1.522±0.501①⑨⑬
3.760±1.355①⑧⑬
0.760±0.848①⑧⑬
0.581±0.408①⑩⑬
1.987±0.924①⑪⑬
0.678±0.669①⑧⑬
6.811±0.683①⑬
0.743±0.621①⑧⑬
3.240±1.276①⑧⑬
0.075±0.052②⑧⑬
3.692±1.471①⑧⑬
0.729±0.521①⑧⑬
0.698±0.477①⑫⑬
0.364±0.186①⑧⑬
0.188±0.135①⑧⑬
1.074±0.597①⑧⑮
0.378±0.409②⑧⑬
0.349±0.251①⑧⑬
1.946±1.140①⑧⑬
1.566±1.173①⑧⑬
0.397±0.257①⑩⑬
0.723±0.351①⑬
0.503±0.336①⑧⑬
0.347±0.299③⑧⑬
1.310±0.630①⑬
挫折也是一种幸福6.265±1.578
0.912±0.939④
0.459±0.445④
0.946±0.916④
0.579±0.622④
5.807±0.697④
0.331±0.251
4.993±1.025④
1.043±0.734④
0.153±0.187④
0.293±0.277④
0.472±0.538④
6.358±0.964④
0.489±0.526④
2.044±1.017④
0.049±0.172⑤
2.627±1.312④
1.128±0.818④
0.163±0.166④
0.108±0.083④
0.046±0.050④
0.923±0.623④
0.105±0.227④
0.087±0.175④
0.393±0.396④
0.559±0.524④
0.169±0.159④
0.554±0.311④
0.089±0.093④
0.060±0.094④
0.791±0.544④
2.935±1.578
1.175±1.288⑥
1.017±0.810⑥
2.144±2.090⑥
1.046±1.200⑥
5.075±0.985⑥
1.277±0.818⑥
3.225±1.196⑥
0.185±0.274⑥
0.495±0.416⑥
1.700±1.086⑥
0.172±0.225⑥
6.764±0.776⑥
0.603±0.644⑥
4.010±1.469⑥
0.010±0.031⑥
5.798±0.902⑦
0.505±0.506⑥
0.533±0.361⑥
0.262±0.175⑥
0.144±0.151⑥
1.541±0.638⑥
0.294±0.372⑥
0.322±0.418⑥
1.099±0.791⑥
2.008±1.203
0.349±0.279⑥
0.688±0.356⑥压电陶瓷驱动电源
0.338±0.267⑥
0.153±0.188⑥
1.400±0.736⑥
Note:①P=0.000,②P=0.003,③P=0.002,compared with the control;④P=0.000,⑤P=0.004,compared with the control;⑥P=0.000,⑦P=0.017,compared with the control;⑧P=0.000,⑨P=0.050,⑩P=0.009,⑪P=0.002,⑫P=0.001,compared with the ALL;⑬P=0.000,⑭P=0.008,⑮P=0.007,compared with the AML. CXCL8—C-X-C motif chemokine ligand8;SCHIP1—schwannomin interacting protein1;SLC1A2—solute carrier family1member2;CYGB—cytoglobin; GREM1—gremlin1,DAN family BMP antagonist;PER1—period circadian regulator1;SMARCA5-AS1—SMARCA5antisense RNA1;LMNA—lamin A/C; TMEM52B—transmembrane protein52B;RNU6-1208P—RNA,U6small nuclear1208,pseudogene;RPL23AP23—ribosomal protein L23a pseudogene23; PDE6H—phosphodiesterase6H;CCNL1—cyclin L1;LILRA4—leukocyte immunoglobulin like receptor A4;BACH2—BTB domain and CNC homolog2; RHOXF2B—Rhox homeobox family member2B;LEF1—lymphoid enhancer binding factor1;SLC7A8—solute carrier family7member8;ABCA11P—ATP binding cassette subfamily A member11,pseudogene;AMIG
O3—adhesion molecule with Ig like domain3;RPSAP41—ribosomal protein SA pseudogene41; ZNF853—zinc finger protein853;LMOD1—leiomodin1;BTN1A1—butyrophilin subfamily1member A1;LINC01355—long intergenic non-protein coding RNA 1355;ZNF135—zinc finger protein135;ST6GALNAC4P1—ST6N-acetylgalactosaminide alpha-2,6-sialyltransferase4pseudogene1;ZNF582-AS1—ZNF582 divergent transcript;PABPC1P7—poly(A)binding protein cytoplasmic1pseudogene7;GBP6—guanylate binding protein family member6;GOLGA6L9—golgin A6family like9.
2.2DEGs筛选与功能分析
为进一步探究儿童ALAL的异常基因表达谱,利用limma软件包对ALAL组和健康对照组的基因表达谱进行差异分析;选择|log
2
FC|>2、校正后的P<0.001为条件进行基因筛选,去除假阳性基因,共鉴定得到4053个基因,其中上调基因1844个,下调基因2209个。基于所有DEGs的DO分析表明造血系统疾病是最显著富集的疾病(图2A),与我们的数据特征相符,进一步证明我们筛选使用的样本数据和差异分析的合理性。对上调和下调的差异基因分别进行GO和KEGG富集分
323
2021,41(3)
上海交通大学学报(医学版)析,寻与ALAL 发病相关的信号通路,各组显著富集的前10个生物学过程和信号通路如图2B 及图2C 所示。ALAL 组中与免疫相关的生物学进程、造血细胞谱系和
细胞黏附分子相关的信号通路明显下调,而细胞周期、有丝分裂以及剪接相关的生物学进程在ALAL 组中明显富集。
2.3生存相关基因筛选及表达谱的比较
利用ALAL 患者的总体生存期资料,我们从4053个
差异表达基因中鉴定出31个ALAL 生存相关基因。其中13个基因在ALAL 组中表达量增加,与生存呈负相关,被认为是负生存相关基因;18个基因在ALAL 组中表达降低,与生存呈正相关,被认为是正生存相关基因。
此外,为了研究这些基因是特异在ALAL 中表达变化还是白血病的普遍差异基因,我们在ALL 组以及AML 组的表达谱中对这些基因进行了比较分析。结果表明,与ALAL 生存相关的基因,在ALL 组以及AML 组中呈现出同样的差异表达趋势,相对于健康组,在ALAL 完全组中表达上调的基因同样在ALL 组和AML
组中表达上
Note :A.Disease ontology enriched in DEGs;columns presenting gene count.B.Biological progresses enriched in the control and ALAL samples;adaptive immune response
—adaptive immune response based on somatic recombination of immune receptors built from immunoglobulin superfamily domains.C.KEGG pathways enriched in the control and ALAL samples.
snRNP —small nuclear ribonucleoprotein;SL —trans-splicing;Th17—interleukin-17-producing CD4+effector T cell;ECM —extracellular matrix.图2差异基因的功能分析
Fig 2Functional analysis of DEGs
324

本文发布于:2024-09-20 20:17:26,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/570942.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   表达   生存
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议