一种批量分析多物种化学计量基因组的方法



1.本发明属于生物技术领域,尤其是涉及一种批量分析多物种化学计量基因组的方法。


背景技术:



2.随着人类基因组计划的完成,测序方法不断更新和优化,各种物种的基因组数据不断积累。对基因组数据的分析和应用促进了基因组学领域的研究工作不断细化和发展,该领域不断发展壮大。其中,化学计量基因组学是一个新兴的研究领域,研究基因组数据中生物大分子的元素使用偏好。能够计算基因组或dna序列的化学计量特征,包括元素(碳、氢、氧、氮、磷)和单体(核苷酸)的组成和含量。
3.目前,化学计量基因组的计算方法涉及复杂的计算、统计学理论和分析方法,其可视化程度较低,且只对单个基因组进行分析。但测序大数据是海量的,迫切需要对多个物种基因组数据集进行计算、比较分析。


技术实现要素:



4.本发明的目的是提供一种批量分析多物种化学计量基因组的方法。
5.本发明所提供的批量分析多物种化学计量基因组的方法,具体可包括如下步骤:
6.(1)将待测的第一个物种基因组序列文件记为基因组数据a1(fasta或fastq格式),第二个物种基因组序列或多个物种基因组文件记为基因组数据a2(fasta或fastq格式)......将多个物种(≤8)的数据a1、a2、a3等,放入文件夹in,并新建文件夹out。
7.(2)对文件夹in中的基因组数据进行碱基和元素含量分析,运行perl脚本1命令“perl coun4dna.pl in out”,得到out文件夹中的基因组碱基和元素的含量数据b(output1.xls)和基因组元素的平均含量数据c(output2.xls)文件。
8.进一步地,本发明中所述perl脚本1具体为:count4dna.p1
9.10.11.12.13.[0014][0015]
(3)将基因组碱基和元素的含量数据b进行可视化展示,运行r脚本1命令(在unix/linux/macosx系统运行:“rscript genomics-小提琴图.r”;或在windows的r或rstudio直接运行:genomics-小提琴图.r),得到像小提琴的碱基和元素含量分布比较图。
[0016]
进一步地,本发明中所述r脚本1具体为:genomics-小提琴图.r
[0017]
[0018][0019][0020]
(4)将基因组元素的平均含量数据c进行可视化展示,运行r脚本2命令(在unix/
linux/macosx系统运行:rscript genomics-南丁格尔玫瑰图-柱状图.r;或在windows的r或rstudio直接运行:genomics-南丁格尔玫瑰图-柱状图.r),得到元素平均含量可视化-南丁格尔玫瑰图和柱状图。
[0021]
进一步地,本发明中所述r脚本2具体为:genomics-南丁格尔玫瑰图-柱状图.r
[0022]
[0023][0024]
在本发明中,步骤(1)中的所述待测物种为任意的物种,基因组序列可以通过从已公开的基因组数据库中下载或通过全基因组测序得到。
[0025]
本发明具有以下优点:一是,能够快速地计算多个物种基因组化学计量分析的结果,各参数较为全面和准确,效果好,速度快;二是比较系统,效率高,自动化,能够实验多个物种基因组之间的比较分析,批量处理数据;三是本发明将perl语言脚本编程与几个r语言脚本编程完美流畅的结合起来,实现了软件之间的良好衔接和数据的可视化。
附图说明
[0026]
图1为本发明批量分析化学计量基因组的流程图;
[0027]
图2为步骤(3)中r脚本1对基因组碱基和元素的含量数据b的可视化图示,小提琴的碱基和元素含量分布比较图;
[0028]
图3为步骤(4)中r脚本2对基因组元素的平均含量数据c的可视化图示,元素平均含量可视化-南丁格尔玫瑰图和柱状图。
具体实施方式
[0029]
下面将通过以下基因组数据,包括:黑腹果蝇(drosophila melanogaster),嗜盐杆菌(halobacterium),枯草芽孢杆菌(bacillus subtilis),大肠杆菌(escherichia coli),酿酒酵母(saccharomyces cerevisiae),拟南芥(arabidopsis thaliana),新冠病毒(2019 ncov)和人类(homo sapiens)的基因组作为本发明的例子,更详细地说明本发明。其数据下载于ncbi数据库(https://www.ncbi.nlm.nih.gov)。
[0030]
本发明所提供的批量分析化学计量基因组的流程图见图1,具体包括如下步骤:
[0031]
(1)将待测的第一个物种基因组序列文件记为基因组数据a1(fasta或fastq格式),第二个物种基因组序列或多个物种基因组文件记为基因组数据a2(fasta或fastq格式)......将多个物种(≤8)的数据a1、a2、a3等,放入文件夹in,并新建文件夹out。
[0032]
(2)在linux系统下操作,安装perl软件。首先,对文件夹in中的基因组数据进行碱基和元素含量分析,运行perl脚本1命令“perl coun4dna.pl in out”。此步骤将得到out文件夹中的2个文件,分别为基因组碱基和元素的含量数据b(output1.xls)和基因组元素的平均含量数据c(output2.xls)文件。
[0033]
进一步地,本发明中所述perl脚本1具体为:count4dna.p1
[0034]
[0035]
[0036]
[0037]
[0038]
[0039][0040]
进一步地,本发明中所述b(output1.xls)文件格式具体为:
[0041][0042]
进一步地,本发明中所述c(output2.xls)文件格式具体为:
[0043][0044]
(3)将基因组碱基和元素的含量数据b进行可视化展示,运行r脚本1命令(在unix/linux/macosx系统运行:“rscript genomics-小提琴图.r”;或在windows的r或rstudio直接运行:genomics-小提琴图.r),得到基因组碱基和元素含量分布比较图-如图2所示。图2展示了黑腹果蝇(drosophila melanogaster),嗜盐杆菌(halobacterium),枯草芽孢杆菌(bacillus subtilis),大肠杆菌(escherichia coli),酿酒酵母(saccharomyces cerevisiae),拟南芥(arabidopsis thaliana),新冠病毒(2019 ncov)和人类(homo sapiens)的基因组的碱基(a、g、c、t)和元素(c、h、o、n)含量分布。
[0045]
进一步地,本发明中所述r脚本1具体为:genomics-小提琴图.r
[0046]
[0047]
[0048][0049]
(4)将碱基和元素的平均含量数据e进行可视化展示,运行r脚本2命令(在unix/linux/macosx系统运行:“rscriipt genomics-南丁格尔玫瑰图-柱状图.r”;或在windows的r或rstudio直接运行:genomics-南丁格尔玫瑰图-柱状图.r),得到元素平均含量可视化-南丁格尔玫瑰图和柱状图,如图3所示。图3展示了黑腹果蝇(drosophila melanogaster),嗜盐杆菌(halobacterium),枯草芽孢杆菌(bacillus subtilis),大肠杆菌(escherichia coli),酿酒酵母(saccharomyces cerevisiae),拟南芥(arabidopsis thaliana)和人类(homo sapiens)的基因组的元素(c、h、o、n)平均含量分布.
[0050]
进一步地,本发明中所述r脚本2具体为:genomics-南丁格尔玫瑰图-柱状图.r
[0051]
[0052][0053]
本发明的发明人以下列基因组为例,包括:黑腹果蝇(drosophila melanogaster),嗜盐杆菌(halobacterium),枯草芽孢杆菌(bacillus subtilis),大肠杆菌(escherichia coli),酿酒酵母(saccharomyces cerevisiae),拟南芥(arabidopsis thaliana),新冠病毒(2019 ncov),人类(homo sapiens)的基因组。其数据下载于ncbi数据库(https://www.ncbi.nlm.nih.gov)。通过联合perl脚本和r脚本,实现了批量分析化学计量基因组的数据处理和图形可视化。证实了以上本发明方法的批量性,准确性,高效性,简便性,新颖性。
[0054]
表1说明书中的常用软件
[0055]
软件名称运行环境网址perlunix/linux/windows/macosxthe perl programming language-www.perl.orgrunix/linux/windows/macosxr:the r project for statistical computing(r-project.org)

技术特征:


1.一种批量分析多物种化学计量基因组的方法,包括如下流程步骤:(1)将待测的第一个物种基因组序列文件记为基因组数据a1(fasta或fastq格式),第二个物种基因组序列或多个物种基因组文件记为基因组数据a2(fasta或fastq格式)......将多个物种(≤8)的数据a1、a2、a3等,放入文件夹in,并新建文件夹out。(2)对文件夹in中的基因组数据进行碱基和元素含量分析,运行perl脚本1命令“perl coun4dna.pl in out”,得到out文件夹中的基因组碱基和元素的含量数据b(output1.xls)和基因组元素的平均含量数据c(output2.xls)文件。(3)将基因组碱基和元素的含量数据b进行可视化展示,运行r脚本1命令(在unix/linux/macosx系统运行:“rscript genomics-小提琴图.r”;或在windows的r或rstudio直接运行:genomics-小提琴图.r),得到像小提琴的碱基和元素含量分布比较图。(4)将基因组元素的平均含量数据c进行可视化展示,运行r脚本2命令(在unix/linux/macosx系统运行:rscript genomics-南丁格尔玫瑰图-柱状图.r;或在windows的r或rstudio直接运行:genomics-南丁格尔玫瑰图-柱状图.r),得到元素平均含量可视化-南丁格尔玫瑰图和柱状图。2.根据权利要求1所述的方法,其特征在于:步骤(1)中在本发明中,所述待测物种可以为任意的物种。3.根据权利要求1所述的方法,其特征在于:步骤(2)中所述perl脚本1具体为:count4dna.pl
。4.根据权利要求1所述的方法,其特征在于:步骤(3)中所述r脚本1具体为:genomics-小提琴图.r
。5.根据权利要求1所述的方法,其特征在于:步骤(4)中所述r脚本2具体为:genomics-南丁格尔玫瑰图-柱状图.r


技术总结


本发明公开了一种批量分析多物种化学计量基因组的方法。本发明所提供的批量分析多物种化学计量基因组的方法综合运用了Perl脚本语言编程,R脚本语言编程和R语言可视化,基于多个物种基因组数据,批量计算多个基因组的碱基(A、T、C、G)和元素(碳、氢、氧、氮)含量,同时计算每个基因组中各元素平均含量以及可视化展示。实现了批量分析化学计量基因组的数据处理和图形可视化。实验证明,本发明所提供的批量分析多物种化学计量基因组的方法比较系统,效果好,速度快,易实现自动化和流程化。易实现自动化和流程化。易实现自动化和流程化。


技术研发人员:

张玉娟 朱梦黎

受保护的技术使用者:

重庆师范大学

技术研发日:

2021.08.01

技术公布日:

2023/2/6

本文发布于:2024-09-22 09:49:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/63635.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因组   南丁格尔   物种   碱基
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议