如何从ENCODE数据库中快速获取组蛋⽩chip-Seq的可视化数据 八佰拜在我们平时的科研中,常常需要知道⾃⼰研究的基因组区段是否位于⼀些调控元件上,如enhancer,promoter或者特定蛋⽩结合位点(如TFBS)等。ENCODE (Encyclopedia of DNA Elements) 作为DNA调控元件百科全书整合了14,046个来⾃不同组织或细胞系的各类实验数据,并能通过UCSC genome browser快速可视化检索结果。 下⾯的时间⾥,编者就以检索HEK293细胞中H3K27ac这个组蛋⽩为例,为⼤家介绍ENCODE数据可视化过程。
vi40精英版如图1,该页⾯介绍了ENCODE project所包含的各种数据类型以及数据来源,想要访问其中的数据,直接点击“Get Started” 即可。
图1,ENCODE data portal主页
ENCODE data portal把数据按照矩阵格式存储,⽅便⽤户直接选取感兴趣数据。如图2,横排显⽰的是各种实验类型,竖排显⽰的是样本素材信息。我们直接点击横排的Chip-Seq以及竖排的Homo sapiens,然后选取HEK293(红⾊⽅框标注)。
坏小孩定理
prca
黑龙江生态工程职业学院图2,数据筛选
第三步:选择Chip-Seq⽬标蛋⽩类型
在第⼆步中,我们只是筛选到细胞系,这⼀步中,我们选择⽬标蛋⽩类型。由于组蛋⽩标记往往可以指⽰enhancer,所以这⾥我们以组蛋⽩为例进⾏检索(如图3)
图3,选择组蛋⽩
在完成以上筛选后,我们可以看到只有6个实验数据保留。这6个数据就是符合我们要求的数据,直接点击右上
⽅“Visualize”就可以链接到UCSC genome browser。
第四步:控制UCSC显⽰条⽬
链接到UCSC后,我们发现显⽰效果并不理想。是因为UCSC会⾃动加上⼀些我们不需要的条⽬或者没有按照我们喜欢的⽅式显⽰条⽬。这就需要我们对有些条⽬进⾏处理。如图4,右击条⽬最左边竖线可以选择条⽬显⽰类型,如不需要,可以选择“hide track set”;
图4;点击红⾊框控制条⽬显⽰状态
直接左键点击该竖线可以对该条⽬的显⽰内容做进⼀步的筛选,如图5,我们选取H3K27ac和H3K4m3作为靶蛋⽩,只保留跟control相⽐有差异的peak,提交即可。
图5,UCSC条⽬进⼀步筛选
第五步,get结果邪玉
⼀旦你完成了所有的筛选,UCSC会记住这些筛选条件,这个时候你只需要不断地在基因组坐标栏输⼊感兴趣的基因组区段即可显⽰筛选到的内容了,如图6。
图6,最后结果展⽰
图6,最后结果展⽰
写在后⾯:
ENCODE是个⾮常庞⼤的数据库,涵盖了多种细胞及物种的数据,值得我们深⼊研究。⼩伙伴们赶快get起来这个庞⼤的数据资源吧~
转⾃⽣信草堂
⽣信草堂
浙⼤⽣信博⼠团队倾⼒打造的⼀个科研⼈员学习交流的公众平台。我们致⼒于科研社区服务,分享最前沿的科技进展,提供⽣信分析⽅法,解读经典分析案例,公众数据库的挖掘和临床数据统计分析。在此我们欢迎各位的加⼊!