基于eXpress对转录组和基因组进行量化

General workflow

eXpress是一个通用的丰度估计工具,它可以应用于任意靶序列和高通量测序reads。 靶序列可以是任意基因组区域,例如RNA-seq中的转录本。因此,一般的流程应该是这样的:

1. 选择你要分析的数据

2. 产生靶序列的集合

3.将目的片段比对到靶序列上

4. eXpress需要的参数包括目的片段,然后进行靶序列的丰度估计

5. 额外的下游分析

图示:

这个教程涉及如下工具:Gene Expression Omnibus (GEO)- 取得数据The Short Read Archive (SRA)-取得数据- 从压缩的测序数据中抽取FASTQ文件例子: 没有参考基因组序列也没有注释信息的情况

有的时候,你将研究没有参考基因组序列的物种,或者参考序列质量较差。这通常意味着你也没有转录组序列。下面要进行的步骤经常是从头组装转录组。接下来,我们将使用Bowtie2进行片段比对。

取得数据为了取得一个数据,我们将使用GEO访问号。如果你没有一个GEO访问号,而是仅仅想要浏览数据,你可以跟随这个tutorial。为了演示的目的,我们将要研究牦牛转录组。

为什么选择牦牛呢?因为牦牛是天生没有气味的。事实上,是牦牛毛无味。为了下载数据,就直接去GEO吧,然后在"GEO accession"输入访问号“GSE33300”,点击“GO”。

这将将你带到主实验页面。可以看到有6个来自不同器官的不同的样品。我们先看一下"GSM823609 brain"。点击这个实验,并点击ftp链接下载SRA文件。点击目录可以看到SRR361433.sra. 这是一个paired end的RNA-seq数据,我们将使用如下命令抽取数据

[text]view plain

$fastq-dump–split-3SRR361433.sra

结果产生两个文件,SRR361433_1.fastq和SRR361433_2.fastq. 注意到使用–split-3. 只有当你下载的数据是paired end的情况下才需要用这个参数.通过从头组装进行注释使用如下参数运行Trinity:

[text]view plain

$Trinity.pl–seqTypefq–JM200G–leftSRR361433_1.fastq–rightSRR361433_2.fastq–CPU2

在几个小时内,我们将在trinity_out_dir中得到几个文件, 包括注释文件Trinity.fasta.这将是新的注释文件. 从这里开始,如果你有参考基因组的情况下,分析将大致相同(下面的例子也是一样的).从这里,可以下载组装文件.比对建立索引在你进行任何比对之前,你首先需要建立靶序列的一系列索引文件.

[text]view plain

$cdtrinity_out_dir$bowtie2-build–offrate1Trinity.fastaTrinity

这将在trinity_out_dir中建立索引,base name是Trinity,bowtie2需要的参数只需要写到base name结束即可,不需要后面的部分. 这个索引将允许bowtie2快速将reads比对到靶序列。Offrate 1可以加快比对速度,代价是需要的硬盘空间增大.进行比对使用一行命令即可运行bowtie2,

[text]view plain

$bowtie2-a-X800-p4-xtrinity_out_dir/Trinity\-1SRR361433_1.fastq-2SRR361433_2.fastq|samtoolsview-Sb->hits.bam

几十分钟到几小时后(取决于你使用多少CPUs), 你应该看到如下控制台信息:

[text]view plain

[samopen]SAMheaderispresent:165714sequences.32959992reads;ofthese:32959992(100.00%)werepaired;ofthese:4385612(13.31%)alignedconcordantly0times22571641(68.48%)alignedconcordantlyexactly1time6002739(18.21%)alignedconcordantly>1times—-4385612pairsalignedconcordantly0times;ofthese:352368(8.03%)aligneddiscordantly1time—-4033244pairsaligned0timesconcordantlyordiscordantly;ofthese:8066488matesmakeupthepairs;ofthese:5942057(73.66%)aligned0times1356189(16.81%)alignedexactly1time768242(9.52%)aligned>1times90.99%overallalignmentrate

运行eXpress我们现在运行eXpress. 简单的说,你应该准备下面的数据:multi-FASTA format的靶参考序列(注释)比对得到的BAM格式的文件运行eXpress非常简单,

于是,月醉了,夜醉了,我也醉了。

基于eXpress对转录组和基因组进行量化

相关文章:

你感兴趣的文章:

标签云: