duplication,复制,转录,翻译的定义是什么?
duplication,复制,转录,翻译的定义是什么?详细介绍
本文目录一览: 复制,转录,翻译的定义是什么?
DNA复制 DNA复制是指DNA双链在细胞分裂以前进行的复制过程,复制的结果是一条双链变成两条一样的双链(如果复制过程正常的话),每条双链都与原来的双链一样。这个过程是通过名为半保留复制的机制来得以顺利完成的。复制可以分为以下几个阶段:
(一)DNA复制的引发
复制的引发(Priming)阶段包括DNA复制起点双链解开,通过转录激活步骤合成RNA分子,RNA引物的合成,DNA聚合酶将第一个脱氧核苷酸加到引物RNA的3'-OH末端复制引发的关键步骤就是前导链DNA的合成,一旦前导链DNA的聚合作用开始,滞后链上的DNA合成也随着开始,在所有前导链开始聚合之前有一必需的步骤就是由RNA聚合酶(不是引物酶)沿滞后链模板转录一短的RNA分子。在有些DNA复制中,(如质粒ColE),该RNA分子经过加式成为DNA复制的引物。但是,在大部分DNA复制中,该RNA分子没有引物作用。它的作用似乎只是分开两条DNA链,暴露出某些特定序列以便引发体与之结合,在前导链模板DNA上开始合成RNA引物,这个过程称为转录激活(transcriptional activation),在前导链的复制引发过程中还需要其他一些蛋白质,如大肠杆菌的dnaA蛋白。这两种蛋白质可以和复制起点处DNA上高度保守的4个9bp长的序列结合,其具体功能尚不清楚。可能是这些蛋白质与DNA复制起点结合后能促进DNA聚合酶Ⅲ复合体的七种蛋白质在复制起点处装配成有功能的全酶。DNA复制开始时,DNA螺旋酶首先在复制起点处将双链DNA解开,通过转录激活合成的RNA分子也起分离两条DNA链的作用,然后单链DNA结合蛋白质结合在被解开的链上。由复制因子X(n蛋白),复制因子Y(n'蛋白),n"蛋白,i蛋白,dnaB蛋白和dnaC蛋白等6种蛋白质组成的引发前体(preprimosome),在单链DNA结合蛋白的作用下与单链DNA结合生成中间物,这是一种前引发过程。引发前体进一步与引物酶(primase)组装成引发体(primosome)。引发体可以在单链DNA上移动,在dnaB亚基的作用下识别DNA复制起点位置。首先在前导链上由引物酶催化合成一段RNA引物,然后,引发体在滞后链上沿5'→3'方向不停的移动(这是一种相对移动,也可能是滞后链模板在移动,见后),在一定距离上反复合成RNA引物供DNA聚合酶Ⅲ合成冈崎片段使用,引发体中许多蛋白因子的功能尚不清楚。但是,这些成份必须协同工作才能使引发体在滞后链上移动,识别合适的引物合成位置,并将核苷酸在引发位置上聚合成RNA引物。由于引发体在滞后链模板上的移动方向与其合成引物的方向相反,所以在滞后链上所合成的RNA引物非常短,一般只有3-5个核苷酸长。而且,在同一种生物体细胞中这些引物都具有相似的序列,表明引物酶要在DNA滞后链模板上比较特定的位置(序列)上才能合成RNA引物。
为什么需要有RNA引物来引发DNA复制呢?这可能尽量减少DNA复制起始处的突变有关。DNA复制开始处的几个核苷酸最容易出现差错,因此,用RNA引物即使出现差错最后也要被DNA聚合酶Ⅰ切除,提高了DNA复制的准确性。RNA引物形成后,由DNA聚合酶Ⅲ催化将第一个脱氧核苷酸按碱基互补原则加在RNA引物3'-OH端而进入DNA链的延伸阶段。
(二)DNA链的延伸
DNA新生链的合成由DNA聚合酶Ⅲ所催化,然而,DNA必须由螺旋酶在复制叉处边移动边解开双链。这样就产生了一种拓扑学上的问题:由于DNA的解链,在DNA双链区势必产生正超螺旋,在环状DNA中更为明显,当达到一定程度后就会造成复制叉难再继续前进,从而终止DNA复制。但是,在细胞内DNA复制不会因出现拓扑学问题而停止。有两种机制可以防止这种现象发生:[1]DNA在生物细胞中本身就是超螺旋,当DNA解链而产生正超螺旋时,可以被原来存在的负超螺旋所中和;[2]DNA拓扑异构酶Ⅰ要以打开一条链,使正超螺旋状态转变成松弛状态,而DNA拓扑异构酶Ⅱ(旋转酶)可以在DNA解链前方不停地继续将负超螺旋引入双链DNA。这两种机制保证了无论是环状DNA还是开环DNA的复制顺利的解链,再由DNA聚合酶Ⅲ合成新的DNA链。前已述及DNA生长链的延伸主要由DNA聚合酶催化,该酶是由7种蛋白质(多肽)组成的聚合体,称为全酶。全酶中所有亚基对完成DNA复制都是必需的。α亚基具有聚合功能和5'→3'外切酶活性,ε亚基具有3'→5'外切酶活性。另外,全酶中还有ATP分子它是DNA聚合酶Ⅲ催化第一个脱氧核糖核苷酸连接在RNA引物上所必需的,其他亚基的功能尚不清楚。
在DNA复制叉处要能由两套DNA聚合酶Ⅲ在同一时间分别进行复制DNA前导链和滞后链。如果滞后链模板环绕DNA聚合酶Ⅲ全酶,并通过DNA聚合酶Ⅲ,然后再折向与未解链的双链DNA在同一方向上,则滞后链的合成可以和前导链的合成在同一方向上进行。
这样,当DNA聚合酶Ⅲ沿着滞后链模板移动时,由特异的引物酶催化合成的RNA引物即可以由DNA聚合酶Ⅲ所延伸。当合成的DNA链到达前一次合成的冈崎片段的位置时,滞后链模板及刚合成的冈崎片断便从DNA聚合酶Ⅲ上释放出来。这时,由于复制叉继续向前运动,便产生了又一段单链的滞后链模板,它重新环绕DNA聚合酶Ⅲ全酶,并通过DNA聚合酶Ⅲ开始合成新的滞后链冈崎片段。通过这样的机制,前导链的合成不会超过滞后链太多(最后只有一个冈崎片段的长度)。而且,这样引发体在DNA链上和DNA聚合酶Ⅲ以同一速度移动。
按上述DNA复制的机制,在复制叉附近,形成了以两套DNA聚合酶Ⅲ全酶分子、引发体和螺旋构成的类似核糖体大小的复合体,称为DNA复制体(replisome)。复制体在DNA前导链模板和滞后链模板上移动时便合成了连续的DNA前导链和由许多冈崎片段组成的滞后链。在DNA合成延伸过程中主要是DNA聚合酶Ⅲ的作用。当冈崎片段形成后,DNA聚合酶Ⅰ通过其5'→3'外切酶活性切除冈崎片段上的RNA引物,同时,利用后一个冈崎片段作为引物由5'→3'合成DNA。最后两个冈崎片段由DNA连接酶将其接起来,形成完整的DNA滞后链。
(三)DNA复制的终止
过去认为,DNA一旦复制开始,就会将该DNA分子全部复制完毕,才终止其DNA复制。但最近的实验表明,在DNA上也存在着复制终止位点,DNA复制将在复制终止位点处终止,并不一定等全部DNA合成完毕。但目前对复制终止位点的结构和功能了解甚少在NDA复制终止阶段令人困惑的一个问题是,线性DNA分子两端是如何完成其复制的?已知DNA复制都要有RNA引物参与。当RNA引物被切除后,中间所遗留的间隙由DNA聚合Ⅰ所填充。但是,在线性分子的两端以5'→3'为模板的滞后链的合成,其末端的RNA引物被切除后是无法被DNA聚合酶所填充的。
在研究T7DNA复制时,这个问题部分地得到了解决。T7DNA两端的DNA序列区有160bp长的序列完全相同。而且,在T7DNA复制时,产生的子代DNA分子不是一个单位T7DNA长度,而是许多单位长度的T7DNA首尾连接在一起。T7DNA两个子代DNA分子都会有一个3'端单链尾巴,两个子代DNA的3'端尾巴以互补结合形成两个单位T7DNA的线性连接。然后由DNA聚合酶Ⅰ填充和DNA连接酶连接后,继续复制便形成四个单位长度的T7DNA分子。这样复制下去,便可形成多个单位长度的T7DNA分子。这样的T7DNA分子可以被特异的内切酶切开,用DNA聚合酶填充与亲代DNA完全一样的双链T7DNA分子。
在研究痘病毒复制时,发现了线性DNA分子完成末端复制的第二种方式。痘病毒DNA在两端都形成发夹环状结构。DNA复制时,在线性分子中间的一个复制起点开始,双向进行,将发夹环状结构变成双链环状DNA。然后,在发夹的中央将不同DNA链切开,使DNA分子变性,双链分开。这样,在每个分子两端形成一个单链尾端要以自我互补,形成完整的发夹结构,与亲代DNA分子一样。在真核生物染色体线性DNA分子复制时,尚不清楚末端的复制过程是怎样进行的。也可能像痘病毒那样形成发夹结构而进行复制。但最近的实验表明,真核生物染色体末端DNA复制是由一种特殊的酶将一个新的末端DNA序列加在刚刚完成复制的DNA末端。这种机制首先在四膜虫中发现。该生物细胞的线性DNA分子末端有30-70拷贝的5'TTGGGG3'序列,该细胞中存在一种酶可以将TTGGGG序列加在事先已存在的单键DNA末端的TTGGGG序列上。这样有较长的末端单链DNA,可以被引物酶重新引发或其他的酶蛋白引发而合成RNA引物,并由DNA聚合酶将其变成双链DNA。这样就可以避免其DNA随着复制的不断进行而逐渐变短。
在环状DNA的复制的末端终止阶段则不存在上述问题。环状DNA复制到最后,由DNA拓扑异构酶Ⅱ切开双链DNA,将两个DNA分子分开成为两个完整的与亲代DNA分子一样的子代DNA。
高中生物范畴下的DNA复制
DNA的复制是一个边解旋边复制的过程。复制开始时,DNA分子首先利用细胞提供的能量,在解旋酶的作用下,把两条螺旋的双链解开,这个过程叫解旋。然后,以解开的每一段母链为模板,以周围环境中的四种脱氧核苷酸为原料,按照碱基配对互补配对原则,在DNA聚合酶的作用下,各自合成与母链互补的一段子链。随着解旋过程的进行,新合成的子链也不断地延伸,同时,每条子链与其母链盘绕成双螺旋结构,从而各形成一个新的DNA分子。这样,复制结束后,一个DNA分子,通过细胞分裂分配到两个子细胞中去!
每两个字都可以引申出一篇文章。。。但是简单的来说。。。
复制--就是DNA双链打开(解旋),各自作为模版,产生另一条互补的DNA新链。最终得到的是两个完全一样的DNA双链(如果无视基因突变等等),为接下来的细胞核分裂作准备。值得一提的是,DNA的复制是半保留的(就像刚刚提到的,因为新的DNA单链是根据旧的DNA单链“复制”出来的,每一个新的双链里面都有一个旧链和一个新链。相关实验--Meselson-Stahl experiment)(顺便提一句,复制是在细胞生命周期的S-phase进行的)。
转录--根据DNA(作为模版链)制造RNA。注意不是所有转录的RNA都会用作制造蛋白质(翻译)。也不是所有的DNA都会被转录。无核细胞例如细菌类细胞的基因大部分都会被转录。但是有核细胞特别像人这种复杂的生物只有不到1.5%会被转录。
翻译--根据mRNA制造多肽链--蛋白质。mRNA上的每三个碱基称为一个密码子。一个密码子会对应一个氨基酸或者一个终止密码子。(详细对应表去google查genetic code就行)。至于为什么一个密码子是3个...因为有20种氨基酸但是只有4种碱基(AUCG)。4的二次方是16,4的三次方是64...所以至少要有3个碱基才能表示那么多的氨基酸。64个密码子里面有3个是终止密码子(UAG,UAA,UGA)。剩余的61种里面有重复。。。至于为什么就不在这里细说了。
1、复制(duplication)是在分子进化过程中产生新的遗传物质的主要机制。它可以定义为遗传物质的任何复制行为。复制的常见来源包括异位重组、逆转录、异倍性、多倍性和滑链错配等。
2、转录(Transcription)是遗传信息从DNA流向RNA的过程。即以双链DNA中的确定的一条链(模板链用于转录,编码链不用于转录)为模板,以A、U、C、G四种核糖核苷酸为原料,在RNA聚合酶催化下合成RNA的过程。
3、翻译是蛋白质生物合成(基因表达中的一部分,基因表达还包括转录)过程中的第二步(转录为第一步),翻译是根据遗传密码的中心法则,将成熟的信使RNA分子(由DNA通过转录而生成)中“碱基的排列顺序”(核苷酸序列)解码,并生成对应的特定氨基酸序列的过程。
但也有许多转录生成的RNA,如转运RNA(tRNA)、核糖体RNA(rRNA)和小核RNA(snRNA)等并不被翻译为氨基酸序列。
转录特点
转录时,细胞通过碱基互补的原则来生成一条带有互补碱基的mRNA,通过它携带密码子到核糖体中可以实现蛋白质的合成。与DNA的复制相比,转录有很多相同或相似之处,亦有其自己的特点。
转录中,一个基因会被读取并复制为mRNA。就是说,以特定的DNA片段作为模板,以DNA依赖的RNA聚合酶作为催化剂,合成前体mRNA。
在体内,转录是基因表达的第一阶段,并且是基因调节的主要阶段。转录可产生DNA复制的引物,在反转录病毒感染中也起到重要作用。
转录仅以DNA的一条链作为模板。被选为模板的单链叫模板链,又称无义链;另一条单链叫非模板链,又称编码链、有义链、信息链。DNA上的转录区域称为转录单位(transcription unit)。
RNA聚合酶合成RNA时不需引物,但无校正功能。
duplication是什么意思
duplication
英[?dju:pl?'ke??n] 美[?dupl??ke??n, ?dju-]
n. 重复; 复制; 复本; 成倍;
[例句]Try to avoid wasteful duplication of effort.
尽量避免无用的重复劳动。
复制转录翻译
duplication n. 复制;副本;成倍; transcribe vt. 转录;抄写; 例句: Record and transcribe minutes of meetings. 记录并转录会议纪要。 We need volunteers to transcribe this manuscript. 我们需要自愿者来抄写这个文稿。 扩展资料 There could be a serious loss of efficiency through unnecessary duplication of resources.
不必要的资源重复会导致严重的效率损耗。
It turns out, though, that there are various degrees of genetic duplication.
然而,事实证明,有不同程度的基因复制。
Little reward accompanies duplication and confirmation of what is already known and believed.
重复和确认人们已经熟知和确信的'事情是没有意义的。
Clerks transcribe everything that is said in court.
书记员把在法庭上所有的话都记录在案。
Have ability to transcribe dictation.
具备抄译口述的能力。
duplication 和replication的区别
duplication 和 replication 的区别在于前者是用原套方式重复制作的物品,质地和外形完整全相同;而后者指的是不同时间里照原物制作的物品,主要是外形相同的复制。
尽管 duplication 和 replication 在很多情况下似乎说的是一件事,而且它们的中文翻译也几乎一样,但从词义的本身来说,这两个词并不是一回事。比如,集邮爱好者会收集邮票的金箔复制品,这种“复制”只能用 replication。因为这种复制品只是外形一样。而在文件处理中将原文拷贝之后,点击“复制”,这类复制就只能用 duplication。在工业生产中,用同一个模具和同一种材料翻制产品,也是 duplication 而不是 replication。而几乎所有的古董仿制品都是 replication,而不能说 duplication。
duplication[英][?dju:pl?'ke??n][美][?dupl??ke??n, ?dju-]
n. 重复; 复制; 复本 ; 成倍;
replication[英][?repl?'ke??n][美][?r?pl??ke??n]
n.复制,折叠; 回答; 反响; [植]反叠;
不一样。
一般replication指DNA的复制,duplication指copy数的增加。
duplication 和replication的区别为:指代不同、用法不同、侧重点不同
一、指代不同
1、duplication:(不必要的)重复。
2、replication:(绘画等的)复制。
二、用法不同
1、duplication:a copy that corresponds to an original exactly与原件完全对应的副本。
2、replication:the act of making copies复制复制品的行为。基本意思是对原物的复制,并力图在形状、外观、特征等方面与原物尽可能相似,可表示“模仿”“仿效”,也可表示“复印”“抄写”。
三、侧重点不同
1、duplication:侧重于指虚拟的东西的复制。
2、replication:侧重于指实际物体的复制。
“复制”的英文是什么?
1、n. duplication ; replication
2、vi. copy
3、vt. duplicate
相关短语
1、复制体 replisome ; Reptison ; CLNE
2、复制滑移 replication slippage ; replication slipping
3、复制娇妻 The Stepford Wives
这组词都有“复印、复制”的意思,其区别是:
1、duplicate 指对原件进行复制或复印,侧重结果与原件一模一样;
2、xerox 指用静电复印或用静电印刷术复制;
3、copy 着重模仿者的有意识行为或模仿得尽可能接近原件。
重复用英语口语怎么表达
【 #英语口语# 导语】英语口语的学习是一个日积月累的过程,每天进步一点点,虽然短时间内效果不显著,但长期坚持下来语言水平却能得到大幅度的提升。一起来看看吧!更多相关讯息请关注 !
【重复用英语口语怎么表达】
1.repeat; duplicate; reduplicate; iterate
2.repetition; reiteration; gemination; rerun; duplication; replication;
例句:
" i am having breakfast , " i repeated .
“我正在吃早饭,”我重复说。
I cannot repeat the words for very shame .
我真不好意思重复这些话。
Say the words over and over to yourself .
把这些话自己重复几遍吧。
He kept harping on the same story .
他颠来倒去地重复着同一个故事。
He repeated her statement word for word .
他一字不差地重复她的话。
These results duplicate those of others .
这些结果都是重复别人得的结果。
He repeated the same story over and over .
他颠来倒去地重复着同一个故事。
He strings his phrases by the dozen .
他老是重复这些陈词滥调。
【重复的英语是什么】
repeat
duplicate
例句
Five rapid high tones, low battery repeated every 20 seconds
5声快速高提示音,每20秒重复一次低电量
repetitive DNA sequences
脱氧核糖核酸重复顺序
Recharging-When you hear five rapid high tones through the headset speaker, repeated at 20-second intervals, the headset battery needs recharging.
重复充电――当从听筒听到5声快速警告音并每间隔20秒重复一次时,表明您的耳机需要再次充电。
Repeat the last action
重复上次操作
Then again;repeatedly;increasingly
一再地;重复地;继续增加地
"Starting from 0 m, place a 50 x 50 cm quadrat at intervals of 10 m along the transect. Within each quadrat frame, do the followings."
由0米开始﹐每隔10米把一个50厘米x50厘米的样方放下一次,每次都重复以下步骤。
To laugh with repeated short,spasmodic sounds.
吃吃地笑以重复间歇的、短的声音笑
They've double-booked me again!
他们把我预订的又重复预订给别人了!
【重复的英语口语表达】
重复的英文:
repeat
duplicate
参考例句:
PRF jitter
脉冲重复频率抖动
Experiences repeat.
经历是会重复的。
Repetition of a libel is an offence.
重复诽谤是一种犯罪行为。
To accustom by frequent repetition or prolonged exposure.
使……习惯由于经常重复或长时间接触而适应。
To be obstinately repetitious,insistent,or tenacious.
坚持不变倔强地重复、坚持或固执
"Two hundred and eighty-seven thousand five hundred francs," repeated he
“二十八万七千五百法郎!”他喃喃地重复了一遍。
The safest method of reporting news was to reproduce the words of authority figures
报道新闻最安全的方法是重复权威人物的言辞。
A manual giving basic instruction in a subject,usually by rote or repetition.
指导手册关于某一命题的基础指导的手册,通常以背诵或重复方式学习使用
Finally summarise and reprise the main points. Finish with a strong and motivational summary.
接着你就可以开始说了,最后再总结和重复你的主要观点,结尾时的总结要富有力量和激发性。
【反复用英语怎么说】
1.(重复) repeatedly; again and again; time and again; over and over again
2.(翻悔) reversal; relapse; changeable; fickle
3.(回到原有状态) reversal; relapse
例句:
I am tired of hunting the same old coon .
反复干同样的事,我真干腻了。
Prices seesaw is according to demand .
物价随需求变化而反复涨跌。
Her mind traveled over recent events .
她反复想着最近发生的事情。
She went over the tangle again and again .
她反复思索着这个难题。
She argued herself into going back .
她经过多次反复考虑后决定返回去了。
Nim weighed something else from time to time .
尼姆反复思忖着另一件事。
Again i sat ruminating what i should do .
我坐着,又反复思考我该怎么办。
Many repetitions can result in collapse .
多次反复就能导致断裂。
I debated it for a while , then decided not to go .
我反复考虑后决定不去。
duplicate名词和duplication
Duplicate指的是复制品,是复制这个动作作用的对象
duplication就指的是复制这个动作或状态.
复制的英语怎么写?
copy
n.复制品;一份;(报刊等的)稿件;准备排印的书面材料
vt.& vi.复制;抄写;容许复制的
vt.复制;模仿;仿造…的样式或图案;抄写
例句:
1、He would allow John slyly to copy his answers to impossibly difficult algebra questions
他会让约翰偷偷抄下自己对一些极难的代数题的解答。
2、Always keep a copy of everything in your own files.
要时刻牢记把所有文件都备份。
3、He copied the chart from a book.
他从一本书上复印了那个图表。
复制 adj.
duplicate
n. reproduction,
duplication
v. reproduce,
replicate, copy, duplicate
复制的英语是:duplicate,reproduce,copy。
一、duplicate
英 [?dju?pl?ke?t , ?dju?pl?k?t],美 [?du?pl?ke?t , ?du?pl?k?t]
v. 复制;复印;复写;(尤指不必要时)重复,再做一次
adj. 完全一样的;复制的;副本的
n. 完全一样的东西;复制品;副本
例句:His task will be to duplicate his success overseas here at home.
翻译:他在海外取得了成功,现在的任务就是要在国内再创辉煌。
二、reproduce
英 [?ri?pr??dju?s],美 [?ri?pr??du?s]
v. 复制;再生产;再制造;使再次发生;再现;繁殖;生育
例句:We are grateful to you for permission to reproduce this article.
翻译:非常感谢您允许我们复印这篇文章。
三、copy
英 [?k?pi],美 [?kɑ?pi]
n. (尤指文件或艺术品的)复印件,副本,复制品;(书、报纸等的)一本,一册,一份;(报刊等的)稿件;(可用于报纸文章或广告的)消息,信息
v. 复制;复印;仿造;临摹;抄写;誊写;模仿;效法;仿效
例句:The reporter apparently obtained a copy of Steve's resignation letter
翻译:那记者显然弄到了史蒂夫辞职信的复印件。
扩展资料:
copy的用法
v. (动词)
1、copy作“抄写”解时,可用作及物动词或不及物动词。用作及物动词时,可接word,letter等名词作宾语,也可接以形容词充当补足语的复合宾语。
2、copy作“模仿,仿效”解时,只用作及物动词,可指模仿人物的行为、思想或穿着打扮等。
生物学中的复制转入翻译逆转入是什么?
这个就是中心法则:DNA的复制,RNA也有复制,DNA转录为RNA,RNA逆转录为DNA,RNA再翻译为蛋白质。记住是转录不是转入
亲,你可以先看一遍书再做题。。。
还有,是转录不是转入,,
这是遗传学里的基本名册
复制duplication
(1)以亲代DNA分子为模板合成一个新的子代DNA分子的过程。合成一个还是两个子代分子,决定于亲代DNA分子是单链还是双链。
转录(不是转入,生物学里没有这个名词)
Transcription
是遗传信息从DNA流向 RNA的过程。即以双链DNA中的一条链为模板,以ATP、CTP、GTP、UTP四种[1]核苷三磷酸为原料,在RNA聚合酶催化下合成RNA的过程。
逆转录也叫做反转录
reverse transcription
:以RNA为模板,依靠逆转录酶的作用,以四种脱氧核苷三磷酸(dNTP)为底物,产生DNA链。常见于逆转录病毒的复制中。
翻译
Translation
译是根据遗传密码的中心法则,将成熟的信使RNA分子(由DNA通过转录而生成)中“碱基的排列顺序”(核苷酸序列)解码,并生成对应的特定氨基酸序列的过程。
用泊松分布解释 NGS 测序数据的 duplication 问题
duplicate 就是一段序列的多个拷贝 ,以 PE 测序为例,用比对软件在将测序 reads 比对到参考基因组之后,如果有两对 reads 的 read1 和 read2 都完全比对到参考基因组上的相同位置,其中一对 reads 会被标记为 duplicate 。我画了一个示意图:
??图中 A 和 B 这两对 reads 就是互相重复了,因为他们序列完全相同,这里说明一下,理论上 A 和 B 片段虽然两端被测出来的序列完全相同,中间没有被测到的碱基我们并不知道其序列是否也一样,可能相同也可能不同,我们不得而知,但是现在我们只拿到了文库片段 A/B 两端的序列,所以只能根据现有的信息判断 A/B 就是重复的,这也是 NGS 测序读长短的弊端之一。片段 C 虽然其中一向序列与 A B 重复,但是 C 片段文库片段比 A/B 长,另外一向的序列与 A/B 不同,因此不算 duplicate。
要弄清楚这个问题,需要从 NGS 数据产出流程说起:
我们首先假设基因组核酸提取是完整的基因组,打断是完全随机的(通常是这样的)。
在第 3 步,PCR 扩增时同一个文库分子会产生多个相同的拷贝,这是 duplicate 的主要来源(PCR duplicate)。
第 4 步,文库中 DNA 片段与 flowcell 上引物结合,来源于同一个 DNA 片段的多个拷贝都结合到 flowcell 上,这样会导致生成多个相同的 cluster,测序时也就有多个相同的序列被测出来,这些相同的序列就是 duplicate。
同在第 4 步,生成 cluster 时候一个 cluster 中的 DNA 链可能搭到旁边另外一个 cluster 生成位点上,又长成一个相同的 cluster ,这也是 duplicate 的一个来源(Hiseq4000之后的 flowcell 会有的 cluster duplicate)。
第 5 步,一个 cluster 测序时的捕获的荧光亮点由于形状奇特,可能被软件当成两个荧光点来处理,这也产生了两条完全相同的 reads。这个过程中可能产生完全相同的 reads。(光学 duplicate)
由此我们知道,PCR duplicate 特点是随机分布于 flowcell 表面,光学 duplicate 特点是它们都来自 flowcell 上位置相邻的 cluster 。cluster 的位置被记录在 Fastq 文件 @seq-id 这一行中。
下图的右下角还有一种 duplicate 来源,sister? 这种一个文库分子的两条互补链同时都与 flowcell 上的引物结合分别形成了各自的 cluster,最后产生的两对 reads 完全反向互补,map 到参考基因组也分别在正负链上的相同位置,有的分析中也算 duplicate,虽然我遇到的这种正负链测序结果通常是不算 duplicate 的。
另外 ,据说 NextSeq 平台上出现过由于荧光信号捕获相机移动位置不够,导致 tile 边缘被重复拍摄,每次采样区域的边缘由于重复采样而出现的 duplicate ,下图中蓝色点代表 duplicate ,在 tile 两侧明显富集。Illumina 公司回应说这没毛病,符合预期……
??我曾经有这样的疑惑,为什么文库构建过程中的 PCR 将每个文库分子都扩增了上千倍,以 PCR 10个循环为例 2^10= 1024 ,但是实际测序数据中 duplication 率并不高(低于20%)。后来我看到 一篇文章 从统计概率的角度详细探讨了一下 duplication 率的影响因素,顺便一提,这个 博主 的故事也很令人佩服。
??PCR 的过程中不同长度的文库分子被扩增的效率不同(GC 太高或 AT 含量太高都会影响扩增效率),PCR 更倾向于扩增短片段的文库分子,这里先不考虑文库片段扩增效率的差异,把问题简化一下,假设所有文库分子扩增效率都相同。PCR duplicate 的主要来源是同一个文库分子的不同拷贝都在 flowcell 上生成了可以被测序的 cluster ,导致同一个分子的序列被测序仪读取多次。那么为何在每个分子都有上千个拷贝的情况下,实际却很少出现同一分子的多个拷贝被测序的情况呢?主要原因就是文库中 unique 分子的数量比被 flowcell 上引物捕获的分子数量多很多,直白点说就是 flowcell 上用于捕获文库分子的引物数量太少了,两者不在同一个数量级,导致很少出现同一个文库分子的多个拷贝被 flowcell 上引物捕获生成 cluster。
??假设文库中所有分子与引物的结合都是随机的,简化一下就相当于,一个箱子中有 n 种颜色的球(文库中的 n 种 unique 分子),每种颜色有 1000 个(PCR 扩增的,随 cycle 数变化),从这个箱子中随机拿出来 k 个球(最终测序得到 k 条 reads),其中出现相同颜色的球就是 duplicate,那么 duplication 率就可以根据有多少种颜色的球被取出 0,1,2,3…… 次的概率计算,可以近似用泊松分布模型来描述。
??以人全基因组重测序 30X 为例,PE150 需要约 3x10^8条 reads ,文库中 unique 分子数其实可以通过上机文库的浓度和体积(外加 PCR 循环数)计算出来,这里用近似值 3.5x10^10 个 unique 分子。每个 unique 分子期望被测序的次数是 3x10 8/3.5x10 10 = 0.0085 ,每个 unique 分子被测 0,1,2,3… 次的概率如下图:
由于 unique 分子数量太多,被测 0 次的概率远高于 1 和 2 次,我们去除 0 次的看一下:
unique 分子被测序 1 次的概率远大于 2次及以上,即便一个 unique 分子被测序 2 次,我们去除 duplicate 时候还会保留其中一条 reads。
如果降低文库中 unique 分子数量到 4.5x10^9 个,PCR 循环数增加以便浓度达到跟上面模拟的情况相同,测序 reads 数还是 3x10^8 条,每个 unique 分子预期被测序的次数是 3x10 8/4.5x10 9 = 0.067 。
unique 分子数量减少,被测序 2次的概率增大,duplication 率显然也会增高。
?? 到这里已经可以很明白的看出 duplication 率主要与文库中 unique 分子数量有关 ,所以建库过程中最大化 unique 分子数是降低 duplication 率的关键。文库中 unique 分子数越多,说明建库起始量越高,需要 PCR 的循环数越少,而文库中 unique 分子数越少,说明建库起始量越低,需要 PCR 的循环数越多,因此提高建库起始量是关键。