-
一篇就夠了,帶你了解高通量測序!
發布時間: 2021-08-27 點擊次數: 2389次說到近十年來發展最迅猛的生物技術,首先想到了高通量測序,我們研究基因組學都離不開它。目前,高通量測序已經深入到生命科學的各個領域,不僅有力地推動了基礎研究的發展,也在逐漸征服臨床應用。
所謂的高通量測序技術,又名大規模平行測序,是將 DNA(或者 cDNA)隨機片段化、加接頭,制備測序文庫,通過對文庫中數以萬計的克隆(colony)進行延伸反應,檢測對應的信號,最終獲取序列信息。與 Sanger 法為代表的傳統測序法相比,高通量測序技術在處理大規模樣品時具有顯著的優勢,又快(兩天)又多(數百萬克隆),成為目前組學研究的主要技術。
當前主要的測序技術平臺,主要分為:
*solexa 測序技術(即大家耳熟能詳的 illumina 測序平臺);
*454 測序技術(讀長長,但是準確度較低,成本較高,即焦磷酸測序技術,少量市場占有);
*solid 測序技術(雙色編碼技術,目前基本在市場上見不到了)。
那么高通量測序技術可以幫助我們做到什么呢?
首先是基因組層面的應用。
對于疾病診斷領域,全基因組重測序技術是一種非常有力的手段。所謂的全基因組重測序,即對基因組序列已知物種的個體(比如人,小鼠等)進行基因組測序,并進行差異信息分析的方法。基于全基因組測序,可以快速的尋找到大量的遺傳差異,從而實現遺傳進化分析及重要性狀候選基因的預測,找到大量的 SNP,InDel,結構變異(SVs)等變異信息,從而獲取生物群體的遺傳特征。臨床上,常規的產前診斷技術是需要通過穿刺(絨毛穿刺、羊膜腔穿刺等)的方法取得胎兒的組織進行遺傳學檢測,這可能導致一定的流產風險。而在 1997 年,Lo 團隊[1]發現了孕婦外周血中存在有胎兒的游離 DNA,而高通量測序技術可以針對短序列 DNA 進行精準的測序。2010 年,Lo 團隊借助測序技術完成了母血中胎兒的全部組基因組圖譜的繪制[2],證實了利用 cffDNA(cell free fetal DNA)進行胎兒基因檢測是*可行的。
目前應用高通量測序技術的三體綜合征產前基因診斷技術已經開展臨床試點。
在動物學研究方面,Xia 等人[3]運用新一代測序技術對 29 種家蠶(Bombyx mori)和 11 種野 蠶(Bombyx mandarina)進行了基因組重測序, 構建了一個單堿基分辨率的家蠶遺傳變異圖譜. 每個個體測序約 3X, 覆蓋基因組序列的 99.88%, 鑒定出 1600 多萬個 SNPs, InDels 和 SVs。 分析結果表明,馴化家蠶由野生蠶分化而來,且在馴養過程中,人為選擇優良品種,性狀相 對單一。同時,還發現了 354 個受到馴化和人工選擇壓力影響的蛋白編碼基因,主要參與調控蠶的絲蛋白合成,能量代謝,生殖特性和飛行能力。
一個人樣品的全基因組測序,目前的價格在 1.3 萬人民幣左右。然而大量的基因組區域是不編碼蛋白質的,甚至對于特定疾病或者表型來說,參與調控的關鍵基因是已知的,所以研究者更關心的是某一個特定區域的表達情況。這時候,外顯子組和目標區域測序就非常適合了。所謂的外顯子組(exome)是一個物種基因組中全部外顯子區域的總和,通過探針法捕獲基因組中全部外顯子序列,然后使用高通量測序技術對外顯子組測序,可以直接的發現與蛋白質功能變異相關的遺傳突變。相對于全基因組測序,外顯子測序更加的經濟,只需 9000 人民幣。而對于感興趣的特定基因組區域,可以進行目標區域的深度測序。這就更便宜了,200 個擴增子(產物長度<300bp),如果來自同一個模板,則只需 400 塊!
那么,除了以上介紹的兩種主流的基因組測序方法之外,還衍生出了其他的分析方法,比如簡化基因組測序,可以對重要的和復雜性高的 QTLS(quantitative trait loci,數量性狀位點)精細定位。簡化代表文庫測序,對群體中不同基因型的個體采用相同的內切酶酶切,回收相同大小范圍的酶切片段并測序,可以降低基因組分析的復雜性。酶切位點相關 DNA 測序(RADseq)等一些新興的測序分析技術。
在基因組分析上更進一步,我們會對基因表達,可變剪切,基因結構變化等內容感興趣。所以我們需要使用到轉錄組測序,即 RNA-seq。即從總的 RNA 中富集出單鏈 mRNA,再反轉錄成雙鏈 cDNA,隨后進行高通量測序,并與基因組 DNA 序列進行比對。比如,Gruber 等[4] 對 14 例兒童非唐氏綜合征急性巨核細胞白血病患者進行轉錄組測序,發現了一個隱匿的 16 號染色體倒位,inv(1 6)(P13.3 q24.3),形成 CBFA2T3 一 GLIS2 融合蛋白,CBFA2T3-GLIS2 在果蠅和鼠的造血細胞里的表達能夠誘導成骨蛋白信號系統的激活,從而促進造血祖細胞的自我更新,研究結果表明 CBFA2T3-GLIS2 融合蛋白的表達可能促進白血病的發生。Zhang 等人 [4]以水稻 9311 的愈傷組織、根尖、莖尖、葉、稻花/稻穗為材料, 進行轉錄組測序, 展示了栽培水稻不同器官的轉錄組圖譜. 采用高通量雙末端測序, 檢測到了 7232 個新轉錄本, 這些轉錄本表達豐度低, 且具有組織特異性. 共發現了 23800 個可變剪接,說明轉錄融合事件比我們原來預想的要更加的常見。
通過 RNA-seq,還可以發現新的轉錄物。長鏈非編碼 RNA(lncRNA)是當前研究的熱點,其功能廣泛,涉及到個體發育、干細胞分化、細胞代謝、腫瘤發生發展等眾多方面。最早的大規模發掘 lncRNA 的工作是通過芯片完成的,但是后來人們發現,高通量測序特別適合用于發掘新的 lncRNA。近年來,在人、小鼠、大鼠、果蠅、斑馬魚、豬等物種中,通過 RNA-seq, 發現了一大批的 lncRNA。進一步研究證實有的 lncRNA 具有調控各種生物過程的能力。這方面的工作比較簡單,也形成了一定的套路,對于廣大的生命科學研究人員來說是較容易出成果的一個領域。
除 lncRNA 外,環狀 RNA(circular RNAs ,circRNAs)研究也是 RNA-seq 的一個重要應用方向。circRNAs 是一類特殊的非編碼 RNA 分子,也是 RNA 領域最新的研究熱點。與傳統的線性 RNA (linear RNA,含 5’和 3’末端)不同,circRNA 分子呈封閉環狀結構,不受 RNA 外切酶影響,表達更穩定,不易降解。有研究表明 circRNA 可能通過 miRNA-sponge 的方式來調控 miRNA 對靶基因的抑制作用,在某些疾病中具有重要意義。通過 RNA-seq,可以找到融合(fusion)的序列接口,從而發掘新的 circRNA。這項技術已經得到了許多重要的應用。
同時,我們也常常用到 DGE(digital gene expression)技術。其基本原理是對 cDNA 進行雙酶切,從而每一條 mRNA 都會得到一個對應的標簽,隨后進行高通量測序,比較不同樣本之間各種標簽的數目,從而找出差異化的標簽,即差異化的 mRNA。
microRNA 測序也是目前常用的測序項目。microRNA 是一類內源小分子 RNA,通常在轉錄后水平,負調節基因表達來發揮作用,控制了多種生物和代謝途徑中眾多基因的表達,在生物生長和發育中扮演重要角色,目前 microRNA 測序技術普遍用于動植物表觀遺傳學研究。
除以上介紹的測序技術之外,常用的測序技術還有:
MeDIP-Seq 技術(methylation DNA immunoprecipitationsequencing,甲基化 DNA 免疫共沉淀),是研究甲基化的一種有效的手段。由于在哺乳動物中甲基化一般發生在 CpG 的胞嘧啶 5 位碳原子上,所以可通過特異性結合甲基化 DNA 的蛋白 MBD2b 或 5’-甲基胞嘧啶抗體富集高甲基化的 DNA 片段,并結合第二代高通量測序,對富集到的 DNA 片段進行測序,從而檢測全基因組范圍內的甲基化位點。
ChIP-seq,染色質免疫共沉淀技術,研究體內蛋白與 DNA 相互作用的一種方法先通過 ChIP 特異性地富集與目的蛋白相結合的 DNA 片段, 而后對所得 DNA 片段進行高通量測序。
總體來說,高通量測序技術的誕生可以說是基因組學研究領域一個具有里程碑意義的事件。該技術使得核酸測序的單堿基成本與第一代測序技術相比急劇下降。但是同時由于數據量的大幅度上升,全基因組測序臨床應用的瓶頸在于信息的分析和解讀能力不足。如何更好的分析數據,挖掘數據,驗證結果,隨之而來的生物信息學解決方案可以為基因組學研究帶來更大的機遇。
參考文獻:
[1] Lo Y M, Corbetta N, Chamberlain P F, et al. Presence of fetal DNA in maternal plasma and serum[J] .Lancet, 1997,350(9076):485-487
[2] Lo Y M, Chan K C, Sun H, et al. Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus [J]. Sci Transl Med, 2010,2(61):61r-91r
[3] Xia Q, Guo Y, Zhang Z, et al. Complete resequencing of 40 genomes reveals domestication events and genes in silkworm (Bombyx). Science, 2009, 326: 433–436
[4]Gruber TA, Larson GedmanA, Zhang J, et al. An lnv(16)(p13,3q24.3)- encoded CBFA2T3-GLIS2 fusion protein defines an aggressive subtype of podiatric acute megakaryoblasticleukemia[J]. Cancer Cell, 2012, 22(5):683-697