深度好文：測序簡史

知識 07-29

本文轉自「生信人」。

一文從一代到最新的測序技術，希望能夠幫助你。

序

這幾天天氣很熱，熱的人心惶惶。因此一直提上日程的所謂的測序簡史，也沒有時間去好好的落實。中途找過一個行業內的頗有影響力的人，但是他由於種種原因，也沒有能踏踏實實的去做這件事情。幾經周折，這個任務還是落到了我自己的肩上。

於是乎，我鼓鼓勇氣，嘗試著去把這段從1977年到2017年的漫長而又渺小的四十年說的有趣些兒。

當我起筆去寫這篇文章的時候，小夥伴們還在工作室因為某個伺服器後台技術爭論不了，這樣看來生信人團隊還是非常有希望的。另外，關於測序簡史這一塊，我一直不知道怎麼去娓娓道來，不知道如何才能說得清楚，還不讓大家反感，我只能硬著頭皮利用自己知道的皮毛知識給大家編織一個我所認為的測序簡史，博君一笑。

由於這篇文章內容過長，我覺得還是輕鬆點，大家才能閱讀下去，畢竟很少有人能夠逼著自己去做一些事情，一點一點的誘惑，不僅有用，而且高效，為啥不用呢，廢話到此結束，言歸正傳。

啥叫測序？這個官方有官方的解釋，大家可以自行百度，我覺得通俗意義上跟測序身高體重三圍沒啥區別，區別在於測序難度大並且包含的信息量大。

身高儀測量你的身高信息，體重稱量你的體重信息，三圍表徵你的性感，不是健康信息。測序是測量你的遺傳信息。

遺傳信息，大家應該都清楚，如果不清楚的話麻煩各位翻一翻高中的肺炎雙球菌實驗，講的就是啥是遺傳信息，如何發現遺傳信息的。

放張圖，方便大家回憶。

原來的科學家們通過老鼠死沒死，最終得到的結論是DNA是主要的遺傳物質，部分物種的遺傳物質是RNA。

在弄清楚這個事情之後，大家也都知道沃森和克里克還有一些被遺忘的科學家一起努力弄清楚了DNA是雙螺旋結構。並且（A-T，G-C）。

第一代測序技術

一、簡介

第一代DNA測序技術用的是1975年由桑格（Sanger）和考爾森（Coulson）開創的鏈終止法或者是1976-1977年由馬克西姆（Maxam）和吉爾伯特（Gilbert）發明的化學法（鏈降解）. 並在1977年，桑格測定了第一個基因組序列，是噬菌體X174的，全長5375個鹼基。自此，人類獲得了窺探生命遺傳差異本質的能力，並以此為開端步入基因組學時代。研究人員在Sanger法的多年實踐之中不斷對其進行改進，在2001年，完成的首個人類基因組圖譜就是以改進了的Sanger法為其測序基礎。

一代測序技術的原理見下圖。再模板中首先分別加入A、T、G、C和四種ddNTP雙脫氧核苷酸（加入ddNTP序列合成會終止），如下圖第一個加入ddATP，這樣每一個位置上的A位置會大量的被ddATP替代，然後終止，然後再分別加入其他的ddNTP，讓他隨機終止。這樣對得到的這些序列進行跑膠。就得到了如下的膠圖。根據ACGT的加入順序和位置，獲取信息。這個方法準確率高，費用高，是先合成，再測序的。

桑格先生13年與世長辭，但是一代測序技術在他發明之後經過各個單位的改進，今天還被大量使用。

NCBI的悼文：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3903207/

Of the three main activities involved in scientific research, thinking, talking, and doing, I much prefer the last and am probably best at it. I am all right at the thinking, but not much good at the talking.

—Frederick Sanger, 1988

二、一代測序主要應用方向

大夥肯定好奇啥是黃金測序，標題很搶眼，但的的確確存在測序的黃金標準：一代測序了，小編故稱之為黃金測序。

今天給你們帶來一些低門檻純經驗的黃金測序（哈哈就是一代測序了）中你應該知道的point：高通量測序最近這幾年很火越來越火，但是世界上更多的還是一幫天天做分子克隆、養細胞、養細菌、雜蛋白的生物學家，究其原因Sanger測序還是測序屆的金標準，由於精確度高於2、3代測序且保持大白菜價格使之地位穩固。應用範圍:De Novo測序、重測序: 如突變檢測、SNPs、插入、缺失克隆產物驗證、比較基因組、分型: 如微生物和真菌鑒定、HLA分型、病毒分型

、其它: 如甲基化分析（重亞硫酸鹽測序）和SAGE（基因表達串聯分析）方法

、臨床應用：腫瘤突變基因的檢測和腫瘤個體化治療。

三、一代測序注意問題

1.測序結果不到800Bases是什麼原因？

（1）G/C rich、G/C Cluster。

這種情況一般表現為測序信號突然減弱或消失(圖1，圖2)

如在DNA樣品中的DNA序列分布勻稱，沒有複雜結構時，正常的測序反應能保證達到800Bases以上。但有一些DNA樣品立體結構複雜，造成聚合酶延伸反應終止，測序信號突然減弱或消失，或者測序結果出現套峰現象，出現這些現象的原因由DNA模板本身所造成。

圖1 GC引起的信號減弱

圖2 G/C rich引起的信號消失

（2）A、T的Poly結構

這種情況一般表現為A、T連續結構後面的測序結果出現套峰。根據文獻記載。原因在於聚合酶進行聚合反應時，由於A或T的連續，聚合酶難以識別完整的每個A或T，在某個A或T的後面便開始進行A或T連續結構以後序列的聚合反應(打滑現象)，造成測序結果紊亂，出現套峰。一般在多少個A或T的後面能出現這種情況呢？現在還沒有這方面的報道。根據我們的經驗，這一情況的出現和A或T的連續結構後面的序列的排列情況有著直接的關係。有時10多個A或T的連續結構後面便出現套峰，但有時60～70個A或T的連續結構後面的序列也一樣可以完整地讀出來。具體情況還有待考證。一般來說，PCR片段直接測序時，A或T的連續結構後面的序列測序結果都會出現套峰。原因在於測序時經歷了PCR反應及測序反應(測序反應本身也是PCR反應)二次聚合酶的打滑現象。

圖3 polyA引起的套峰

（3）原因不明的複雜結構，測序結果出現突然信號減弱或消失

從序列上看，DNA鹼基排列並無特別異常。估計是DNA整體出現複雜結構，從某一位置開始聚合酶的聚合反應便無法進行。

圖4 複雜結構引起的信號中斷

2.出現套峰是什麼原因？

在測序反應中，模板或引物的原因都可能造成套峰的形成，歸結其形成原因有以下幾點：

（1）測序引物在模板上有兩個結合位點(圖5)；

（2）模板不純，如果是質粒或是菌液，原因是非單克隆(圖6)，如果是PCR,原因為非特異性條帶(圖7)；

（3）模板序列的特殊結構，如poly結構、發卡結構等(圖8)；

（4）引物降解，或引物不純(圖9，圖10)。

圖5 雙引物結合位點引起的套峰

圖6 由於質粒或菌液為非單克隆引起的套峰

圖7 PCR為非特異性條帶引起的套峰

圖8 模板特殊結構引起的套峰

圖9 引物輕微降解或引物不純引起的套峰

圖10 引物嚴重降解或引物不純引起的套峰

四、解決方案匯總

1.樣品測序無信號

可能是引物結合位點不存在或被破壞；建議更換引物測序或重新提供樣品測序。

2.樣品測序信號差

可能是引物或模板的質量不高或是引物和模板的匹配性不好引起的，也可能是樣品濃度偏低；建議提供高質量樣品測序。

3.樣品測序衰減

可能是由於特殊結構如Poly結構、重複序列、迴文結構、發卡結構、GCrich、AT富集等導致的測序衰減，由於是樣品本身結構問題無法優化建議反向測序進行拼接以得到完整序列，還有一種衰減的情況就是在一段正常峰型後逐漸衰減，可能是模板量反應量不足導致，建議製備高濃度模板測序。

4.樣品測序套峰

套峰細分的話有如下幾種情形:

全雙峰：多引物結合位點（針對菌液、質粒樣品），非特異性擴增（針對PCR產物）；

前雙峰：多引物結合位點，其中一套模板測序中斷（針對菌液、質粒樣品），多引物結合位點（PCR未純化樣品），引物二聚體或小片段干擾（針對PCR已純化樣品）；

中間雙峰：非單克隆（針對質粒、菌液樣品），鹼基缺失或等位基因雙模板（針對PCR未純化樣品）；

後雙峰：非單克隆（針對菌液、質粒樣品），鹼基缺失（針對PCR樣品）；

針對二聚體及小片段干擾的情況建議電泳切膠回收純化；針對多引物結合位點的情況建議更換引物測序或反方向測通樣品；針對鹼基缺失建議克隆測序；針對非單克隆建議在克隆無誤的前提下重新挑取單克隆測序；針對非特異性擴增建議優化反應條件重新製備樣品測序；針對等位基因雙模板建議克隆測序。

5.樣品測序中斷

可能樣品存在特殊高級結構，導致dNTP和ddNTP在某一鹼基位點後無法與模板結合，測序酶無法繼續延伸，建議使用反向引物進行測序經拼接後可以得到完整序列；或酶切後亞克隆測序。

6.樣品測序移碼

測序從開端發生移碼可能是引物發生降解，建議重新提供引物；測序局部出現移碼，可能樣品存在特殊高級結構，建議反向測通。

7.樣品測序底峰干擾

可能測序引物不純，建議將引物進行PAGE膠純化後在進行測序或重新提供引物測序；可能測序樣品不純，混有正、反向引物，建議重新製備樣品測序。

第二代測序技術

一、簡介

小編上大學的時候，二代測序技術主要有三家公司，羅氏的454技術，illumina的Hiseq和Solexa技術還有ABI的Solid技術。不管是哪家公司，其具體原理如何，暫且不說。他們都是邊合成邊測序，也就是說通過在序列合成的同時通過各種標記進行實時的序列識別。接下來，小編還沒有畢業，羅氏和ABI的測序技術就提前畢業了。只剩下一家illumina。熟悉二代測序的，都清楚，他家是雙端測序，通量高。Illumina基本上每天推出一款新的產品。並且通量越來越大，成本越來越低。說最近今年的例子，14,15年推出的Hiseq 4000 15,16年推出的X ten（10台hiseq X）國內有很多公司引進了這套設備。北京諾禾致源，葯明康德等。目前國內的二代測序通量基本上滿足了國內的科研需要和臨床應用需求。由於先動優勢，其他的測序公司也就放棄了在Xten市場上與諾禾進行角逐，轉而成為諾禾測序市場上渠道客戶。這樣看來華小之間，相愛相殺。17年南京諾禾（背後有資本的力量，目前市場上的好多做健康管理，基因檢測的都將從這裡走渠道。），其實就是委託諾禾進行運營和管理，畢竟人家經驗豐富。引入25台Novaseq測序儀。這些測序儀將主要用於生命科學健康方向。可以預見的將來，諾禾將成為二代測序市場的佔用者，有一句話說的好，諾禾測序儀抖一抖，好幾百家公司的數據都不合格。

由於二代測序需要對熒光信號進行識別，但是由於熒光信號較弱，因此需要進行擴增建庫。也就是這一步導致二代測序存在偏好性。

二、主要應用方向

二代測序目前是科研市場上的主力，廣泛的使用在物種基因組測序，轉錄組測序，群體測序上。另外這兩年也在尋求醫學上的發展，隨著成本的降低，其在醫學市場上的應用將會越來越多。

三、二代測序相關的名詞解釋

什麼是高通量測序？

高通量測序技術（High-throughputsequencing，HTS）是對傳統Sanger測序（稱為一代測序技術）革命性的改變, 一次對幾十萬到幾百萬條核酸分子進行序列測定, 因此在有些文獻中稱其為下一代測序技術(next generation sequencing，NGS )足見其劃時代的改變, 同時高通量測序使得對一個物種的轉錄組和基因組進行細緻全貌的分析成為可能, 所以又被稱為深度測序(Deep sequencing)。

什麼是基因組重測序（Genome Re-sequencing）

全基因組重測序是對基因組序列已知的個體進行基因組測序，並在個體或群體水平上進行差異性分析的方法。隨著基因組測序成本的不斷降低，人類疾病的致病突變研究由外顯子區域擴大到全基因組範圍。通過構建不同長度的插入片段文庫和短序列、雙末端測序相結合的策略進行高通量測序，實現在全基因組水平上檢測疾病關聯的常見、低頻、甚至是罕見的突變位點，以及結構變異等，具有重大的科研和產業價值。

什麼是de novo測序

de novo測序也稱為從頭測序：其不需要任何現有的序列資料就可以對某個物種進行測序，利用生物信息學分析手段對序列進行拼接，組裝，從而獲得該物種的基因組圖譜。獲得一個物種的全基因組序列是加快對此物種了解的重要捷徑。隨著新一代測序技術的飛速發展，基因組測序所需的成本和時間較傳統技術都大大降低，大規模基因組測序漸入佳境，基因組學研究也迎來新的發展契機和革命性突破。利用新一代高通量、高效率測序技術以及強大的生物信息分析能力，可以高效、低成本地測定並分析所有生物的基因組序列。

什麼是外顯子測序（whole exon sequencing）

外顯子組測序是指利用序列捕獲技術將全基因組外顯子區域DNA捕捉並富集後進行高通量測序的基因組分析方法。外顯子測序相對於基因組重測序成本較低，對研究已知基因的SNP、Indel等具有較大的優勢，但無法研究基因組結構變異如染色體斷裂重組等。

什麼是mRNA測序（RNA-seq）

轉錄組學（transcriptomics）是在基因組學後新興的一門學科，即研究特定細胞在某一功能狀態下所能轉錄出來的所有RNA（包括mRNA和非編碼RNA）的類型與拷貝數。Illumina提供的mRNA測序技術可在整個mRNA領域進行各種相關研究和新的發現。mRNA測序不對引物或探針進行設計，可自由提供關於轉錄的客觀和權威信息。研究人員僅需要一次試驗即可快速生成完整的poly-A尾的RNA完整序列信息，並分析基因表達、cSNP、全新的轉錄、全新異構體、剪接位點、等位基因特異性表達和罕見轉錄等最全面的轉錄組信息。簡單的樣品製備和數據分析軟體支持在所有物種中的mRNA測序研究。

什麼是small RNA測序

SmallRNA（micro RNAs、siRNAs和 pi RNAs）是生命活動重要的調控因子，在基因表達調控、生物個體發育、代謝及疾病的發生等生理過程中起著重要的作用。Illumina能夠對細胞或者組織中的全部Small RNA進行深度測序及定量分析等研究。實驗時首先將18-30 nt範圍的Small RNA從總RNA中分離出來，兩端分別加上特定接頭後體外反轉錄做成cDNA再做進一步處理後，利用測序儀對DNA片段進行單向末端直接測序。通過Illumina對Small RNA大規模測序分析，可以從中獲得物種全基因組水平的miRNA圖譜，實現包括新miRNA分子的挖掘，其作用靶基因的預測和鑒定、樣品間差異表達分析、miRNAs聚類和表達譜分析等科學應用。

什麼是miRNA測序

成熟的microRNA（miRNA）是17~24nt的單鏈非編碼RNA分子，通過與mRNA相互作用影響目標mRNA的穩定性及翻譯，最終誘導基因沉默，調控著基因表達、細胞生長、發育等生物學過程。基於第二代測序技術的microRNA測序，可以一次性獲得數百萬條microRNA序列，能夠快速鑒定出不同組織、不同發育階段、不同疾病狀態下已知和未知的microRNA及其表達差異，為研究microRNA對細胞進程的作用及其生物學影響提供了有力工具。

什麼是Chip-seq

染色質免疫共沉澱技術（ChromatinImmunoprecipitation，ChIP）也稱結合位點分析法，是研究體內蛋白質與DNA相互作用的有力工具，通常用於轉錄因子結合位點或組蛋白特異性修飾位點的研究。將ChIP與第二代測序技術相結合的ChIP-Seq技術，能夠高效地在全基因組範圍內檢測與組蛋白、轉錄因子等互作的DNA區段。

ChIP-Seq的原理是：首先通過染色質免疫共沉澱技術（ChIP）特異性地富集目的蛋白結合的DNA片段，並對其進行純化與文庫構建；然後對富集得到的DNA片段進行高通量測序。研究人員通過將獲得的數百萬條序列標籤精確定位到基因組上，從而獲得全基因組範圍內與組蛋白、轉錄因子等互作的DNA區段信息。

什麼是CHIRP-Seq

CHIRP-Seq( Chromatin Isolationby RNA Purification )是一種檢測與RNA綁定的DNA和蛋白的高通量測序方法。方法是通過設計生物素或鏈霉親和素探針，把目標RNA拉下來以後，與其共同作用的DNA染色體片段就會附在到磁珠上，最後把染色體片段做高通量測序，這樣會得到該RNA能夠結合到在基因組的哪些區域，但由於蛋白測序技術不夠成熟，無法知道與該RNA結合的蛋白。

什麼是RIP-seq

RNA Immunoprecipitation是研究細胞內RNA與蛋白結合情況的技術，是了解轉錄後調控網路動態過程的有力工具，能幫助我們發現miRNA的調節靶點。這種技術運用針對目標蛋白的抗體把相應的RNA-蛋白複合物沉澱下來，然後經過分離純化就可以對結合在複合物上的RNA進行測序分析。

RIP可以看成是普遍使用的染色質免疫沉澱ChIP技術的類似應用，但由於研究對象是RNA-蛋白複合物而不是DNA-蛋白複合物，RIP實驗的優化條件與ChIP實驗不太相同（如複合物不需要固定，RIP反應體系中的試劑和抗體絕對不能含有RNA酶，抗體需經RIP實驗驗證等等）。RIP技術下游結合microarray技術被稱為RIP-Chip，幫助我們更高通量地了解癌症以及其它疾病整體水平的RNA變化。

什麼是CLIP-seq

CLIP-seq,又稱為HITS-CLIP，即紫外交聯免疫沉澱結合高通量測序(crosslinking-immunprecipitationand high-throughput sequencing), 是一項在全基因組水平揭示RNA分子與RNA結合蛋白相互作用的革命性技術。其主要原理是基於RNA分子與RNA結合蛋白在紫外照射下發生耦聯，以RNA結合蛋白的特異性抗體將RNA-蛋白質複合體沉澱之後，回收其中的RNA片段，經添加接頭、RT-PCR等步驟，對這些分子進行高通量測序，再經生物信息學的分析和處理、總結，挖掘出其特定規律，從而深入揭示RNA結合蛋白與RNA分子的調控作用及其對生命的意義。

什麼是染色體構象捕獲技術

3C 通常是用啟動子或者某一個基因或者基因組某一個短的片段在鄰近的幾十kb或者幾百kb基因組掃描可以獲得相互作用區域。由於實驗需要特異性引物，因而實驗室相當費力的，且檢測範圍小。

4C同3C一樣做單位點的檢測，但其檢測擴展到了整個基因組上。主要是引入了反向PCR，因而只需要對這一單一位點設計引物即可。

5C 做兩個大片段之間相互作用點的檢測，可以達到10Mb水平。其仍需使用引物，且引物設計是其技術的難點。

Hi-C 可以實現基因組對基因組水平的檢測，但是獲得高精度需要非常大的測序深度

ChIA-PET標在於特定的蛋白因子及其相關聯的染色質相互作用。該技術將配對末端標籤測序技術與ChIP相結合，對富集了某種蛋白質的DNA 片段進行交聯，可以測定全基因組範圍的特定轉錄因子參與的染色質遠程交互作用，從而可以呈現高特異性和高解析度的染色質相互作用。

什麼是Hi-C輔助基因組組裝

Hi-C輔助基因組組裝是指在已有二代或三代或光學圖譜輔助組裝的Draft genome序列和已知染色體數目的前提下，利用Hi-C測序數據將Draft genome序列進行染色體群組的劃分，並確定各序列在染色體上的順序和方向，使基因組組裝組裝水平提升到染色體水平的技術。

什麼是metagenomic（宏基因組）

Magenomics研究的對象是整個微生物群落。相對於傳統單個細菌研究來說，它具有眾多優勢，其中很重要的兩點：(1) 微生物通常是以群落方式共生於某一小生境中，它們的很多特性是基於整個群落環境及個體間的相互影響的，因此做Metagenomics研究比做單個個體的研究更能發現其特性；(2)Metagenomics研究無需分離單個細菌，可以研究那些不能被實驗室分離培養的微生物。

宏基因組是基因組學一個新興的科學研究方向。宏基因組學（又稱元基因組學，環境基因組學，生態基因組學等），是研究直接從環境樣本中提取的基因組遺傳物質的學科。傳統的微生物研究依賴於實驗室培養，宏基因組的興起填補了無法在傳統實驗室中培養的微生物研究的空白。過去幾年中，DNA測序技術的進步以及測序通量和分析方法的改進使得人們得以一窺這一未知的基因組科學領域。

什麼是SNP、SNV（單核苷酸位點變異）

單核苷酸多態性singlenucleotide polymorphism，SNP 或單核苷酸位點變異SNV。個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態性。不同物種、個體基因組DNA序列同一位置上的單個核苷酸存在差別的現象。有這種差別的基因座、DNA序列等可作為基因組作圖的標誌。人基因組上平均約每1000個核苷酸即可能出現1個單核苷酸多態性的變化，其中有些單核苷酸多態性可能與疾病有關，但可能大多數與疾病無關。單核苷酸多態性是研究人類家族和動植物品系遺傳變異的重要依據。在研究癌症基因組變異時，相對於正常組織，癌症中特異的單核苷酸變異是一種體細胞突變（somatic mutation），稱做SNV。

什麼是INDEL (基因組小片段插入）

基因組上小片段（>50bp）的插入或缺失，形同SNP/SNV。

什麼是copy number variation（CNV）：基因組拷貝數變異

基因組拷貝數變異是基因組變異的一種形式，通常使基因組中大片段的DNA形成非正常的拷貝數量。例如人類正常染色體拷貝數是2，有些染色體區域拷貝數變成1或3，這樣，該區域發生拷貝數缺失或增加，位於該區域內的基因表達量也會受到影響。如果把一條染色體分成A-B-C-D四個區域，則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發生了C區域的擴增及缺失，擴增的位置可以是連續擴增如A-B-C-C-D也可以是在其他位置的擴增，如A-C-B-C-D。

什麼是structure variation（SV）：基因組結構變異

染色體結構變異是指在染色體上發生了大片段的變異。主要包括染色體大片段的插入和缺失（引起CNV的變化），染色體內部的某塊區域發生翻轉顛換，兩條染色體之間發生重組（inter-chromosometrans-location）等。一般SV的展示利用Circos軟體。

什麼是Segment duplication

一般稱為SD區域，串聯重複是由序列相近的一些DNA片段串聯組成。串聯重複在人類基因多樣性的靈長類基因中發揮重要作用。在人類染色體Y和22號染色體上，有很大的SD序列。

什麼是genotype and phenotype

既基因型與表型；一般指某些單核苷酸位點變異與表現形式間的關係。

什麼是Read?

高通量測序平台產生的短序列就稱為reads。PE125，就是讀長為125bp雙端測序。

什麼是Contig?

拼接軟體基於reads之間的overlap區，拼接獲得的序列稱為Contig（重疊群），無N。

什麼是Scaffold?

基因組de novo測序，通過reads拼接獲得Contigs後，往往還需要構建454 Paired-end庫或Illumina Mate-pair庫，以獲得一定大小片段（如3Kb、6Kb、10Kb、20Kb）兩端的序列。基於這些序列，可以確定一些Contig之間的順序關係，這些先後順序已知的Contigs組成Scaffold（含有N）。

什麼是Contig N50？

Reads拼接後會獲得一些不同長度的Contigs。將所有的Contig長度相加，能獲得一個Contig總長度。然後將所有的Contigs按照從長到短進行排序，如獲得Contig 1，Contig 2，Contig 3...………Contig 25。將Contig按照這個順序依次相加，當相加的長度達到Contig總長度的一半時，最後一個加上的Contig長度即為Contig N50。舉例：Contig 1+Contig 2+ Contig 3+Contig4=Contig總長度*1/2時，Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結果好壞的一個判斷標準。

什麼是Scaffold N50？

Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加，能獲得一個Scaffold總長度。然後將所有的Scaffolds按照從長到短進行排序，如獲得Scaffold 1，Scaffold 2，Scaffold 3...………Scaffold 25。將Scaffold按照這個順序依次相加，當相加的長度達到Scaffold總長度的一半時，最後一個加上的Scaffold長度即為Scaffold N50。舉例：Scaffold 1+Scaffold 2+Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時，Scaffold 5的長度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結果好壞的一個判斷標準。

什麼是測序深度和覆蓋度？

測序深度是指測序得到的總鹼基數與待測基因組大小的比值。假設一個基因大小為2M，測序深度為10X，那麼獲得的總數據量為20M。覆蓋度是指測序獲得的序列占整個基因組的比例。由於基因組中的高GC、重複序列等複雜結構的存在，測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域，這部分沒有獲得的區域就稱為Gap。例如一個細菌基因組測序，覆蓋度是98%，那麼還有2%的序列區域是沒有通過測序獲得的。

什麼是RPKM、FPKM

RPKM,ReadsPer Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:

每1百萬個map上的reads中map到外顯子的每1K個鹼基上的reads個數。

假如有1百萬個reads映射到了人的基因組上，那麼具體到每個外顯子呢，有多少映射上了呢，而外顯子的長度不一，那麼每1K個鹼基上又有多少reads映射上了呢，這大概就是這個RPKM的直觀解釋。

如果對應特定基因的話，那麼就是每1000000 mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的read

Total exon reads

This is the number in the column with header Total exonreads in the rowfor the gene. This is the number of reads that have beenmapped to a region inwhich an exon is annotated for the gene or across theboundaries of two exons oran intron and an exon for an annotated transcript ofthe gene. For eukaryotes,exons and their internal relationships are defined byannotations of type mRNA.映射到外顯子上總的reads個數。這個是映射到某個區域上的reads個數，這個區域或者是已知注釋的基因或者跨兩個外顯子的邊界或者是某個基因已經注釋的轉錄本的內含子、外顯子。對於真核生物來說，外顯子和它們自己內部的關係由某類型的mRNA來注釋。

Exonlength:

This is the number in the column with theheader Exon length inthe row for the gene, divided by 1000. This is calculatedas the sum of thelengths of all exons annotated for the gene. Each exon isincluded only once inthis sum, even if it is present in more annotatedtranscripts for the gene.Partly overlapping exons will count with their fulllength, even though theyshare the same region.外顯子的長度。計算時，計算所有某個基因已注釋的所有外顯子長度的總和。即使某個基因以多種注釋的轉錄本呈現，這個外顯子在求和時只被包含一次。即使部分重疊的外顯子共享相同的區域，重疊的外顯子以其總長來計算。

Mapped reads

The sum of all the numbers in the column with header Totalgenereads. The Total gene reads for a gene is the total number ofreads that aftermapping have been mapped to the region of the gene. Thus thisincludes all thereads uniquely mapped to the region of the gene as well asthose of the readswhich match in more places (below the limit set in thedialog in figure 18.110) that have been allocated tothis gene s region. Agene s region is that comprised of the flanking regions(if it was specified infigure 18.110), the exons, the introns andacross exon-exonboundaries of all transcripts annotated for the gene. Thus,the sum of the totalgene reads numbers is the number of mapped reads for thesample (you can findthe number in the RNA-Seq report).map的reads總和。映射到某個基因上的所有reads總數。因此這包含所有的唯一映射到這個區域上的reads。

舉例：比如對應到該基因的read有1000個，總reads個數有100萬，而該基因的外顯子總長為5kb，那麼它的RPKM為：10^9*1000(reads個數)/10^6(總reads個數)*5000(外顯子長度)=200或者：1000(reads個數)/1(百萬)*5(K)=200這個值反映基因的表達水平。

FPKM(fragmentsper kilobase of exon per million fragments mapped)

FPKM與RPKM計算方法基本一致。不同點就是FPKM計算的是fragments，而RPKM計算的是reads。Fragment比read的含義更廣，因此FPKM包含的意義也更廣，可以是pair-end的一個fragment，也可以是一個read。

什麼是轉錄本重構

用測序的數據組裝成轉錄本。有兩種組裝方式：1，de-novo構建； 2，有參考基因組重構。其中de-novo組裝是指在不依賴參考基因組的情況下，將有overlap的reads連接成一個更長的序列，經過不斷的延伸，拼成一個個的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有參考基因組重構，是指先將read貼回到基因組上，然後在基因組通過reads覆蓋度，junction位點的信息等得到轉錄本，常用工具包括scripture、cufflinks。

什麼是表達譜

基因表達譜(geneexpression profile)：指通過構建處於某一特定狀態下的細胞或組織的非偏性cDNA文庫,大規模cDNA測序,收集cDNA序列片段、定性、定量分析其mRNA群體組成,從而描繪該特定細胞或組織在特定狀態下的基因表達種類和丰度信息,這樣編製成的數據表就稱為基因表達譜

什麼是比較基因組學

比較基因組學(ComparativeGenomics)是基於基因組圖譜和測序基礎上，對已知的基因和基因組結構進行比較，來了解基因的功能、表達機理和物種進化的學科。利用模式生物基因組與人類基因組之間編碼順序上和結構上的同源性，克隆人類疾病基因，揭示基因功能和疾病分子機制，闡明物種進化關係，及基因組的內在結構。

什麼是基因組注釋

基因組注釋(Genomeannotation) 是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。基因組注釋的研究內容包括基因識別和基因功能注釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。

四、主要注意問題

1.建庫

原理基本如下，將基因組序列採用鳥槍法打碎——俗稱建庫，然後採用凝膠電泳的方式將不同長度的片段分離，比如現在建庫，短庫一般建180bp，200bp或者300bp等。這裡的180 和300 就是測序片段的長度。當然因為測序儀的讀長是固定的，比如110，125，或者450等。公司現在採用的是220bp文庫，讀長為125bp，因為是雙端測序，因此會有30bp的overlap區（這些是後期利用allpath-lg組裝的必要條件）。然後大文庫測序採用的時環化的技術，同樣全基因組鳥槍之後，跑膠，跑出我們需要的相應的長度，比如3k，5k，7k，14k等。得到這些數據之後，再將其打斷，然後測序，因為這裡有一個環化的過程，所以這裡的方向是RF（小文庫是FR）。

2.過濾

小文庫數據拿到手之後，一般要將質量較低的過濾掉，然後去掉序列兩端的接頭序列，而大文庫處理過濾低質量和過濾掉兩端接頭序列之外，還要將中間的接頭過濾掉。對於過濾大文庫接頭的程序，我推薦兩個，一個是R語言寫的Relox，這個要求你指定接頭。還有一個就是NXtrim，美國冷泉港開發的一款專門過濾illumina公司的大文庫數據接頭。

3.評估

做完這些數據處理之後，一般還要對插入片段的評估。插入片段其實就是文庫的大小。比如300bp的文庫，插入片段就是300bp，但是我們都應該知道在目前的測序水平下，難免會有失誤和誤差，誤差導致的後果是雖然插入片段是300bp，但是只能是平均值是300bp，存在一個方差，大概在幾十bp左右。通常誤差我們是可以接受的，而對於失誤，我們就要把它給找出來，如果插入片段，嚴重偏離300bp，那麼就意味著建庫失敗。通常我們採用的檢驗方法是將數據進行基因組組裝，組裝之後進行soap比對，然後畫出比對的效率圖。有人會問了難道只能組裝完之後才能進行插入片段評估嗎？我不知道其他的方式，只能說莫須有。

平台上提供的工具基本上從基因組，轉錄組，蛋白組統統都有。免費試用。

第三代測序技術

一、簡介

第三代測序技術目前在市場上較為活躍的是Pacbio公司的RS II系列和Sequl系列。二代測序主要的長度較短的問題，Pacbio將會徹底給予解決，目前其讀長在9Kb以上，準確性在85%以上。通量較二代差距很大，目前Sequl的一個cell可以產出5 Gb左右。這個通量目前對於科研市場是消費的起的，但是對於臨床檢測，成本較高。不過值得慶幸的是，他們的CTO承諾18年一個cell可以產出150Gb，到那個時候，基本上就是1萬元denovo 一個人。這對於複雜疾病的破譯非常具有意義。

第三代測序技術是指單分子測序技術。DNA測序時，不需要經過PCR擴增，實現了對每一條DNA分子的單獨測序。第三代測序技術也叫從頭測序技術，即單分子實時DNA測序。

主要包括單分子熒光技術，也就是不需要擴增，每一個分子顯示一種光，然後實時去監控，去讀取。因此這裡如何構建一個環境，讓核酸分子單獨發光，去識別是技術難點。

最近國內較火的瀚海基因的GenoCare也是基於單分子熒光技術的。

二、Pacbio主要應用

目前三代數據主要應用在科研市場的兩個方向上，第一個是基因組的組裝，另一個就是全長轉錄組。

全長轉錄組上的應用其實沒啥說的，他不需要組裝，只需要糾錯，然後識別就好了，定量還是利用二代測序。這裡就不說了，主要說下三代組裝上的一些情況。

1.糾錯

第一個就是由於三代數據的隨機錯誤很多，因此對數據進行糾錯是繞不過去的，介紹兩款軟體，一款是pacbioToCa，一款是ectool。一個是利用二代數據糾錯，一個是利用contig進行糾錯。

2.組裝

第二個軟體就是三代數據的組裝，推薦celera Assembly。當然肯定還有其他的牛X的軟體因此我們很難拿到。對了，多一句嘴，官網說單獨用三代組裝的話，深度要到40x。

3.混拼

第三個軟體是混拼，也就是二代數據和三代數據一起組裝。軟體為，不廢話，官網要求深度為20x。

4.補洞

第四個軟體是我喜歡的，就是利用三代數據的長片段來填補二代數據組裝完的gao和連接contig為scaffold。推薦軟體PBjerry。官網要求深度為5X。

三、三代全長轉錄本分析工具

三代全長轉錄本在輔助基因注釋，可變剪接分析，融合基因檢測方面可以說大顯身手，下面小編列了幾個工具及對應的下載地址，供大家參考。大家有好的最新的工具歡迎留言補充！

1. 可變剪接鑒定（3個工具）

1)網址：https://github.com/liuxiaoxian/IsoSeq_AS_de_novo

Liu X, Mei W, Soltis P S, et al. Detecting Alternatively Spliced Transcript Isoforms from Single‐Molecule Long‐Read Sequences without a Reference Genome[J]. Molecular Ecology Resources, 2017.

Rogers M F, Thomas J, Reddy A S N, et al. SpliceGrapher: detecting patterns of alternative splicing from RNA-Seq data in the context of gene models and EST data[J]. Genome biology, 2012, 13(1): R4.

3)網址：https://sourceforge.net/projects/cash-program/

Wu W, Zong J, Wei N, et al. CASH: a constructing comprehensive splice site method for detecting alternative splicing events[J]. Briefings in Bioinformatics, 2017: bbx034.

2. 多平台結合分析高基因密度基因組

網址：https://github.com/flemingtonlab/public

3. 全長轉錄本分析流程TAPIS

網址：https://bitbucket.org/comp_bio/tapis

Abdel-Ghany S E, Hamilton M, Jacobi J L, et al. A survey of the sorghum transcriptome using single-molecule long reads[J]. Nature communications, 2016, 7.

4. 全長轉錄組瀏覽器

網址：https://github.com/goeckslab/isoseq-browser

Hu J, Uapinyoying P, Goecks J. Interactive analysis of Long-read RNA isoforms with Iso-Seq Browser[J]. bioRxiv, 2017: 102905.

5.全長轉錄組測序新轉錄結構發現注釋工具

網址：https://bitbucket.org/ConesaLab/sqanti

Tardaguila M, de la Fuente L, Marti C, et al. SQANTI: extensive characterization of long read transcript sequences for quality control in full-length transcriptome identification and quantification[J]. bioRxiv, 2017: 118083.

6.全長轉錄組Iso-Seq和RNA-Seq集合進行無參考轉錄組分析

Ning G, Cheng X, Luo P, et al. Hybrid sequencing and map finding (HySeMaFi): optional strategies for extensively deciphering gene splicing and expression in organisms without reference genome[J]. Scientific Reports, 2017, 7.

另外一種技術就是單分子納米技術，顧名思義，就是讓核酸分子單獨的經過納米通道，通過每個分子不同的電信號進行識別。這個技術的代表是牛津大學的naropore技術。

納米孔測序技術

納米孔測序技術是最近幾年興起的新一代測序技術。目前測序長度可以達到150kb。這項技術開始於90年代，經歷了三個主要的技術革新：一、單分子DNA從納米孔通過；二、納米孔上的酶對於測序分子在單核苷酸精度的控制；三、單核苷酸的測序精度控制。目前市場上廣泛接受的納米孔測序平台是Oxford Nanopore Technologies（ONT）公司的MinION納米孔測儀。它的特點是單分子測序，測序讀長長（超過150kb），測序速度快，測序數據實時監控，機器方便攜帶等。這篇綜述重點總結了MinION測序儀的技術特點和應用領域。

一、 MinION測序技術簡介

MinION納米孔測序儀的核心是一個有2,048個納米孔，分成512組，由專用集成電路控制的flow cell。測序原理見圖1a所示：首先，將雙分子DNA連接lead adaptor（藍色），hairpin adaptor（紅色）和trailing adaptor（棕色）；當測序開始，lead adaptor帶領測序分子進入由酶控制的納米孔，lead adaptor後是template read（即待測序的DNA分子）通過納米孔，hairpin adaptor的作用是DNA雙鏈測序的保證，然後complement read（待測序分子的互補鏈）通過納米孔，最後是trailing adaptor通過。在上述測序方法中，template read和complement read依次通過納米孔，利用pairwise alignment，它們組合成2D read；而在另外一種測序方法中，不使用hairpin adaptor，只測序template read，最終形成1D read。後一種測序方法通量更高，但是測序準確性低於2D read。每個接頭序列（adaptor）通過納米孔引起的電流變化不同（圖1c），這種差別可以用來做鹼基識別。

二、 MinION相對於其他NGS測序平台的優勢

1、鹼基修飾的檢測

納米孔測序技術可以檢測四種胞嘧啶（cytosine）鹼基修飾，分別為5-methycytosine，5-hydroxymethycytosine，5-formylcytosine和5-carboxylcytosine。檢測準確率為92%-98%。

2、實時測序監控

對於臨床實踐，實時獲取和分析DNA/RNA序列是一件很重要的事情。對於傳統的NGS測序，做到這一點非常不易。但對於MinION，實現起來相對容易。這不僅是因為MinION體積小，易操作等，更是因為在測序過程中單分子穿過納米孔，其電流變化可以檢測並識別，這種設計允許用戶在測序過程中根據實時結果做出一些判斷。

實時測序監控對於MinION針對特定目標序列測序有重要的應用（圖2）：當DNA片段通過納米孔時，如果電流變化呈現與目標序列一樣的趨勢，則通過納米孔。如果DNA片段與目標序列呈現不同的電流變化趨勢，則不能通過納米孔。通過這樣的方式，實現目標序列的富集，從而顯著減少測序時間，對於在野外和即時診療有重要意義。

3、測得更長的read

用MinION測序儀，對於1D read可以獲得300kb長的read；對於2D read可以獲得60kb長的read。利用MinION測序儀產生的長read，研究人員設法填充了人參考基因組Xq24號染色體一個長50kb的gap。該區域存在多個CT47基因串聯拷貝，研究人員利用MinION的長read判斷該區域極有可能存在8個CT47基因拷貝（圖3）。

4、結構變異的檢測

NGS短序列的特徵使結構變異的檢測往往不準確。這個問題在癌症的檢測中尤其嚴重，這是因為癌症組織中充斥各種結構變異。研究人員發現利用MinION測得的幾百個拷貝的長read得到的結構變異結果比NGS平台測得的上百萬read得到的結果更可靠。

5、RNA表達分析

對於RNA表達分析，NGS平台測得的短序列帶來的問題是序列需要進行拼接，才能得到轉錄本。這給可變剪切研究帶來困擾。因為通常情況下NGS測序不能產生足夠的信息將不同形式的可變剪切區分開來。而利用MinION測序儀產生的長read，可以更好地解決這個問題。研究人員利用果蠅的Dscam1基因為例，其存在18,612種可變剪切形式，利用MinION測序儀可以檢測到超過7,000種可變剪切形式，而這樣的結果利用NGS的短序列測序是不能夠獲得的。

6、生物信息學配套軟體的發展

近些年來，隨著生物信息分析方法的發展，MinION測序reads成功比對參考基因組的比例已經從66%提升至92%。文章下面對各種工具的適用場景進行了分別介紹。工具概述見表1。

1、鹼基識別工具

Metrichor是ONT公司推出的基於隱馬爾可夫模型進行鹼基識別的軟體。它的使用需要網路連接。MinION註冊用戶需要獲得開發者賬號才能獲得軟體的源代碼。2016年初，兩個實驗室分別開發了Nanocall和DeepNano軟體。這兩個軟體都可以在本地運行，不需要網路連接。Nanocall基於隱馬爾可夫模型，可對1D read在本地進行鹼基識別；DeepNano基於recurrent neural network framework，可以獲得比隱馬爾可夫模型更準確的鹼基識別。

2、序列比對工具

傳統的NGS序列比對軟體不能滿足MinION序列比對的需求。這是因為MinION測序數據錯誤率相對高且序列長，即使調整參數也不能取得好的效果。在這種情況下，適合MinION測序數據的比對軟體應運而生。

MarginAlign是通過更好地估計MinION測序reads測序錯誤來源從而提高與參考基因組的比對效率。通過評估檢測到的變異，發現其顯著提高了比對的準確性。由於MarginAlign是基於LAST或BWA mem的比對結果進行優化，結果的最終準確性依賴最初的比對結果。

GraphMap是另一個用於MinION測序數據比對的軟體。它利用的是一種啟發式（heuristics）方法，對高錯誤率reads和長reads進行了優化。一項研究表明GraphMap比對的靈敏性可與BLAST媲美，且它對reads測序錯誤率的估計與MarginAlign相當。

3、從頭組裝工具

MinION測序數據不適合利用NGS數據組裝的de Bruijn圖法進行組裝，主要存在兩方面的原因。第一，de Bruijn圖法等方法依賴測序reads拆分的k-mer測序準確，而高錯誤率的MinION測序reads不能保證這一點；第二，de Bruijn圖的結構不適用長reads。

MinION測序數據的長reads更適合Sanger測序時期基於有overlap的共有（consensus）序列組裝的方法。需要的是在組裝前進行測序reads的糾錯。第一個基於這種原理進行組裝的研究組利用MinION數據組裝了一個完整的E. coli K-12 MG1655基因組，序列準確率達到99.5%。他們利用的流程稱為nanocorrect，首先利用graph- based，greedy partial order aligner方法進行糾錯，然後利用Celera Assembler將糾錯後的reads進行組裝，最後利用nanopolish對組裝結果進行進一步提升。

4、單核苷酸變異檢測工具

Reference allele bias是一種在變異檢測中傾向於少檢測出變異的現象。該現象在測序reads錯誤率高的情況下尤為嚴重。

MarginAlign中的marginCaller模塊是研究機構開發的適用於MinION測序數據的變異檢測軟體。MarginCaller利用maximum-likelihood參數估計和多條測序reads序列比對來檢測單核苷酸變異。當計算機模擬出測序錯誤為1%時，測序深度在60X，marginCaller檢測出的SNV具有97%的準確率和完整度。另外一項研究中，研究者利用GraphMap方法，檢測人基因組的雜合變異，可以達到96%的準確率。利用計算機模擬的數據，GraphMap同樣可以高準確率，高完整度地檢測出結構變異。

Nanopolish也可以用來檢測變異。它用的是event-level alignment演算法。在該方法中，從參考基因組序列開始，依次評估參考基因組序列產生的電信號與測序reads的相似性進而依次修飾參考基因組序列，生成一個consensus read。直到consensus read與測序read產生的電信號足夠相似，將consensus read與參考基因組序列比較，得到變異。該方法在埃博拉病毒的研究中有大約80%的準確性。

PoreSeq採用與Nanopolish類似的演算法。它可以利用更低深度的測序數據獲得高準確率和高完整度的SNV檢測。在一項研究中，PoreSeq在16X測序深度下獲得99%準確率和完整度的SNV檢測，與marginAlign相比，它顯著降低了測序深度。

5、共有序列的測序（consensus sequencing）方法

MinION測序數據目前只有92%的準確性。在低深度測序的情況下，不能夠滿足類似單體型（haplotype phasing）和人樣品的SNV檢測的要求。文章提到的解決問題的方法是rolling circle amplication，它的原理是將一個片段進行多次擴增，在一個DNA分子上生成多個拷貝，這樣最終獲得的共有序列測序結果的準確率可以達到97%。

三、MinION目前的應用領域

1、即時檢測傳染源

NGS測序方法可以在醫院環境下進行傳染源等病菌的檢測，而MinION測序方法提供的是一種全新的體驗。MinION在測序讀長，攜帶的方便性，檢測時長方面具有NGS不可比的優勢。文獻記載從樣品準備到發現致病菌只需要6小時時間，而從樣品放置機器到發現致病菌只需要4分鐘。文章列舉了截至目前用MinION測序儀涉及研究的物種及詳細描述了西非爆發埃博拉病毒時，MinION測序方法在病毒檢測過程中起到的重要作用。

2、非整倍體檢測

MinION可以在胎兒非整倍體產前檢測中發揮重要作用。利用NGS平台，通常需要1-3周時間獲得結果。而利用MinION測序方法，文獻報道只需要4小時。

3 、太空應用

在太空飛行中，發掘細菌和病毒是很困難的事情。大部分研究是將樣品帶回地球進行測序鑒定。目前，NASA準備利用MinION測序儀在國際空間站進行病菌的實時測序。

四、展望

1 、PromethION

為了滿足研究人員對高通量測序的需求，ONT公司開發了一個台式納米孔測序儀—PromethION。PromethION有48個flow cell，可以單獨運行也可以並行。每個flow cell包括3,000個通道（channel），每天產生6Tb測序數據。

2、測序read準確性

目前MinION測序儀的測序準確率在92%左右。對於類似致病菌和可變剪切的發掘，這樣的測序準確率可以滿足需求。但是對於臨床檢測，通常read準確率需要達到99.99%。因此，文章提到ONT公司需要在測序相關的化學反應和鹼基識別軟體方面進行優化。

另外，文章提到MinION測序方法存在非隨機的測序錯誤。比如MinION不能很好處理長於6個核苷酸的同聚物的測序，同時缺少鹼基修飾檢測的內參訓練。如果這兩個問題能夠得到解決，共有序列（consensus）測序的準確率可以達到大於99.99%。

3 、測序read長度

目前MinION測序長度達到150kb。在未來一段時間，可以期許其測序長度可以得到更大提升。

4 、RNA直接測序

逆轉錄和PCR擴增會導致很多RNA自身信息的丟失，所以目前ONT公司和一些研究機構正在嘗試用納米孔技術進行RNA直接測序。之前的研究已經為此奠定了基礎，比如研究表明可以對tRNA進行單通道和固態納米孔（solid-state nanopore）檢測，且納米孔可以檢測DNA和tRNA的鹼基修飾。

5 、單分子蛋白測序

目前，質譜（mass spectrometry）是做蛋白組分析較好的技術，但是對於靈敏性，準確性和解析度，目前的技術都存在局限性。2013年一項研究報道了酶介導的蛋白通過單通道納米孔。這項研究表明蛋白的序列特徵可以被檢測。這些發現為蛋白質納米孔測序奠定了很好的基礎。

五、參考文獻

The Oxford Nanopore MinION: delivery of nanopore sequencing to the genomics community

End

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 果殼網 的精彩文章:

※僅靠「吃陽光」就能活下去的神秘海洋生物！
※一個看了會涼快的推送：液氮洗臉！你說爽不爽！
※「表情機器人」上電視，腐國觀眾紛紛表示：這啥玩意？快拿走！
※第二站：體驗科學探索奧妙——暢遊科技館
※烏龜為啥要長出又硬又重的殼？為了作更好的挖掘機

TAG:果殼網 |

您可能感興趣

※許文濤：基於高通量測序技術的細菌非編碼RNA研究方法進展
※一文讀懂基因測序技術的前世今生
※Cell：深度長文！基因測序揭秘前列腺癌侵襲的根源！
※測序周報·科研篇：TCGA巔峰之作！29篇重磅論文繪就「泛癌症圖譜」，或將顛覆癌症分類及治療
※利用重測序、高密度遺傳圖譜和轉錄組數據重新組裝注釋高粱參考基因組
※結核能否治療？DNA測序顯神通
※史上最大規模測序揭示：這些基因突變與2型糖尿病風險有關！
※告別質譜分析？新一代蛋白質測序方法誕生
※中國發現：小麥A基因組測序和精細圖譜繪製完成
※全基因組測序在細菌性傳染病檢測和監測中的應用
※Cell封面：單細胞測序揭示膠質母細胞瘤的「變形計」
※中國專家共識：乳腺癌易感基因的下一代測序技術檢測流程標準規範
※基因大數據測序分析平台方案介紹
※公開徵求《腫瘤相關突變基因檢測試劑（高通量測序法）性能評價通用技術審查指導原則（徵求意見稿）》意見
※宏基因組測序在精準防控傳染病中的應用
※Cell：單細胞測序繪製骨髓基質細胞全景圖譜，助力急性白血病診斷治療
※強勢來襲！基因測序「新貴」將深耕中國市場
※「零基礎」學習單細胞轉錄組測序
※高雲翔案三審在即，DNA樣本已進入檢測序列，保釋難度大
※基因測序表明生態因素影響蝙蝠視覺