當前位置:
首頁 > 最新 > SQANTI:廣泛分析全長轉錄組測序數據,用於全長轉錄組鑒定和定量中的質控

SQANTI:廣泛分析全長轉錄組測序數據,用於全長轉錄組鑒定和定量中的質控

SQANTI:廣泛分析全長轉錄組測序數據,用於全長轉錄組鑒定和定量中的質控

摘要

使用三代測序進行全長轉錄組高通量測序為發現數千種新的轉錄本鋪平了道路,甚至在注釋良好的哺乳動物物種中也是如此。測序技術已經發展成為研究的必需品及能夠發現變異體的工具。本研究介紹了SQANTI,一種用於三代轉錄組測序分類的自動化方法,它可以使用47個唯一的描述符來評估數據和預處理方法的質量。以小鼠神經轉錄組((PacBio三代測序)為例來說明SQANTI是如何有效地分析全長轉錄組的組成。通過RT-PCR對 ToFU處理過的PacBio的轉錄本進行整體評估,發現許多新的轉錄本是測序方法的技術偽影,SQANTI質量描述符可以用來設計過濾策略刪除它們。在這些精確的轉錄本中,大多數新的轉錄本都是現有剪接位點的新組合,既豐富了一般代謝功能,也豐富了神經特異性功能。本研究揭示了:這些新的轉錄本對正確量化轉錄水平(通過最先進的基於二代的量化演算法)有著重要的影響。通過將SQANTI處理過的轉錄本和公共蛋白質組學資料庫進行比較,發現在蛋白質組學檢測中,很難進行可替代的異構體檢測。SQANTI允許用戶最大限度地利用三代測序的分析結果,通過提供質量評估來精確轉錄本質量。

SQANTI介紹

GIF

SQANTI是用Python實現的,用R進行統計分析和生成描述性繪圖。其程序有兩個主要功能:sqanti_qc.py和sqanti_filter。

sqanti_qc.py:(1)根據所提供的參考序列校正轉錄本,並返回校正後的轉錄本。(2)將測序的轉錄本與現有的基因組注釋進行比較,生成基因模型,並根據剪接點對轉錄本進行分類。(3)利用GeneMarkS-T對ORFs進行了預測。(4)運行了預測RT切換的演算法;(5)返迴轉錄本水平和剪接水平描述性文件(總共有47個描述符)。

sqanti_filter:用SQANTI特性通過兩種不同的方法對工件執行篩選。過濾器刪除在基因組3『端位置下游腺嘌呤延伸的轉錄本。機器學習過濾器基於上述策略的用戶數據進行Random Forest 分類。

圖1 實驗模型和SQANTI分析綜述

實驗及分析結果說明

1

與方

實驗材料:新生小鼠(4d)神經祖細胞(NPCs)、少突膠質祖細胞(OPCs)

測序平台:Illumina、PacBio

實驗流程:見圖1C

2

從轉錄本長度和剪接點對轉錄本進行評估

三代轉錄組測序的一個基本目標是捕捉轉錄組複雜性的程度,並獲得完整的轉錄本。SQANTI包括所有描述的基本圖形,以便於研究這些方面。由於分析提供了轉錄本分類細節,增加了對測序結果質控的理解度。作者從SQANTI分類中各組分轉錄本長度的角度對轉錄本情況進行了描述(圖2),表明:三代測序的小鼠神經轉錄組,恢復了全長轉錄本; 同時,由於剪接事件和3"/5"端長度的變異,相對於小鼠參考轉錄組,具有重要的新穎性。

圖2. 校正的PacBio轉錄本的SQANTI特徵

從可變剪切角度對校正後的轉錄本進行評估。作者對剪接點的類型進行分類並對其在個各分類中做了評估,發現:新的非標準剪接分布在一些組分比較集中,說明實驗偽影可能存在(圖3A);5"端無論是標準的還是非標準的剪接,都不能被觀察到 (圖3B),這可能是5"端未加註釋的結果,且5"端前120nt的新可變剪接轉錄本幾乎沒有short reads支持(圖3B);另外作者還預測了reverse transcriptase (RT) template switching,這個機制能解釋一部分新的非標準剪接。

圖3. 校正的PacBio轉錄本中的剪接連接特徵

3

PacBio轉錄本的PCR驗證

為了揭示 ToFU分析所檢測到的轉錄本是否正確,我們對67個包含不同SQANTI類別的mRNAs進行用dT引物了RT-PCR擴增,30個用隨機引物進行了擴增驗證(下表1)。結果表明:在NNC(新的未注釋轉錄本)中出現的偽轉錄本較多。圖4A是對下表的舉例說明。

4

利用SQANTI特性構建ToFU質量控制過濾器

作者基於這些特徵訓練機器學習(ML)分類器對 ToFU輸出的轉錄本進行了過濾。將SQANTI預測結果與RT-PCR驗證結果比較,發現兩者相差不大(圖4B)。並將SQANTI與其他過濾方法進行了對比,結果顯示SQANTI的結果得分最高(圖4C、D)。作者還將SQANTI過濾前後的分類描述狀況進行了比較(圖4E)。

圖4.SQANTI在小鼠數據集上的過濾性能

5

與蛋白資料庫比較分析

作者對SQANTI發現的新轉錄本進行了GO富集分析,發現這些轉錄本在代謝過程、神經發生調節、少突膠質細胞譜系、行為和鉀離子運輸調控等方面富集(圖5A)。此外還研究了公共蛋白質組資料庫中的肽數據是否可以支持SQANTI發現的新轉錄本(圖5B、C)。結果表明,在公共蛋白質組資料庫中直接檢測新轉錄本的編碼肽鏈是不可行的。其具體過程感興趣的讀者可查看原文。

圖5.SQANTI在小鼠數據集中預測到的轉錄本的GO富集分析及與蛋白組資料庫中的肽匹配分析

6

SQANTI對二代測序準確量化轉錄本有重要影響

最後,作者用二代測序結果map三代轉錄本和參考基因組的轉錄本上,發現可變剪切出現的轉錄本結構差異會導致預測到的該基因的表達最多轉錄本出現誤差。

註:該軟體的使用前提為有參物種,且物種參考基因組的組裝質量對該軟體處理結果有很大影響。

研究亮點

1.在質控方面,該軟體分類詳細,質控角度相對全面,且有具體的描述符,便於用戶精確轉錄本質量。

2.在過濾偽轉錄本方面,該軟體準確率較高,且作者有進行RT-PCR的驗證。

3.在本文章中,作者對該軟體的評估比較全面。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |