當前位置:
首頁 > 最新 > 基因大數據測序分析平台方案介紹

基因大數據測序分析平台方案介紹

深度解析超存科技為基因測序數據分析領域研發的專業分散式文件存儲系統,用其專業教你什麼才是高效安全可靠的存儲系統。

超存科技基於精準醫學大數據分析的特點研發了Swarm生物醫學大數據計算與存儲平台,其重要優勢是:超融合存儲系統與超強並發文件系統(SuperSAN VSS系列)、適合於生物醫學數據管理的非結構化和結構化數據管理系統(BeeHive系統)和生物醫學大數據計算平台(Spider系統)。作為超存科技在生物醫學領域的重要解決方案,Swarm平台自2016年推向市場以來已經有多個行業內的優秀應用案例,比如:生物醫學大數據計算存儲一體化平台、PB級海量的基因數據存儲中心等。本期文章我們詳細了解一下,Swarm計算存儲平台中最核心且默默無聞的英雄:超融合存儲系統與超強並發文件系統(SuperSAN VSS系列)在基因測序高性能運算中的應用案例。

基因測序數據Call Variation的Workflow

小智

通過上圖,小智先帶大家來了解一下基因測序數據分析的幾個流程及相關的存儲需求特點吧。

1. 海量大文件高性能存儲,通常為PB級存儲甚至EB級存儲

從測序公司測序儀上下機的原始數據通常為幾個GB,甚至是數十GB大小的文件,通常用戶收到原始數據後需要快速存儲到自己的存儲系統上,而後開始對原始數據進行分析和解讀。尤其是對於臨床基因檢測項目來說,時間就是生命,更快的傳輸和運算速度將意味著更快的試錯和解讀,給臨床患者提供診治方案。因此整個測序數據的導入過程對文件存儲系統有著極高的要求,尤其是容錯性、數據一致性校驗、傳輸速度等,存儲系統(含並行文件系統)必須提供超大容量的數據存儲以及大容量單文件存儲的支持,同時必須在有限的時間內完成大量原始數據的並行導入。且原始數據通常來自於珍貴的樣本,對數據安全性要求極高,因此同時要求存儲系統具有較高的數據安全保障能力。

2. 複雜的高並發文件讀寫

測序原始數據,通常為Fastq格式的文件導入到系統之後,需要通過各種類型生物信息學Pipeline對其進行分析,而這些Pipeline中的軟體對計算資源、存儲系統IO讀寫能力要求各不相同。且通常在運算過程中需要同時對成百上千樣本數據進行分析,意味著對底層存儲系統的複雜高並發讀寫需求。如果在計算過程中因存儲故障,而導致運算中斷,將意味著所有的Pipeline將要從頭開始進行,浪費大量的時間的同時也將導致難以在限定時間內獲得想要的解讀報告,從而耽誤基於基因解讀報告的診療方案的執行。因此存儲系統除了要提供高並發文件讀寫支持外,還需保障在存儲出現故障時能夠通過雙活的備份存儲實時替換接入到系統中,從而避免引起數據運算的中斷和錯誤。

3. 超高的文件存儲業務連續性要求

從基因測序數據分析的特點,我們可以知道,整個基因測序數據分析需要存儲系統滿足7*24h連續高壓作業的要求,同時要求文件系統滿足高並發性能要求,真正做到分析人員輪休機器運算無休無故障。一旦存儲系統出現故障,整個測序數據分析就要中斷,甚至整個分析的Pipeline要重新進行。可以說,連續不間斷高負載高速運行就是基因測序數據分析和基因檢測報告解讀的根本生產力保證,因此對存儲系統的高可用性和讀寫性能有極高的要求。

小智

接下來小智帶你揭曉一下

超存科技針對基因測序應用的三個突出特點需求,提供的針對性解決方案,具體如下~

SuperSAN VSS系列存儲系統承載基因測序原始數據拓撲圖

首先,針對海量的基因測序原始數據導入,SuperSAN VSS系列存儲控制器可以提供多鏈路光纖(16GB FC或56GB IB)直連到數據傳輸伺服器,並配合傳輸伺服器的USB3.0介面提供高速傳輸能力;亦可通過高速廣域網傳輸軟體實現數據的高速遠程下載。

其次,同時對存儲架構進行優化,將大量原始數據存儲與計算存儲分離。針對原始數據存儲容量大不直接參与運算,無需保持持續高速並發寫入能力的特點,原始數據存儲池採用高速大容量機械盤,而計算存儲池則採用SSD全快閃記憶體陣列或者SSD快閃記憶體盤+HDD機械盤實現虛擬化混合存儲陣列,來滿足高並發讀寫以及運算過程中大量數據讀寫的需求。

然後,整體的分散式伺服器節點結合多個控制器的並行存儲架構,最大程度地提供了整體文件系統存儲的高可靠性,同時提供線上雙活保證,使得任何時刻其中一套存儲系統出現故障時,另外一套存儲系統將無縫接入,保障了整個基因測序數據運算及基因測序數據分析系統運行的業務連續性。

最後,整個並行多活控制器的存儲系統在超存自主研發的存儲底層自動化數據分離歸檔控制器的幫助下,可以實現數據錄入後自動複製到配對的歸檔存儲系統上,無需用戶干預自動實現數據的雙備份或多副本歸檔保護,並且在存儲底層提供數據一致性校驗與容錯保護。

小智提示

綜上所述,對於基因測序這種典型的高性能運算場景,超存科技SuperSAN VSS系列存儲系統的突出特點,完全匹配了基因測序數據分析應用的特殊需求。

科研資訊 盡在智匯

智匯如水

積少成多

HAPPY

來吧~擴散我,轉發我,我的智友們


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智匯醫圈Plus 的精彩文章:

TAG:智匯醫圈Plus |