一個lncRNA項目的實戰
響應生信技能樹的號召:lncRNA數據分析傳送門, 一起來一個lncRNA數據分析實戰,你現在看到的是jimmy的筆記,首發於簡書:https://www.jianshu.com/p/56074633b629
step2 : 下載原始數據
首先下載sra的原始測序數據
樣本量稍微有點大,https://trace.ncbi.nlm.nih.gov/Traces/sra/?study=SRP081159
多餘0.5T的原始數據,我想一般人都不願意處理它的。
我們測試8個即可,主要是走完整個流程,了解數據分析的方方面面,而不是檢查別人的文章的錯誤之處。
分別是4個年齡段的恆河猴:1年(child),4年(Youth),10年(Adult)和20年(Old);然後各有兩種性別。至於腦部區域,就不管了; prefrontal cortex (PFC), posterior cingulate cortex (PCC), temporal cortex (TC), parietal cortex (PC) and occipital cortex (OC), hippocampus CA1 and dentate gyrus (DG), andcerebellar cortex (CB) regions
但是進入了SRA資料庫才發現,8個樣本也是太多了,還是就分析兩個吧~
下載SRA資料庫裡面的數據方式非常之多,選擇最適合自己,並且網速最快的即可:https://www.ncbi.nlm.nih.gov/books/NBK158899/ 我比較喜歡直接wget,代碼如下:
當然,如果你們學校或者伺服器閑置著,也可以全部下載,整個數據流程沒啥區別,就是多了一個批處理而已。
fastq 格式的測序reads如下:
然後下載作者製作的表達矩陣
這裡下載到的表達矩陣是一個Excel表格,所以需要轉為csv然後讀入R裡面進行簡單的統計。
當然了,如果你看文章細心的話,會發現,作者在其GitHub上面也公布了這些表達矩陣:https://github.com/DChenABLife/RhesusLncRN
TAG:生信媛 |