高通量數據如何上傳到GEO?
前言
實驗室最近有一批數據在發表文章之前需要上傳到GEO Gene Expression Omnibus。
所以記錄下上傳數據的流程給大家借鑒。
準備
創建NCBI賬號登記GEO信息
在submitter這個網址的第二個CONTACT選項登記你的信息。登記結束後點擊SAVE即可。PREVIEW可以查看你的錄入信息。
因為我已經登記成功了,顯示的是我的信息,所以這裡就不截圖了。
別點擊NEW SUBMISSION了,不然就要重新錄入一遍,別問我是怎麼知道的
隨後進入GEO頁面,選擇Submit to GEO。
因為上傳的是二代測序數據,所以選擇High-throughput sequence submissions
GEO數據上傳需要三類文件,很簡單的閱讀理解,不翻譯了。
GEOarchive has three required components:
a metadata spreadsheet;
processed data files,
raw data files.
Details about each component are described below.
通過三步悠然的上傳數據
第一步,準備raw data
即測序文件,二代測序就是指的fastq或者fastq.gz文件,同時還有md5文件(Linux下md5sum file即可獲得)
第二步,準備processed data
即分析結果文件,ChIP-seq就是wig/bw文件,RNA-seq就是counts matrix或者FPKM文件等, 換而言之指的是需要方便別人查看你結果的文件。
第三步,填寫metadata spreadsheet
下載第一個紅標區域的metadata spreadsheet template
如圖所示為ChIP-seq數據提交模板,加粗藍色欄為必填,未加粗的藍色欄為選填欄目,滑鼠懸停在右上角紅色三角出會有當前欄目的填寫說明。
注意事項:雙端測序在表格最後一欄需要再填寫一遍,同時需要提供average insert size 和 standard error
這裡提供一個perl腳本,使用方法如下:
另外一種解決方法:
數據上傳
準備好需要的三類文件以後,我們就著手上傳我們的數據了。
首先GEO的數據上傳是通過FTP完成的,WINDOWS用戶可以通過FileZilla之類的FTP客戶端完成上傳。
用戶名和密碼在網站上公布出來了。請自行在目錄下建立一個自己的文件夾(不要多建,該FTP只允許上傳數據和新建,不允許修改文件和下載文件)。
密碼會半年修改一次,請自行核實當前密碼。
用法如下,請更換password,自行選擇上傳數據文件夾和本地文件夾。
寫信給GEO
收尾工作
就是等待GEO人員處理完數據給你回信啦,會給你一個鏈接查看你的數據,就和日常在GEO上查找的數據一樣。教程OVER。
注意
別忘了給GEO officer回一封感謝信。
參考文獻
http://timoast.github.io/2014/11/04/SizeEstimation/
http://blog.genesino.com/
更多徐春暉的好文
日常Bob鎮樓
TAG:生信媛 |