怎麼樣的臨床試驗才能登頂 Lancet?
近日瀏覽 Lancet 網頁,其主頁放了一篇關於兒童克羅恩病(Crohn s Disease,CD) 的隊列研究,筆者並非消化內科相關,而是呼吸內科一年級研究生,抱著建模方式或許可以借鑒到老師的臨床研究項目中的心態入了坑。
圖一,3 月 15 日 Lancet 的主頁截圖
本文針對兒童克羅恩病併發症預測的多中心的隊列研究,來自於 RISK Study。現在大多數 SCI 雜誌對於臨床研究接稿都要求試驗開展前已進行臨床試驗註冊,收完病人再去補是無濟於事的。
克羅恩病併發症分型:
狹窄型(structuring,B2)和穿透型(penetrating,B3),細胞外基質(extracellular matrix proteins,ECM) 形成和降解間的平衡與兩類併發症的聯繫。其異質性由宿主因素主導的,受環境和腸道微生物菌群的影響。
主要檢測了四個方面的特異性的指標:基因型、微生物血清學、迴腸基因表達、腸道微生物。
結果:建立了競爭風險模型預測併發症發生;有穿透型併發症風險的病人更應早期進行抗 TNFα 治療;腸道菌群方面,Ruminococcus 與狹窄型密切相關,而 Veillonella 與穿透型相關;在狹窄型病人中,迴腸 ECM 生成的基因表達上調,加入模型預測特異性大大增加。
接下來以 Result 解讀為線索,解讀大數據處理,分為 3 個部分。
01
第一部分解讀
疾病併發症競爭風險模型和早期抗 TNFα 治療的療效比較分析
圖三,隨訪時發展為狹窄或穿透併發症的生存曲線,圖 (A)為整個隊列,圖(B)為傾向匹配隊列。
隨訪時間為 3 年,縱坐標為無併發症的百分比,橫坐標是隨訪天數。早期抗 TNFα 的治療減少發展為 B3 的 3 倍風險,而對發展為 B2 無明顯影響,B3 風險高的病人更應該進行早期抗 TNFα 治療。
納入早期抗 TNFα 的治療隊列選用符合方案集(Per-protocol,PP)規則,只分析實際完成整個治療的。配對運用傾向評分匹配法(propensity-matched analysis,PSM),依託傾向評分法(propensity score analysis,PSA),消除觀察性研究的混雜因素,最終得到 1 個綜合變數: 傾向性得分。再使用貪心匹配演算法(greedy-matching algorithm),鉗值 (caliper)為 0.1 SDs。
表 1,疾病併發症的競爭風險模型和早期抗 TNFα 治療的療效比較分析
作者意圖建立風險分層模型來預測併發症發生的風險,以及加入早期抗 TNFα 的治療變數後對模型的影響。主要以 P 值決定是否將變數納入模型。風險比(hazard ratio,HR)可從圖中讀出。
相比於標準 Cox 比例風險回歸模型(standard Cox proportional hazard regression)關注的是臨床的某一結局(單終點),競爭風險模型(competing-risk model)可分析多潛在結局的生存數據。評價早期抗 TNFα 的治療,使用療效比較研究(comparative effectiveness research,CER)。
02
第二部分解讀
基因表達與併發症及其預測
基因表達通過第二代測序 RNASeq,運用到基因本體(Gene Ontology,GO)資料庫,ToppFun 工具找到有表達差異的通路,DAVID 生物信息資料庫來做功能注釋富集分析(functional annotation enrichment analyses)。
圖四(A),展示的是進展為併發症的病人迴腸表達上調的基因的比例,橫坐標是 B2(藍條) -B3(紅條);縱坐標為富集明顯的表達上調的 19 個基因本體通路,括弧里是每條通路包含的基因數。
圖四 (B) 是發展為併發症的病人的迴腸基因表達組合的散點密度圖,橫坐標是 B2 vs B1,縱坐標是 B2 vs B3。基因差異表達倍數值(fold changes,FC),取log2是要縮小兩者差距。可以看出 ECM 基因在 B2 中表達增高。
圖四 (C) 展示的是火山圖,X 軸代表基因差異表達倍數(FC,log2),Y 軸代表統計檢驗的顯著性 (p 值,-log10)。比較 B2 low probability(併發症預測低風險,實際卻狹窄) 和 B1 protected(併發症預測高風險,實際卻沒發展為併發症)。B1 protected 中,線粒體呼吸鏈 (mitochondrial respiratory) 基因 (暗紅色點) 幾乎全部表達上調;B2 low probability 中,ECM 重塑基因 (亮藍色點) 表達上調。
以上是迴腸基因表達的分析,那麼如何將這個變數加入到競爭風險模型呢?
表 2,包含 ECM 基因標誌的競爭風險模型
文章將圖四(A) 中 B2 最低端的 ECM 結構成分 (位於 pathway 富集分析的分子功能部分) 的 70 個基因中的 PC1(first principal component) 作為基因標誌,納入到模型中,運用了主成分分析(Principal component analysis,PCA)。用 AUROC、靈敏度、特異度、陽性預測值、陰性預測值評估 ECM 基因標誌納入對模型的判別能力的影響,發現其在預測 B2 時起到了關鍵的作用。
表 3,appendix 中的 Table S4 上調的迴腸基因的通路富集分析,B2(這張圖可以複習之前講過的很多知識點)
03
第三部分解讀
風險預測模型的有效性驗證 (Risk Prediction Validation)
建模相當於發揮分類器的作用,交叉驗證(Cross Validation,CV)是常用的模型驗證方法,可以從有限的數據中獲得儘可能多的有效信息,流程:選取模型參數導入訓練數據(training set)建模用驗證數據(validation set)測試模型效果。估計隊列的樣本量時,使用了模擬數據做從而確定樣本量。當樣本量支持將數據分為兩份,用有效性驗證(split sample);樣本量小,選用留一法(leave-one-out,LOOCV)驗證。
文章中使用的 STROBE(Strengthening the Reporting of Observational Studies in Epidemiology),是由國際醫學期刊編輯委員會 2004 年制定的寫作規範,投稿時應注意按規範書寫。
至此,通過三部分的解讀,探討怎麼樣的臨床試驗才能登頂 Lancet,如果這是一個作者寫的,我一定會說不會計算機的生物學家不是好醫生。
醫生作為主體參與臨床試驗是必不可少的,作者一欄中大多是多中心的 MD,所以筆者特意查了下裡面的 PhD,基本是生物信息、流病、基因組學分析的專業人士,可見一篇 Lancet 文章的發表是多學科的協作創新。
總之,走過基因組時代,我們又迫不及待地踏入了大數據時代,深度學習、神經網路、AI 這些原本活在計算機的語言同樣衝擊著生物醫學界,如何結合傳統生物學、基礎醫學對疾病機制進行深刻的認識,發掘診斷、治療的新靶點、新方法,生物信息學或許是新的路數。
本文接近於零基礎探討,希望給同樣的小白選手以思路,共同學習,純屬拋磚引玉,也望各路大神多多指點,分享經驗。鑒於公眾號閱讀的簡潔性,詳細版發在丁香園論壇上,歡迎有興趣的同道前來指導。
※獻給初學者:如何從小白成為扎細胞小能手
※Nature:小視頻居然可以導入細菌 DNA
※老司機帶你一網打盡啟動子和轉錄因子結合位點
※如何書寫 SCI 論文的標題
※如何做出穩定可重複、背景乾淨的 western 條帶?掌握這些,屢試不爽
TAG:生物學霸 |
※Facebook小規模試驗評論頂踩功能
※Limbitless Solutions的兒童3D列印假肢進入臨床試驗階段
※又一肺癌新葯Poziotinib取得超預期臨床試驗結果!
※Ann Rheum Dis:硬皮病臨床試驗協會損傷指數的建立和驗證
※iPhoneX到底是開拓者還是試驗品?
※adidas Crazy BYW 系列試驗版本曝光,還有用 Boost 做鞋面的?
※喜訊!首個治療白血病的單克隆抗體Cirmtuzumab已通過I期臨床試驗
※NEJM:III期臨床試驗證實藥物rimegepant能有效治療急性偏頭痛
※CytoDyn將與FDA會面,最終確定旗艦藥物leronlimab的關鍵試驗方案
※EbioMedicine:突破!科學家在人類臨床試驗成功清除機體的衰老細胞!
※Jim Tucker的前世試驗
※Uber Elevate準備今夏開始試驗用無人機來送食物
※Leronlimab單葯治療HIV遞增試驗結果超預期!
※試驗發現Amazon Rekognition面部識別錯誤匹配率高 還存在種族歧視
※Stratolaunch巨型雙機身飛機完成中速滑行試驗
※iPhone遇到氦氣真會黑屏死機?有人做了試驗
※Nature:這種腦刺激試驗有助消除抑鬱症
※被調侃「刨絲器」的Mac Pro真能刨絲?蛋疼老外做了個試驗
※Facebook和推特等社交媒體如何成為臨床試驗的下一股破壞力量?
※土豪試驗:一顆手槍子彈能射穿幾台iPhone X