如何利用重症醫學資料庫MIMIC開展研究

最新 06-26

很多臨床一線的醫師都或多或少有些感嘆，自己想開展臨床研究，但卻苦於手裡沒有數據。的確，如果能建立一個資料詳細、樣本量大的病歷資料庫，就相當於找到了一座臨床研究的金礦。只要對病歷資料庫中的數據不斷進行挖掘，總能找到合適的研究切入點，進而發表高水平的論文。然而，建立資料齊全、樣本量大的資料庫對於普通醫生而言可謂極為困難。

可以想像，每個病人就診的資料都極為紛繁複雜，有實驗室檢查資料、微生物培養資料、影像學檢查資料、來自床旁監測設備的資料、治療措施、液體進出量、病史和體征等。如果把這些資料全部採集齊全並建立一個臨床資料庫(database)的話，需要花費極大的人力、物力和財力。另一方面，如果一個資料庫內的資料較少，雖然建立資料庫的難度降低了，但是勢必會有很多重要數據缺失，將來利用這種資料庫開展研究時就會顯得捉襟見肘。

然而，天無絕人之路，我們身處在一個大數據時代，只要用心，數據可謂俯拾皆是。很多成熟的、大樣本的臨床資料庫都是免費對外開放的，只要通過一定的考試或者提出書面申請，就可以獲得相應的數據。在過去幾年，筆者利用重症醫學資料庫 MIMIC 發表過一些論文。在此，筆者擬對該資料庫進行介紹，並分享一些利用 MIMIC 數據發表論文的體會。

MIMIC 資料庫概要

1. MIMIC 資料庫數據來源

MIMIC 是一個重症醫學資料庫，全稱是Medical Information Mart for Intensive Care。2003年，在NIH的資助下，來自貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大學和麻省總醫院(MGH)的急診科醫生、重症科醫生、計算機科學專家等共同建立的一個資料庫[1]。該資料庫在建立之初的名字為Multiparameter Intelligent Monitoring in Intensive Care II，簡寫為MIMIC II。

2016年9月，MIMIC II 資料庫升級為MIMIC III，並改名為Medical Information Mart for Intensive Care，簡寫仍然是MIMIC[2]。由於MIMIC III 資料庫包含的樣本量大於MIMIC II，且下載和安裝本地資料庫時無需安裝虛擬機，所以人們一般傾向於用最新的MIMIC III 開展研究，本文所介紹的內容也主要是基於MIMIC III，MIMIC II 的安裝和使用可以參閱既往的文獻[3]。

MIMIC III 目前(2018年6月)的版本是1.4 (V1.4)，共包含了2001年6月至2012年10月間在Beth Israel Deaconess Medical Center住院的38645名成年個體和7875名新生兒的的58000餘次住院資料。這些資料被整理成了26個CSV格式的表格供研究者查詢。

值得注意的是，MIMIC II 以及MIMIC III 都連接了社保資料庫(social security database)，記錄了患者的隨訪時間和結局，這一點對於開展遠期預後研究來說極為關鍵。MIMIC III 數據中與個人隱私有關的資料都進行了一定的處理，比如隱去了患者名字，只有一個數字表示患者身份(subject_id)；表格中記錄的時間並非真實的時間(比如入院時間、出生時間、死亡時間等)，而是隨機加減了一些數字(Date shifting)。

2. MIMIC 資料庫使用許可權的獲取

MIMIC 資料庫使用許可權的申請大致可以分為以下幾步：

註冊：首先到physionet網站進行註冊，建議從註冊開始就填寫個人的真實信息；註冊網址為：https://physionet.org/pnw/login；

參加倫理學考試：進入CITI的網站並參加倫理學考試，考試之前需要先註冊帳號並填寫個人信息。

網址為：https://about.citiprogram.org/en/homepage/

通過考試後，CITI會給申請者發一個證書。申請者需要在physionet上傳證書才能獲得 MIMIC 的使用許可權。由於註冊和考試的過程相對繁瑣，本文不可能截圖逐一展示每個步驟的注意事項，讀者可以在網上自行搜索相關教程，中文版的資料庫註冊、安裝教程已經在網上流傳。當然，也可以對照physionet網站上的英文說明逐步進行，網上流傳的中文教程實際上就是對physionet網站上的英文說明的概括和總結。

資料庫註冊說明的網址為：https://mimic.physionet.org/gettingstarted/access/

MIMIC 資料庫的授權使用是人工審核的，因此提交申請後一周左右才會被告知是否獲得了資料庫使用許可權。獲得了資料庫使用許可權後再進入自己的physionet，就可以看見資料庫的相關信息(圖1)。

圖1 進入physionet後可以查看自己具有使用權的數據

獲取到資料庫使用許可權後，接下來要做的事情就是將數據下載到本地電腦，並利用Postgres軟體進行安裝和導入。MIMIC III 雖然有網路版，但網路版反應較慢，且無法下載數據，因此建議大家還是使用本地數據。

本地資料庫安裝的大致步驟是：

從physionet進入個人帳號，之後進入圖1所示的MIMIC III資料庫，下載所有的數據包(約40G)。注意這些數據包都是以csv.gz為後綴的，這些數據在下一步處理之前需要解壓；

下載並安裝postgres：可以簡單將postgres理解為一個資料庫管理系統，在這個系統內，研究者可以較為方便地通過SQL語言提取數據；

下載建庫的腳本(script)，下載地址為：https://github.com/MIT-LCP/mimic-code/tree/master/buildmimic/postgres，下載完之後按照網站的說安裝即可。

由於需要將40G的數據導入電腦，所以資料庫的安裝用時較長，一般需要10小時以上，具體取決於個人電腦的性能。

在windows中的安裝教程可以參閱：

https://mimic.physionet.org/tutorials/install-mimic-locally-windows/；

Mac或Unix中的安裝教程可以參閱：

https://mimic.physionet.org/tutorials/install-mimic-locally-ubuntu/。

https://mimic.physionet.org/about/mimic/，實際上是一個十分重要的網站，裡面包含了對資料庫的解釋，資料庫安裝教程等，建議在使用資料庫開展研究之前仔細閱讀。目前網路上流傳著該資料庫註冊、安裝中文教程，內容與該網站上的說明大同小異(圖2)。

圖2 MIMIC III 資料庫的網站說明

圖2網站說明中左側邊欄的getting started主要是說明如何獲取資料庫的使用許可權；Tables in MIMIC主要是介紹各個表格的內容，表格中每個欄位的含義；Data details是介紹每部分數據的獲取細節；Tools主要是一些資料庫檢索工具，比如在線檢索網址；community主要是介紹一些代碼交流的社區；Tutorials主要是本地資料庫安裝教程。詳細閱讀該網站的說明是利用 MIMIC III 數據開展臨床科研的基礎。

3. MIMIC III 資料庫的結構

MIMIC III 資料庫共包含了26個CSV格式的表格，這些表格詳細記錄了患者在ICU治療期間的幾乎所有的數據，比如實驗室檢查數據、人口學特徵、微生物學檢查結果、住院期間的流轉、治療過程、液體進出量等。表格主要分為兩種，一種是以D開頭的，表示該表格為字典，比如d_labitems，表示實驗室檢查字典，內含每個實驗室檢查結果的說明；沒有以D打頭的表格則是記錄患者信息的表格，比如labevents則表示患者住院期間的所有實驗室檢查結果。

MIMIC III 在網站上對每個表格內每個欄位的含義進行了解釋，供研究者參閱和查詢。為便於讀者更好地了解該數據，筆者進行了一些總結如下(表1)。(https://mimic.physionet.org/mimictables/admissions/)

表1 MIMIC III 資料庫中每個表格所包含的信息

關於MIMIC III 的資料庫結構，需要特別注意的幾點是：

1、MIMIC IIII 資料庫中用於識別患者身份的欄位共有3個：subjects_id，hadm_id和icustay_id。其中subjects_id是患者身份的唯一標識，即一個subject_id只對應一名患者，一名患者也只有一個subject_id。hadm_id是患者每次住院的身份識別號，一個患者可能多次住院，因此一個subjects_id會對應多個hadm_id，但一個hadm_id只能對應一個subject_id。icustay_id表示患者在進入ICU的編號，因為患者一次住院可以多次進入不同的ICU，因此一個icustay_id只能對應一個hadm_id，當然也只能對應一個subject_id，但一個hadm_id可以對應多個icustay_id。在利用 MIMIC III 資料庫進行研究時，往往需要運用sql語言對多個資料庫進行連接，連接的基礎一般就是這三個欄位。

2、患者的臨床資料不一定是住ICU期間的臨床資料，也可能是住普通病房時的資料。記錄患者入院時間的表格為admission，內含三個時間點：admittime，表示患者入院時間；dischartime，表示患者出院時間；deathtime，表示患者院內死亡的時間。如果deathtime為空(null)，則表示患者住院期間未死亡。記錄患者進入和離開ICU的表格為icustays，這個表格中有兩個時間較為重要，分別是intime和outtime，前者表示進入ICU的時間，後者表示離開ICU的時間。當然，如果患者在ICU死亡，那麼dischartime、outtime和deathtime理論上就是同一個時間，但實際上會稍微有些出入，估計是由於錄入不及時造成的；

3、MIMIC III 中的數據來自於兩套數據採集系統：carevue和metavision。在icustays表格中，有一個欄位叫dbsource，用於標識數據是來源於carevue還是metavision。CareVue記錄的是2001至2008年入院的患者資料，Metavision則是2008至2012年期間入院的患者資料。在Metavision中，病人的隨訪時間最少為90天，在CareVue中，病人的隨訪時間則至少為4年。換而言之，在進行預後研究時，如果將數據來源限定為CareVue，則可以將隨訪時間假定為4年，對於4年以後死亡的患者，可以將其在出院後第4年生存狀況定義為「存活」。當然，如果患者的死亡狀況(DOD_SSN)為空格(null)，也同樣可以表明患者在出院後4年仍然存活。

4. MIMIC III 資料庫的數據提取

數據提取是利用 MIMIC III 資料庫開展臨床科研中最為重要的一個環節，其目的是將分布在不同表格內的數據進行整合、排列，最終篩選出自己想要的數據，且數據的排列格式能滿足統計軟體的需要。一般採用sql語言對數據進行提取，這對於計算機編程基礎較為薄弱的臨床醫師來說是個極大的挑戰。

另一種較為常用的數據提取策略是先用最簡單的sql語言將所需要的信息提取到若干個獨立表格，或者將整個表格導出成csv格式的文件，然後再用其它軟體(比如R、Stata和python)進行整合。

圖3 MIMIC IIII 資料庫主界面

圖3為 MIMIC III 資料庫的操作界面。需要注意的幾個地方是：

在寫sql代碼時，最好先執行「set search_path to mimiciii」，隨後的所有操作均不需要指明表格的位置；否則，任何操作都應該在表格名前面加前綴mimiciii；

github上有很多現成的代碼包可以直接使用，連接網址為：https://github.com/MIT-LCP/mimic-code。這些代碼包主要是計算一些患者的特徵或者定義某一類患者，比如一些重症評分(如APS III、SIRS評分等)、共病指數、定義嚴重膿毒症、急性腎損傷人群等。對於計算機編程基礎較為薄弱的同行而言，充分利用這些腳本可以少走彎路；

利用github上的腳本可以生成一些新的物化視圖，這些物化視圖保存在materialized view目錄下；

建議自己根據自身研究方向需要，建立一些常用的物化視圖以便隨時調用。

熟悉sql語言是提取數據的基礎，但對於普通醫生而言，學習sql語言難度極大，沒有任何捷徑而言，唯一的辦法就是多練，多參考github上較為成熟的程序。筆者推薦兩本sql參考書給初學者：一本是由明日科技主編的《SQL server從入門到精通》(清華大學出版社2012年出版)；另一本是張權、郭天驕主編的《SQL查詢的藝術》(人民郵電出版社2014年出版)。

sql語言主幹是「select *** from *** where ***」語言，select表示要選擇的變數、from表示數據來源表格，where是對表格進行篩選。當然，僅僅利用「select *** from *** where ***」是無法完成一些複雜的數據提取的，必須輔之以其它語句，比如case、epoch、row_number over語句等。同時，數據提取往往還需要對多個表格進行連接，此時left/right join語句就顯得十分重要。

需要說明的是，採用sql語言從 MIMIC III 提取數據是一件仁者見仁，智者見智的事情，但是用sql語言提取數據的前提是研究者一定要十分熟悉資料庫的結構，特別是表格中每個欄位的含義。研究者最終得到的數據是一個csv格式的文件，此文件可以直接導入R、SPSS、sigmaplot等常用統計軟體進行運算。

如何利用 MIMIC III 資料庫

開展研究示例

MIMIC III 資料庫為普通醫生，特別是重症醫學科醫生開展臨床研究提供了極大的便利，因為該數據不僅資料詳細，而且包括隨訪資料。其隨訪終點包括：住院期間死亡、ICU內死亡和出院後的全因死亡。如何利用該資料庫開展臨床科研視個人專業情況而定。筆者結合自己利用 MIMIC III 資料庫開展臨床研究的經歷，談一些簡單的研究方法和套路。

對影響重症病人預後的因素進行探討具有極為重要的價值，因為疾病預後在很大程度上可以影響治療措施的制定。筆者的主要研究方向之一就是實驗室標誌物與重症患者預後的關係。

這一類研究的主要套路就是：

利用diagnoses_icd中的診斷和順序(seq_num)從所有重症病人中篩選出一類自己感興趣的疾病的患者，得到患者的subject_id、hadm_id和icustay_id；

從d_labitems和labevents中找到自己感興趣的實驗室標誌物：採用group、row_number等語句限定患者入院(或進入ICU)的第一次檢查結果或特定時間內的檢查結果；

從patients中提取出患者的基本特徵，包括死亡時間(dod_ssn)或是否發生院內死亡；

從icustays中找到患者的出院時間 (dischtime)，結合患者的死亡時間(dod_ssn)計算出隨訪時間。注意：來源於carevue的病例隨訪時間最短為4年，來源於metavision中的數據最短隨訪時間為90天；

從github上找到計算各種嚴重程度評分的腳本，然後在本地電腦中運行得出各個患者每次住院的疾病評分(比如SOFA、SAPS II、APS III等)，並將這些嚴重評分納入最終的統計學分析。

這類研究整體的思路就是：首先展示研究對象的基本特徵，包括人口學特徵、實驗室檢查結果、嚴重程度評分結果、院內死亡率等。然後分析待研究的實驗室指標個患者臨床特徵的關係(這部分研究有時也可以省略)，最後採用Kaplan-Meier曲線和Cox風險比例模型分析實驗室標誌物與疾病預後的關係。

如果研究的終點是院內死亡，則可以用受試者工作特徵曲線(ROC)曲線和多元logistic回歸方程對實驗室標誌物的預後價值進行研究。筆者曾利用 MIMIC II 資料庫研究過紅細胞體積分布寬度(RDW)與進入ICU治療的急性胰腺炎患者預後的關係[4]、研究RDW、中性粒細胞/淋巴細胞比值(NLR)與蛛網膜下腔出血患者遠期預後的關係[5]、研究紅細胞平均血紅蛋白濃度、鉀離子與急性心肌梗死患者預後的關係[6]。

此外，國外學者也曾研究過RDW、NLR與所有重症患者(不考慮其進入ICU的最初診斷)預後的關係[7,8]。利用 MIMIC III 開展的研究都是觀察性研究，在設計上遵循一般觀察性研究的套路，一般就是先進行單變數的分析，比如ROC分析、Kaplan-Meier曲線等，然後再進行混雜因素的校正。

經典的校正混雜因素的方法是多元logistic回歸、Cox風險比例模型，近年來一些新的校正混雜因素的方法也越來越普及，比如傾向匹配分析、工具變數分析等。此外，有時需要證明某一實驗室標誌物可以提供其它臨床資料所不能提供的預後信息，此時，就需要用c-statistic、凈重分層指數(NRI)和綜合改良區指數(IDI)等方法了。

除了研究預後外，筆者還曾利用 MIMIC III 資料庫中重症患者的鈣離子檢測結果開展過關於鈣離子危機值的研究。眾所周知，外周血鈣離子可以分為離子鈣和結合鈣，其中發揮生理作用的是離子鈣。但離子鈣只能在血氣分析儀上檢測，總鈣(離子鈣加上結合鈣)卻可以在生化儀上檢測，因此總鈣的檢測在臨床上更為多見。

臨床實驗室制定的危急值包括總鈣危急值和離子鈣危急值，嚴格來講，只有離子鈣危急了才能算真正的危機值，也就是說：離子鈣才是金標準，畢竟血液中真正發揮作用的是離子鈣。臨床上，總鈣危急值的設置是否合理，是否能準確地預測出真正的鈣危急值(離子鈣危急值)尚不明確。

造成這種困局的主要原因就是：臨床上很少有病人會同時檢測離子鈣和總鈣。MIMIC III 資料庫中的病人都是重症患者，離子鈣和總鈣檢測結果較多，這就為筆者評價和探討總鈣危急值的設定提供了可性能。筆者首先從資料庫中提取了所有的離子鈣檢測結果，然後尋找同時檢測了總鈣、白蛋白，且總鈣、白蛋白檢測時間和離子鈣檢測時間相隔不超過1小時的患者資料。

這樣就會形成多個「總鈣-離子鈣-白蛋白」組合，筆者以國際公認的離子鈣危急值設定範圍來確定患者是否屬於高鈣血症或低鈣血症的「危急值」，隨後筆者採用受試者工作特徵(ROC)曲線法分析了總鈣預測離子鈣危急值的能力，最終發現總鈣預測低鈣血症危急值的準確性較差，但預測高鈣血症危急值的準確性較高。該文目前已被Journal of Clinical and Laboratory Analysis接受。

結束語

本文介紹了 MIMIC III 資料庫的使用許可權的獲取、安裝、數據的提取以及如何利用 MIMIC III 開展臨床研究。需要強調的三個問題是：

筆者僅僅是從實驗室標誌物的角度舉例說明如何利用 MIMIC III 資料庫開展研究。每個專業的臨床醫生的專註點可能不同，研究思路和套路也會有很大的差別；

提取數據之前一定要仔細研究資料庫結構；

一定要充分利用github上的腳本為自己服務。

參考文獻

Saeed M, Villarroel M, Reisner AT, Clifford G, Lehman LW, Moody G, et al. Multiparameter Intelligent Monitoring in Intensive Care II: a public-access intensive care unit database. Crit Care Med. 2011;39:952–60.

Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M, et al. MIMIC-III, a freely accessible critical care database. Sci Data. 2016;3:160035.

Zhang Z. Accessing critical care big data: a step by step approach. J Thorac Dis. 2015;7:238–42.

Hu ZD, Wei TT, Tang QQ, Fu HT, Yang M, Ma N, et al. Prognostic value of red blood cell distribution width in acute pancreatitis patients admitted to intensive care units: an analysis of a publicly accessible clinical database MIMIC II. Clin Chem Lab Med. 2016;54:e195-7.

Huang YL, Han ZJ, Hu ZD. Red blood cell distribution width and neutrophil to lymphocyte ratio are associated with outcomes of adult subarachnoid haemorrhage patients admitted to intensive care unit. Ann Clin Biochem. 2017;54:696–701.

Huang YL, Hu ZD. Lower mean corpuscular hemoglobin concentration is associated with poorer outcomes in intensive care unit admitted patients with acute myocardial infarction. Ann Transl Med. 2016;4:190.

Hunziker S, Celi LA, Lee J, Howell MD. Red cell distribution width improves the simplified acute physiology score for risk prediction in unselected critically ill patients. Crit Care. 2012;16:R89.

Salciccioli JD, Marshall DC, Pimentel MA, Santos MD, Pollard T, Celi LA, et al. The association between the neutrophil-to-lymphocyte ratio and mortality in critical illness: an observational cohort study. Crit Care. 2015;19:13.

本文作者：胡志德

胡志德，醫學博士。內蒙古醫科大學附屬醫院檢驗科醫生。長期從事檢驗醫學研究，近五年來先後以第一作者、共同第一作者或通訊作者的身份發表SCI論文三十多篇，半數論文發表在Clinical Chemistry and Laboratory Medicine、Clinica Chimica Acta、Clinical Biochemistry、Annals Clinical Biochemistry等檢驗醫學主流雜誌上。論文影響因子共計60餘分，在Webof science資料庫中被BMJ、Thorax等雜誌引用300餘次。目前擔任Annals Translational Medicine和Journal of Laboratory and Precision Medicine兩本雜誌的executive editor、Journal of Thoracic Disease的Section editor、臨床與病理雜誌青年編委，醫學研究與發表雜誌編委。曾應邀為Clinical Genetics、Critical Reviews in Clinical Laboratory Sciences、Translational Cancer Research、Medical Science Monitor，Journal of Clinical and Laboratory Analysis、Postgraduate Medical Journal、國際檢驗醫學雜誌、檢驗醫學、臨床與病理雜誌、分子診斷與治療雜誌、國際檢驗醫學雜誌審稿。作為項目負責人主持國家自然科學基金一項。《傻瓜統計學》、《聰明統計學》和《瘋狂統計學》主編之一。

AME科研時間

愛臨床，愛科研，也愛聽故事，即刻關注

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AME科研時間 的精彩文章:

TAG:AME科研時間 |