真實世界研究(RWE)需要大數據的支持
真實世界數據來源非常廣泛,既可是以特定目的開展的觀察性研究數據,也可是非研究性質的數據,如多種機構(醫院、醫保部門、民政部門、公共衛生部門)日常監測、記錄、儲存的各類與健康相關的數據,既涵蓋了從實際醫療過程中產生的數據(也可稱為真實世界醫療大數據),也涵蓋了從實際醫療過程搜集的小樣本數據。
大數據作為一個重要概念目前被引入眾多行業。醫學領域的大數據涵蓋範圍廣泛,尚缺乏統一和公認的大數據分類系統,根據數據收集內容的差異,可分為:一是常規醫療和健康數據,包括個人健康和醫療數據,如人口社會學特徵、診斷、實驗室檢查、影像學檢查、醫囑、手術、成本數據等,是我們通常所指的醫療大數據。二是在部分或全部收集常規醫療數據的基礎上,根據特定研究目的收集生物標本檢測的檢測數據,如基因組學、蛋白組學、代謝組學等數據,常被稱為生物醫學大數據。從本質上講,醫療大數據滿足真實世界數據的所有特徵,屬於真實世界數據。但真實世界數據涵蓋的範疇顯然比醫療大數據更廣,數據並不一定要求達到海量,也不一定強調數據的多樣性。醫療大數據是真實世界數據與醫學大數據的一個交集。
醫學大數據的構建
醫學大數據是指涵蓋和健康相關的所有信息,不僅僅是醫療衛生信息,還需要包括社會背景,職業,經濟收入,日常習慣,興趣愛好等全面信息。
1.醫療大數據
通常所說的臨床診療大數據指的就是醫院醫療大數據。醫院醫療數據是最主要的醫療健康大數據,產生於醫院常規臨床診治、科研和管理過程,包括各種門急診記錄、住院記錄、影像記錄、實驗室記錄、用藥記錄、手術記錄、隨訪記錄和醫保數據等。這些醫療數據中的大多數都是用醫學專業方式記錄下來的,以臨床實踐自然隨機形式存在,是最原始的臨床記錄。從臨床管理或研究角度看,這些數據是關於病人就醫過程的真實記錄,或者也可以說是臨床醫療行為留存的痕迹,每一個數據都是有價值的,包括記錄不完善或錯誤的數據,都可能隱藏了有待發掘和利用的重要醫學信息。
醫療記錄大數據的獲得需要依賴於醫療大數據公司對醫療數據進行艱苦的清洗和整合,以整合為醫療大數據。
2.健康大數據
人群健康數據一部分來源於區域健康服務平台大數據,依託於區域健康服務平台的大數據是重要的醫療健康大數據之一,也是未來醫療健康大數據的發展方向。一方面,服務平台彙集整合了區域內很多家醫院和相關醫療機構的醫療健康數據,致使數據量大幅度增加。另一方面,服務平台數據的收集事先都經過充分的科學論證和規劃,數據比原先的醫院數據更為規範。
目前互聯網醫療、可穿戴設備、手機等可獲得海量健康數據,但是通常缺乏專業的醫療數據。基於移動物聯網的個人身體體征和活動的自我量化數據是一種新型的醫療健康大數據。此類自我量化數據包含了血壓、心跳、血糖、呼吸、睡眠、體育鍛煉等信息,一般利用可穿戴設備收集,除了有利於幫助了解自身健康狀況以外,經過一定時期累積,在醫學上會變得很有用,不僅有助於識別疾病病因或防控疾病,而且也有助於個性化臨床診療,塑造全新的醫療或健康管理模式。
3.醫療費用大數據
相比於健康數據,醫療費用數據則更分散,更難以收集。最好的數據來源是是醫保報銷數據。但是在中國,醫保以公立醫保為主,數據掌握在政府手中,很難對外開放,不同地區的醫保數據互不聯通,而且醫保數據以報銷結算為目的,醫學細節數據比較缺乏。
4.醫保費用資料庫
主要來源於國家醫保抽樣數據和地方醫保數據(往往要通過學術合作的方式獲取)。
5.其它類型數據
比如,環境等公共數據:氣象,溫度,水質,綠化等各種因素組成的有機整體,醫療健康大數據的現狀是信息「孤島」,政府部門、醫療機構、公共衛生機構、商業公司等等互不溝通。未來或可走向整合,迎來醫療大數據產業蓬勃發展。
用於研究高質量的數據來源有限,是開展真實世界研究面臨最大挑戰
在中國,真實世界數據匱乏,亟待開發並利用更多關於中國人群的真實世界數據;醫療服務機構的HIS系統各自為營,標準化程度低;部分KOL掌握局部地區單病種的真實世界數據。在技術層面,用真實世界數據評估治療措施的風險和效果並進行決策的時間還相對短,方法學的系統性,技術上的完善性。在操作層面,中國需要提高各界對真實世界的認識、重視與投入;需促進多部門在開發及利用數據方面的合作。
此外,由於醫療體系的特殊性,目前絕大部分使用的高質量數據仍是非結構化數據,處理技術和處理能力存在困難。檢測和診斷數據多為靜態數據,分析預測結果有一定的滯後性。可穿戴設備開發有限,設備精度不夠,更多用於消費而不是醫療級別的使用。數據聚合的方式還是處於初級階段,自動化程度需要提高。
大數據分析重在解決潛在「偏倚」
大數據可以提供可利用的多源數據和強大的統計分析,保證了數據的多元性、重要性和時效性。對於數據的分析可以採用一體化的數據管理模式,避免原始數據的錯誤,提高數據處理效率和準確性。但在中國扔缺乏真實世界研究的環境,RCT仍然是目前最重要的獲得證據的方法。潛在偏倚類型包括選擇偏倚、信息偏倚、混雜偏倚、失訪偏倚。比如,患者特徵,包括年齡,性別,並發疾病,行為因素等;疾病特徵,包括腫瘤分期,組織學特徵,生物標記狀態,轉移位置等。那麼如何減少偏倚和避免偏倚?我們需要從兩個層解決問題,研究設計和統計分析來看。在研究設計中可從研究目的和問題、招募患者、設計和收集數據、分析數據和解釋結果等儘可能收集與偏倚產生的測量相關數據。在統計分析層面可多層分析、多元回歸、傾向評分、工具變數等來解決。
2017真實世界研究峰會日程
聯繫人:
鄧梅
手機:+86 150 2640 7330
E-mail: mei.deng@bioon.com
點擊【閱讀原文】了解詳情及報名
※Nature:胞外基質蛋白Agrin促進心臟再生,有助開發新的心臟病療法
※ASCO2017:那些值得期待的抗癌新葯
※國內外專家強強聯手-為惡性血液腫瘤移植免疫治療打上一劑強行針
※Science:瘧疾可能會使骨骼變弱
※細數第八屆細胞治療國際研討會會議的青年千人
TAG:生物谷 |
※ARM推出iSIM新技術:今後不再需要實體SIM卡
※ARM新架構發布:整合SIM技術、不再需要實體卡
※FDA和EU的互認協議—您需要知道的內容
※ARM新架構發布:整合SIM技術、手機不再需要實體卡
※5G需要合力:大唐移動、是德科技在MWC成功演示5G-NR技術
※互聯網項目中大數據愈發的火熱,但大數據的驅動還需要實際支撐
※RTX技術還原真實光影 NVIDIA表示你需要一塊Volta GPU才能火力全開
※大數據作為互聯網項目與人工智慧需要科學全面的執行和發展
※NOLO VR CEO張道寧:VR行業需要一些技術型公司
※你需要知道的UI和UX知識點
※WPA2中的WiFi「Krack」漏洞:你需要知道的
※GMP文件體系需要不斷的完善
※OPPO陳明永:AI不需要被神化 國際市場要深耕
※大數據研究項目中數據科學家需要掌握遷移學習
※愛需要實在
※SETI先鋒說,「尋找外星智能」需要一個新的名字
※AMD Ryzen第二代發布日期,新聞和功能:你需要知道的一切
※從KPI到OKR:需要「以正治企+」
※大數據在雲端的應用需要改變IT技能集
※新聞集團CEO:Facebook谷歌需要向內容出版商付費