當前位置:
首頁 > 新聞 > 「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

1新智元報道

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

胸部X光檢查是最常見而且最具成本效益的醫學影像檢查之一。但是,胸部X光檢查的臨床診斷很具挑戰性,有時被認為比胸部CT成像更難診斷。過去一些有前景的工作已經被報道過,特別是最近在結核病(TB)分類方面的深度學習工作。由於只有幾千張圖像被用於學習,在現實世界的醫療中,在胸部X光片的所有數據設置上,實現臨床相關的計算機輔助檢測和診斷(CAD)仍然是非常困難的,甚至是不可能的。

Openi 是迄今最大的公共胸部X射線數據集,由於只有4143張正面視圖的胸部X光片,用於胸部疾病識別的深度神經網路的性能受到嚴重限制。

在這個資料庫中,NIH提供了近期工作中使用數據集的一個增強版本(增加了6個疾病類別和更多的圖像),規模大約是Openi的正面胸部X光片數量的27倍。所有數據集是從美國國家衛生臨床中心的臨床PACS資料庫中提取出來的,其中包含了醫院所有正面胸部X光片的約60%。

參與這項工作的NIH研究員呂樂博士告訴新智元,胸部X光圖像去除病人敏感信息工作量非常大, 類比於在Google Street View里找到人臉和汽車牌照並把它模糊化。

據悉,發布這些數據前,NIH的研究人員通過人工和機器將其仔細審查了至少7遍,最後NIH內部還找了十幾位博士生和醫生,將11萬張圖像肉眼過了兩遍。這都是為了讓全世界的研究人員更好的工作,就像呂樂博士說的那樣,「希望大家能夠喜歡並enjoy!」

NIH研究人員預期這個數據集相比以前的胸部X光片數據集更能夠代表真實的患者群體分布和現實中的臨床診斷挑戰。這個數據集的規模,從圖像總數和胸腔疾病頻率來看,也將會更好地促進深度神經網路的訓練。

詳細信息:3萬+患者,11萬+圖像,14類常見病理,以及更多

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

ChestX-ray數據集包含30,805名患者的112,120張正面視圖的X射線圖像,以及利用NLP從相關放射學報告挖掘的14類疾病的圖像標籤(每個圖像可以有多個標籤)。

數據集含有14類常見的胸部病理,包括肺不張、變實、浸潤、氣胸、水腫、肺氣腫、纖維變性、積液、肺炎、胸膜增厚、心臟肥大、結節、腫塊和疝氣,這是王瀟崧博士和Yifan Peng、呂樂博士等人CVPR 2017論文中列出的8中常見疾病的擴充(詳見下面ArXiv論文)。

  • CVPR-17 論文及地址:Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. IEEE CVPR 2017(http://openaccess.thecvf.com/content_cvpr_2017/papers/Wang_ChestX-ray8_Hospital-Scale_Chest_CVPR_2017_paper.pdf)

  • ArXiv論文,是CVPR-17論文的擴展,附錄中含有14種疾病分布和數據集描述:https://arxiv.org/pdf/1705.02315.pdf

  • Box圖像獲取地址:https://nihcc.app.box.com/v/ChestXray-NIHCC

需要注意的是,由於許多原因,原始的放射學報告(與這些胸部X射線研究相關)並不公開分享。文本挖掘疾病標籤的準確率預計>90%。

內容:

  1. 112120張正面視圖的胸部X片圖像,PNG格式,解析度為1024 * 1024(在images文件夾)

  2. 所有圖像的元數據(Data_Entry_2016.csv):圖像索引,標籤查找,跟蹤#,患者ID,患者年齡,患者性別,以及圖像位置。

  3. 約1000張圖像的邊框(BBox_List_2016.csv):圖像索引,標籤查找,Bbox [x,y,w,h]。[x y]是每個box的左上角的坐標。[w h]表示每個box的寬和高。

局限:

  1. 圖像標籤是利用NLP提取的,因此會出現一些錯誤的標籤,但NLP標籤的準確度估計為>90%。

  2. 疾病區域的邊界框(bounding boxes)數量非常有限。

  3. 胸部X線放射學報告預計不會被公開分享。我們鼓勵使用這個公共數據集的研究者和研究機構在以後的研究中共享「更新」的圖像標籤和/或新的邊界盒,可能這些是通過人工注釋的。

A:14類疾病的共同發生統計數據:

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

A. 2 chest X-ray數據集中14種胸部疾病的共生矩陣(co-occurrence matrix)

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

B. 常見胸部疾病的8個可視化實例(略)

C.一個樣本條目(請注意,原始的胸部x射線放射學報告是不公開分享的)

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

D.使用弱監督深度神經網路的兩個疾病定位樣本

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

構建真正大規模醫學圖像數據集

以下是呂樂博士今年5月GTC演講《構建真正大規模醫學圖像數據集:深度標籤發現和開放端識別》的部分PPT,從中可以了解到本次NIH公布的大規模胸部X光數據集背後的具體工作。

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

在診斷中整合機器的決策對人類醫生而言很難,好的醫生不願意用,不好的醫生不知道怎麼用。因此,必須要有更好的人機協作診斷過程。尤其是在精準醫療中,需要新的成像生物標記來更好的協助人類醫生做出精準的判斷,還需要具體到患者級別的相似度抽取系統,讓個性化診療成為可能。

與此相關的有三大關鍵,一是計算機輔助檢測和診斷,二是在醫療圖像分析中的語義分割,三是在真正大規模數據集上的深度信息挖掘(包括文本和圖像)。

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

在攻克放射醫學問題的道路上,可用醫學圖像數據集稀少成了一個重大問題。而研究人員也一直致力於提供更好的解決方案。

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

王瀟崧博士、Yifan Peng、、Hoo-chang Shin、呂樂博士等人一直在從事相關的研究。

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

下面這篇CVPR-17論文就是本次NIH公布的X光圖像數據集的基礎。

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

在現有成果的基礎上,我們也能看到未來的挑戰和研究方向:提升圖像標記的精度,提升多標籤分類的精度,以及提升定位的精度。

挑戰雖多,成果更大,也歡迎你的加入!

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集

全部64頁PPT下載:http://on-demand.gputechconf.com/gtc/2017/presentation/S7595-le-lu-building-truly-large-scale-medical-image-datatbase.pdf

【掃一掃或點擊閱讀原文搶購五折「早鳥票」】

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「解放程序員」MIT「創世紀」機器學習新系統,自動生成補丁修復Bug
智能終端圖像識別、美化、生成應用盤點
盛開互動CEO曾祥永博士:智能交互未來一定是多模態融合
深度線性神經網路也能做非線性計算,OpenAI使用進化策略新發現
劉強東挖角IBM和微軟高管背後:全面解析京東AI布局,從XY事業部到AI雲

TAG:新智元 |