侵權(quán)投訴
訂閱
糾錯
加入自媒體

醫(yī)學影像AI為什么需要小數(shù)據(jù)學習?

近年來,深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)一定程度上顛覆了醫(yī)學影像行業(yè)的發(fā)展路徑,人工智能介入下,影像相關(guān)科室繁雜重復的工作逐漸由算法接替,醫(yī)生資源短缺這一問題似乎出現(xiàn)了解決的希望。

但AI亦有其限制。從當前發(fā)展情況看,有效的人工智能算法大多聚集于存在大量標準化數(shù)據(jù)的病種,畢竟要實現(xiàn)高質(zhì)量AI診斷,需要大量的高質(zhì)量標注圖像進行前期的算法訓練。

這一數(shù)據(jù)相關(guān)的特質(zhì)限制了醫(yī)學AI的廣泛應(yīng)用。現(xiàn)實之中,罕見病和疑難雜癥的數(shù)據(jù)較少,囿于患者隱私、數(shù)據(jù)安全等問題,數(shù)據(jù)收集行為的開展也較為困難。此外,醫(yī)學圖像的標注過程成本較高,對于不同的標注內(nèi)容往往需要開發(fā)特殊的標注工具并交由有經(jīng)驗的醫(yī)生進行。多方面原因協(xié)同下,某些醫(yī)學圖像問題的高標注質(zhì)量醫(yī)學圖像數(shù)據(jù)集非常稀缺,其AI自然也難以孕育。

好在AI面臨的困境并非沒有解法;叵肫饋,人類只需通過極少的樣本就能辨別新的事物,那么機器是否能以復制人類的這一能力呢?答案或許是可以的。最近醫(yī)學AI領(lǐng)域興起的一系列小數(shù)據(jù)學習方法便是以模仿人類的判別能力為目標,嘗試通過減少需要的數(shù)據(jù)量,實現(xiàn)特定目標圖像的識別,最終克服醫(yī)學領(lǐng)域數(shù)據(jù)量少、標準缺乏的問題。

以先驗知識為基礎(chǔ)的小樣本學習

要實現(xiàn)小樣本學習(few-shot learning)必須要具備一些特定條件,譬如模型學習前已經(jīng)吸收了一定類別的大量資料后,再加之新類別的極少量數(shù)據(jù),最終實現(xiàn)小樣本模型的形成。因此,小樣本學習的關(guān)鍵是在算法中納入合適的先驗知識。

具體到醫(yī)療領(lǐng)域之中,很多醫(yī)學圖像模態(tài)中廣泛存在器官的位置先驗信息,例如CT圖像中肝臟主要位于腹腔的右上位置,而脾則在腹腔的左上部分,這些位置先驗信息對于AI識別特定類別的器官有非常大的幫助。

體素科技在頂級會議ISBI2021上發(fā)表的論文《Location Sensitive Local Prototype Network For Few-shot Medical Image Segmentation》便提出了一種基于位置先驗信息的局部原型網(wǎng)絡(luò)(location sensitive local prototype network,見圖1)。該論文以肝和脾影像數(shù)據(jù)構(gòu)建訓練集,再將其收獲先驗信息的算法加入少量腎部影像分割任務(wù),實現(xiàn)基于小樣本學習的AI模型訓練。

image.png


圖一:基于位置先驗信息的局部原型網(wǎng)絡(luò)框架

在公開的CT器官分割數(shù)據(jù)集Visceral進行試驗后,其結(jié)果表明,論文提出的新框架比目前的最好方法在Dice Score指標上提高了10%,顯著推進了小樣本下的器官分割這一領(lǐng)域的技術(shù)進展。

利用極端變化一致性來提高數(shù)據(jù)不足情況下醫(yī)學圖像分割的魯棒性

除了數(shù)據(jù)獲取困難這一問題外,研究人員在訓練時還會遭遇數(shù)據(jù)來源不統(tǒng)一的問題。

由于醫(yī)學圖像的拍攝設(shè)備和拍攝環(huán)境和方式多樣,各個醫(yī)院和體檢中心之間的人群分布差異明顯,因此很難收集和標注足量的訓練數(shù)據(jù)充分涵蓋不同來源的圖像特征。如果訓練數(shù)據(jù)和實際測試數(shù)據(jù)存在明顯的的分布差異(domain shift),生成的模型往往性能不佳。

體素科技在頂級會議MICCAI2020上發(fā)表的《Extreme Consistency: Overcoming Annotation Scarcity and Domain Shifts》為解決這一問題提供了方向。具體而言,該論文提出了極端一致性(extreme consistency)的概念,核心思想是在訓練數(shù)據(jù)中加入極端的圖像變換(比如大量強烈的亮度,對比度, 旋轉(zhuǎn), 尺寸變換),以增加訓練數(shù)據(jù)的多樣性,并假設(shè)這些極端的圖像變換并不影響圖像的語義含義。舉例來說,眼底圖像中的血管在經(jīng)過極端的旋轉(zhuǎn)和亮度對比度等變換后,依然能夠?qū)?yīng)血管本身。

為了實現(xiàn)這一構(gòu)想,論文設(shè)計了一種半監(jiān)督算法(semi-supervised learning, 見圖2), 迫使模型遵守極端變化前和變化后的語義一致性這一約束,進而提高模型對于分布差異的魯棒性。該論文在皮膚病變分割數(shù)據(jù)集(ISIC)和兩個眼底血管分割數(shù)據(jù)集 (HRF和STARE)上進行了測試,展現(xiàn)了在數(shù)據(jù)不足和分布差異較大情況下,算法的魯棒性和準確性的優(yōu)勢。

image.png


圖2:左邊是基于極端一致性的半監(jiān)督學習方法的偽代碼,右邊是網(wǎng)絡(luò)結(jié)構(gòu)示意圖。

少標注和弱標注情況下醫(yī)學圖像分割如何解決?

除了數(shù)據(jù)的來源問題,對已有數(shù)據(jù)進行分割標注同樣需要研究人員付出大量成本。在中國,影像數(shù)據(jù)標注非常昂貴,尤其是像素級別的醫(yī)學圖像分割標注,人力支出更為巨大。因此,近期大量的研究工作試圖解決不完善醫(yī)學圖像分割數(shù)據(jù)集中的兩類典型問題:

· 標注稀缺。數(shù)據(jù)集中只有極稀少的圖像數(shù)據(jù)有分割標注。

· 弱標簽。數(shù)據(jù)集中的圖像數(shù)據(jù)只有部分標注、或者標注帶有噪聲、或者只有圖像級的類別標簽沒有逐像素的分割標注。

對于這兩問題,體素科技發(fā)表在頂級期刊《Medical Image Analysis》中的文章《Embracing Imperfect Datasets: A Review of Deep Learning Solutions for Medical Image Segmentation》系統(tǒng)性地對現(xiàn)有方案進行了詳細的回顧和分類總結(jié)(見圖3所示)。根據(jù)醫(yī)學圖像分割數(shù)據(jù)集的不同缺陷,論文對這些方案的選擇給出了實際的指導建議。

image.png


圖3:醫(yī)學分割圖像數(shù)據(jù)集數(shù)據(jù)集缺陷問題及相應(yīng)訓練策略總結(jié)

近年來,體素科技和交大科研團隊合作參與了多個醫(yī)學AI挑戰(zhàn)賽并獲得佳績。體素科技團隊在ISBI2020學術(shù)會議上舉辦的ADAM比賽黃斑定位任務(wù)上獲得了第三名的成績。ADAM比賽是由百度靈醫(yī)智慧和中山大學中山眼科中心聯(lián)合舉辦,包含了黃斑定位等四個任務(wù),吸引了來自20多個國家的近400支參賽隊伍。

image.png


黃斑區(qū)域是眼底的一個特別重要的功能區(qū)域,精確定位黃斑對于進一步的輔助診斷很有幫助。該任務(wù)一大難點是,很多嚴重影響視力的眼底疾病都發(fā)生在黃斑區(qū)域,使其外觀和正常黃斑相比有較大變化,導致現(xiàn)有常見深度學習模型對于病變黃斑的定位不夠魯棒。體素科技團隊創(chuàng)新性的設(shè)計了一個雙流網(wǎng)絡(luò)融合眼底圖像和對應(yīng)的血管分割信息,可以借助于眼底血管形狀和走向信息來估計黃斑的位置,大大提高了嚴重病變的黃斑區(qū)域定位效果。該模型在ADAM比賽決賽中平均黃斑定位誤差為25個像素(排名第3), 體現(xiàn)了一定的臨床可用性。

除此之外,體素科技團隊在COVID-19 Lung CT Lesion Segmentation Challenge - 2020(“肺部CT新冠肺炎分割2020”國際挑戰(zhàn)賽)中獲佳績,在肺炎分割關(guān)鍵指標Dice Score上排名第2,所有指標加權(quán)排名第3。

image.png


COVID-19-20國際挑戰(zhàn)賽是由Children‘s National Hospital聯(lián)合英偉達(NVIDIA)、美國國立衛(wèi)生研究院(NIH)和國際醫(yī)學圖像計算和計算機輔助干預協(xié)會(MICCAI)舉辦的國際競賽,設(shè)置了分割和量化由SARS-CoV-2感染引起的肺部病變(主要是毛玻璃影)的挑戰(zhàn)任務(wù),旨在探究基于深度學習的肺炎病灶分割模型用于COVID-19 CT 影像定量分析的可行性,為COVID-19 鑒別診斷提供幫助。COVID-19-20國際挑戰(zhàn)賽吸引了來自29個國家的200多支參賽隊伍。

此次獲獎的新冠肺炎分割模型采用目前在各類醫(yī)學圖像分割任務(wù)中均表現(xiàn)突出的深度學習模型nn-Unet 框架進行肺炎病灶分割,對圖像分割中的各個環(huán)節(jié),包括圖像預處理,網(wǎng)絡(luò)架構(gòu)和學習過程等都進行了自動化的優(yōu)化和參數(shù)估計。同時為了解決噪聲標注帶來的模型優(yōu)化方向偏離以及在醫(yī)學影像中普遍存在的前景背景類別不平衡的問題,體素科技團隊選取了Noise-Robust Dice Loss作為模型的優(yōu)化損失。最終該模型在同源測試集上Dice Score為0.6581(排名第2)。

作者:動脈網(wǎng)

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

醫(yī)療科技 獵頭職位 更多
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號