醫(yī)學領域深度學習模型訓練的挑戰(zhàn)!

發(fā)布日期：2022-03-11 作者：WLT 點擊：44

在醫(yī)學數(shù)據(jù)集的訓練算法過程中面臨的諸多問題中，這三個是最常見的:多任務數(shù)據(jù)集規(guī)模不均衡。

對于這些問題，我會分享一些技巧來解決。類別不平衡挑戰(zhàn)

在現(xiàn)實世界中，我們看到健康的人比患病的人多，這也體現(xiàn)在醫(yī)學數(shù)據(jù)集上。并且健康和疾病類別的例子的數(shù)量是不均衡的。這反映了現(xiàn)實世界中疾病的發(fā)生頻率。在醫(yī)療數(shù)據(jù)集和信用卡欺詐數(shù)據(jù)集，你可能會看到正常樣本的數(shù)量是異常樣本的一百倍。

這樣一來，很容易被誤認為是車型性能優(yōu)異，其實不然。如果使用諸如accuracy_score accuracy之類的簡單測量，就會發(fā)生這種情況。對于這類數(shù)據(jù)集，準確率并不是一個很好的衡量標準，因為標簽傾斜嚴重，所以一個只輸出正常標簽的神經網絡的準確率甚至可以略高于90%。解決方案:

我們可以定義更有用的指標，比如F1指標或& # 34；準確率/召回率& # 34；。準確度被定義為& # 34；真實病例數(shù)/(真實病例數(shù)加上假陽性病例數(shù))& # 34；。當有很多錯誤的例子時，這是一個很好的措施。另一方面，召回率被定義為& # 34；真實案例數(shù)/(真實案例數(shù)+錯誤反例數(shù))& # 34；。這是一個很好的措施，當有很多錯誤的反例。醫(yī)療域中的大多數(shù)模型都是這種情況。而我們往往需要同時考慮假陽性樣本和假陰性樣本的數(shù)量，這就是F1測量的作用。它實現(xiàn)了精度和召回率的平衡，由公式2 *(精度*召回率)/(精度+召回率)給出。

另一種處理階級不平衡的流行技術是& # 34；重采樣& # 34；。這是從大多數(shù)類(具有太多樣本的類)中刪除樣本(稱為欠采樣)或向少數(shù)類添加樣本(稱為過采樣)以實現(xiàn)兩個類之間的平衡的行為。雖然它們可以通過使用復雜的重采樣技術來解決，但它們有自己的缺點，如信息丟失和過擬合。多任務挑戰(zhàn)

在現(xiàn)實世界中，預測健康或疾病通常是不夠的。我們經常需要把醫(yī)療的數(shù)據(jù)分成多個類別或者標簽。比如只從心律上檢測心律不齊就沒那么有市場了，對患者進行分析來確定哪種心律不齊更有價值。例如，癥狀可以是心房纖維性顫動、室上性心動過速或任何其他類型。

理論上，可以為每個需要分類的標簽訓練單獨的神經網絡模型，但是這對于編碼來說是非常不切實際的。如果我們能夠將所有這些分類模型結合到一個返回多個預測的單一深度神經網絡中，將會更有價值。解決方案:

我們使用一種叫做& # 34；多類別分類& # 34；或者& # 34；多標簽分類& # 34；方法來應對這一挑戰(zhàn)，它們略有不同。在多類別中，數(shù)據(jù)樣本的類別是互斥的，而在多標簽中，數(shù)據(jù)樣本可以屬于多個類別。在醫(yī)學領域，我們通常采用多標簽分類，因為如果一個患者被診斷為肺不張(肺功能不全)，并不意味著他/她不會出現(xiàn)心臟肥大。我們將模型最后一層的分數(shù)傳遞給Sigmoid激活函數(shù)。這將把最后一級的每個分數(shù)轉換為0到1之間的值，而不考慮其他分數(shù)。

對于多標簽分類，我們選擇的損失函數(shù)變成了binary_crossentropy，其中每個標簽都被視為一個獨立的伯努利分布，因為我們使用了Sigmoid激活函數(shù)。如果需要多個類，Sigmoid激活函數(shù)可以替換為softmax激活函數(shù)，其損失函數(shù)設置為categorical _ crossentropy。數(shù)據(jù)集大小挑戰(zhàn)

處理醫(yī)學數(shù)據(jù)集的主要挑戰(zhàn)是這些數(shù)據(jù)集的大小。除了好的架構，大規(guī)模的訓練數(shù)據(jù)對模型的性能也有重要作用，疾病可用的患者數(shù)據(jù)數(shù)量往往不足。低數(shù)據(jù)集大小是高偏差和高方差的主要原因。這給模型的推廣和優(yōu)化帶來了困難。解決方案:

為了解決模型優(yōu)化的困難，我們使用一種叫做& # 34；學習& # 34；方法，在該方法中，我們使用從相關網絡的較低層學習來訓練較高層，而不需要它們從頭學習。由于之前的訓練，下層可以作為很好的特征提取器，所以我們可以根據(jù)數(shù)據(jù)集進行微調。這項技術優(yōu)化速度更快，并減少了訓練新模型所需的數(shù)據(jù)量。

為了解決模型泛化的困難，我們使用了一種叫做& # 34；數(shù)據(jù)增強& # 34；技術，在向模型提供數(shù)據(jù)之前，不是復制同一個例子，而是對例子進行一些隨機的變換。通過這種方式，我們可以保持模型不變，例如大小或亮度的小變化。諸如水平或垂直翻轉圖像、改變圖像的亮度或對比度以及在一定程度上旋轉或縮放圖像等做法有助于數(shù)據(jù)擴展。這種技術對于避免小數(shù)據(jù)集中的過度擬合非常有用。

本文網址：http://55swg.cn/news/938.html

相關標簽：醫(yī)學數(shù)據(jù)集,醫(yī)學領域

上一篇：斯坦福大學將差分隱私AI模型訓練提速10倍，將用于新冠醫(yī)學影像!
下一篇：GE 醫(yī)療與VA 醫(yī)療系統(tǒng)合作，旨在提高3D打印醫(yī)療模型創(chuàng)建速度!

新聞分類