心肺復(fù)蘇模型

新聞分類

斯坦福大學(xué)將差分隱私AI模型訓(xùn)練提速10倍,將用于新冠醫(yī)學(xué)影像!

斯坦福大學(xué)將差分隱私AI模型訓(xùn)練提速10倍,將用于新冠醫(yī)學(xué)影像!

發(fā)布日期:2022-03-11 作者:WLT 點(diǎn)擊:

作者|圖表核心

更快更早地診斷疾病,開發(fā)定制藥物,研發(fā)新藥:人工智能在醫(yī)療領(lǐng)域潛力巨大,可以顯著提高患者的治療效果,挽救生命,幫助世界各地的人們保持健康,延長(zhǎng)生命。

進(jìn)展迅速,并產(chǎn)生了重大影響。這反過來對(duì)用于訓(xùn)練人工智能模型的患者敏感數(shù)據(jù)的隱私和安全提出了新的挑戰(zhàn)。誠(chéng)然,從公眾、醫(yī)學(xué)社區(qū)到政府層面對(duì)這個(gè)問題的討論越來越多,但我們顯然需要研究和改進(jìn)人工智能技術(shù),以更好地保護(hù)數(shù)據(jù)隱私。

目前,斯坦福大學(xué)醫(yī)學(xué)院的研究人員在使用差分隱私這一保護(hù)敏感數(shù)據(jù)的關(guān)鍵方法方面取得了重大突破。通過Graphcore IPU,斯坦福團(tuán)隊(duì)可以將具有差分隱私的人工智能的訓(xùn)練速度提高10倍以上,并將這項(xiàng)被認(rèn)為太難被廣泛應(yīng)用的技術(shù)變成現(xiàn)實(shí)世界中的實(shí)用解決方案。

在使用非隱私敏感的訓(xùn)練數(shù)據(jù)證明其應(yīng)用后,斯坦福團(tuán)隊(duì)與Graphcore合作,正計(jì)劃將其技術(shù)應(yīng)用于新型冠狀病毒的胸部CT圖像,旨在揭示關(guān)于這種持續(xù)影響全球人民正常生活的病毒的新見解。

人工智能中的數(shù)據(jù)隱私:挑戰(zhàn)

在人工智能中使用敏感的個(gè)人數(shù)據(jù)將帶來許多挑戰(zhàn),但兩個(gè)最重要的挑戰(zhàn)是維護(hù)數(shù)據(jù)主權(quán)和防止識(shí)別個(gè)人。這兩種情況都有可用的、成熟的技術(shù)方案,斯坦福大學(xué)的研究讓這兩種方案更具可行性。

2

力:聯(lián)邦學(xué)習(xí)。

使用來自代表世界各地不同人群的許多機(jī)構(gòu)和提供商的數(shù)據(jù)集的大量和多樣化的患者數(shù)據(jù)進(jìn)行訓(xùn)練的模型更強(qiáng)大,更不容易出現(xiàn)某些類型的偏見,并且最終更有用。

標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法需要集中數(shù)據(jù)進(jìn)行整理。即使我們?cè)噲D通過刪除患者的身份信息來匿名化數(shù)據(jù),也需要將這些信息傳輸給第三方研究機(jī)構(gòu)和組織,這已被證明是一個(gè)主要問題。事實(shí)上,要求監(jiān)管將患者數(shù)據(jù)保留在數(shù)據(jù)采集管轄范圍內(nèi)的呼聲越來越高。

學(xué)習(xí)可以提供部分答案,因?yàn)樗试S人工智能模型在匿名患者數(shù)據(jù)上進(jìn)行訓(xùn)練,而無(wú)需集中這些數(shù)據(jù)。相反,開發(fā)中的模型被發(fā)送出去,并根據(jù)本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練。

雖然聯(lián)合學(xué)習(xí)是一項(xiàng)有價(jià)值的技術(shù),但最近的研究凸顯了一個(gè)問題,即通過對(duì)來自訓(xùn)練良好的模型的數(shù)據(jù)進(jìn)行推理來重新識(shí)別匿名健康信息的能力,潛在地將其與個(gè)體相關(guān)聯(lián)或恢復(fù)原始數(shù)據(jù)集,將帶來隱私漏洞。

由于這個(gè)原因,聯(lián)邦學(xué)習(xí)的使用也依賴于促進(jìn)差分隱私的應(yīng)用。

3差別隱私

通過訓(xùn)練聯(lián)邦學(xué)習(xí)模型,差分隱私使得對(duì)敏感數(shù)據(jù)的保護(hù)更進(jìn)一步,沒有人可以推斷訓(xùn)練數(shù)據(jù)或從中恢復(fù)原始數(shù)據(jù)集。

差分隱私隨機(jī)梯度下降(DPSGD)通過剪切和扭曲單個(gè)訓(xùn)練數(shù)據(jù)項(xiàng)的梯度來給匿名患者數(shù)據(jù)添加噪聲。增加的噪聲意味著反對(duì)者不太可能找到所使用的個(gè)體患者數(shù)據(jù)或恢復(fù)用于訓(xùn)練模型的原始數(shù)據(jù)集。

差分隱私隨機(jī)梯度下降(DPSGD)明顯有利于保護(hù)敏感數(shù)據(jù),但仍是一個(gè)研究缺乏的領(lǐng)域。直到現(xiàn)在還沒有應(yīng)用到大數(shù)據(jù)集上,因?yàn)榕c傳統(tǒng)形式的人工智能計(jì)算(如GPU或CPU)配合使用時(shí),計(jì)算成本太高。

這是斯坦福大學(xué)School 醫(yī)學(xué)計(jì)算機(jī)視覺專業(yè)的放射學(xué)研究團(tuán)隊(duì)在他們的論文《Nanobatch DPSGD:探索IPU上低批量的ImageNet上的差異私人學(xué)習(xí)》[1]中重點(diǎn)關(guān)注的領(lǐng)域。

由于計(jì)算要求,DPSGD通常應(yīng)用于小數(shù)據(jù)集并進(jìn)行分析。然而,斯坦福大學(xué)團(tuán)隊(duì)能夠使用從公開可用的ImageNet數(shù)據(jù)集獲得的130萬(wàn)張圖像對(duì)IPU系統(tǒng)進(jìn)行首次分析。在本文中,ImageNet被用作由私有數(shù)據(jù)組成的大型圖像數(shù)據(jù)集的代理。這項(xiàng)工作可以幫助克服當(dāng)前大規(guī)模部署差分隱私的障礙。

請(qǐng)繼續(xù)閱讀更多關(guān)于IPU有效性的信息。

使用Graphcore IPU加速NanoBatch)DPSGD

加速處理的常用方法是使用微批量,數(shù)據(jù)聯(lián)合處理,聯(lián)合梯度切割扭曲,而不是基于單個(gè)樣本的梯度。雖然這樣會(huì)加快訓(xùn)練速度,但分析表明會(huì)降低生成模型的預(yù)測(cè)質(zhì)量和生成的隱私保護(hù)指數(shù),從根本上違背了其目的。事實(shí)上,用微批量1或“納米批量”進(jìn)行的實(shí)驗(yàn)顯示出最高的準(zhǔn)確度。


1.jpg


圖1:不同梯度累積計(jì)數(shù)100次訓(xùn)練后的分類精度。我們比較了尺寸為1(“納米批次”)和尺寸為2的微批次處理。有效批量等于微量批量乘以梯度累積計(jì)數(shù)。相同的削波和噪聲比用于不同的有效批量。因此,具有相同有效批量的項(xiàng)目具有相同的隱私保護(hù)保證。

nano-batch DPSGD不常用的一個(gè)主要原因是它大大降低了GPU的吞吐量,以至于在ImageNet上運(yùn)行nano-batch DPSGD ResNet-50需要幾天時(shí)間。

相比之下,nano-batch DPSGD在IPU上的效率非常高,結(jié)果比在GPU上快8到11倍,時(shí)間從幾天縮短到幾個(gè)小時(shí)。對(duì)于IPU來說,由于MIMD架構(gòu)和IPU的細(xì)粒度并行可以實(shí)現(xiàn)高得多的處理效率,因此DPSGD所需的額外運(yùn)算的計(jì)算開銷要低得多(10%而不是50-90%)。

另外,隱私保護(hù)和納米批量DPSGD需要使用組范數(shù)而不是批量范數(shù),IPU可以快速處理,但是會(huì)明顯拖慢GPU。Graphcore Research最近推出了一種新的規(guī)范化技術(shù)——代理規(guī)范,恢復(fù)了組規(guī)范的批量規(guī)范屬性,提高了執(zhí)行效率。這是一個(gè)有趣的未來探索方向。


2.jpg


表1:μbs = 1時(shí)不同硬件的吞吐量比較。GPU上的DPSGD使用vmap和TensorFlow差分隱私庫(kù)。左圖:上一代芯片。右圖:最新一代芯片。

6小時(shí)內(nèi)在ImageNet上訓(xùn)練nano batch DPSGD。

這些技術(shù)意味著ResNet-50可以在IPU-POD16系統(tǒng)中在ImageNet上訓(xùn)練100個(gè)周期,時(shí)間在6小時(shí)左右(相比之下GPU需要幾天)。準(zhǔn)確率達(dá)到71%,比非私有基線低5%。由于噪音增加,這是意料之中的。雖然比預(yù)期的要好,但仍是未來研究的領(lǐng)域。

對(duì)于差分隱私,通常還會(huì)報(bào)告ε和δ值。該論文表明,對(duì)于10-6的δ,ε是11.4,這是一個(gè)很好的范圍。該團(tuán)隊(duì)對(duì)如何進(jìn)一步減少這種情況有一些想法,例如通過更積極的學(xué)習(xí)率計(jì)劃來減少培訓(xùn)周期的數(shù)量。


3.jpg


表2:使用不同的總批量(TB)和配置在ImageNet上獲得的差異隱私結(jié)果(第100個(gè)周期的最終ε和準(zhǔn)確度)。持續(xù)時(shí)間是通過訓(xùn)練100個(gè)周期所需的小時(shí)數(shù)來衡量的。

這項(xiàng)研究為改善醫(yī)療和金融服務(wù)以及許多其他行業(yè)的應(yīng)用程序的隱私保護(hù)提供了一個(gè)重要的機(jī)會(huì)。在這些行業(yè)中,個(gè)人敏感數(shù)據(jù)的保護(hù)非常重要。

論文:

https://arxiv.org/abs/2109.12191

4.jpg




本文網(wǎng)址:http://55swg.cn/news/937.html

相關(guān)標(biāo)簽:醫(yī)學(xué)社區(qū),醫(yī)學(xué)計(jì)算機(jī)視覺

最近瀏覽:

相關(guān)產(chǎn)品:

相關(guān)新聞:

在線客服
分享