提前預(yù)測重大疾病!聯(lián)邦學(xué)習(xí)打破數(shù)據(jù)壁壘,醫(yī)療AI不再是空中樓閣。
智東西(微信官方賬號:zhidxcom) |李水清
近日,騰訊田燕實(shí)驗(yàn)室與微眾銀行的聯(lián)合研究表明,聯(lián)邦學(xué)習(xí)與醫(yī)療的深度融合對落地疾病預(yù)測領(lǐng)域有很大幫助。目前已經(jīng)搭建了基于聯(lián)邦學(xué)習(xí)技術(shù)的大數(shù)據(jù)集中和挖掘平臺。從落地案例來看,可以將筆畫預(yù)測的準(zhǔn)確率提高到80%。
近年來,醫(yī)療行業(yè)正在進(jìn)行數(shù)字化轉(zhuǎn)型。這種基于大數(shù)據(jù)和AI技術(shù)的變革,幾乎改變了整個(gè)行業(yè)的方方面面,“信息就是力量”這句格言得到了淋漓盡致的體現(xiàn)。人們對人工智能寄予厚望,希望它能真正深入臨床一線,幫助醫(yī)生和患者。
理想很豐滿,現(xiàn)實(shí)卻很骨感。在這一巨變下,作為醫(yī)療AI成長不可或缺的“食物”,數(shù)據(jù)成為了醫(yī)療AI落地的“攔路虎”——國內(nèi)醫(yī)療健康數(shù)據(jù)領(lǐng)域長期存在的“信息孤島”問題。不同地區(qū)甚至醫(yī)院的醫(yī)療數(shù)據(jù)沒有互聯(lián)互通,沒有統(tǒng)一的標(biāo)準(zhǔn)。與此同時(shí),數(shù)據(jù)安全問題也面臨著巨大的挑戰(zhàn)。
數(shù)據(jù)讓醫(yī)療AI成為空中樓閣。在這一難題下,騰訊田燕實(shí)驗(yàn)室與微眾銀行聯(lián)合開發(fā)了醫(yī)療聯(lián)邦學(xué)習(xí)框架,成功實(shí)現(xiàn)了不同醫(yī)院數(shù)據(jù)隱私保護(hù)下的疾病預(yù)測模型,解決了醫(yī)療行業(yè)數(shù)據(jù)安全和隱私保護(hù)問題。這是聯(lián)邦學(xué)習(xí)在醫(yī)療健康大數(shù)據(jù)領(lǐng)域應(yīng)用的首個(gè)成功案例,為分診診療、慢病防控、疾病早期篩查、醫(yī)保控費(fèi)落地等醫(yī)療健康的各種潛在應(yīng)用探索了新的方向。首先,打破數(shù)據(jù)壁壘,保護(hù)數(shù)據(jù)隱私
在重大疾病早期篩查和預(yù)測領(lǐng)域,要想成功建立大數(shù)據(jù)疾病預(yù)測模型,需要對不同醫(yī)院的居民醫(yī)療信息和健康檔案進(jìn)行整合建模。然而,由于信息系統(tǒng)的不統(tǒng)一,醫(yī)院管理機(jī)構(gòu)對數(shù)據(jù)隱私泄露的擔(dān)憂,以及相關(guān)數(shù)據(jù)保護(hù)法規(guī)的限制,相關(guān)機(jī)構(gòu)之間形成了數(shù)據(jù)壁壘,很少有醫(yī)院愿意共享數(shù)據(jù),這使得AI很難在疾病預(yù)測領(lǐng)域“施展拳腳”。
在這個(gè)問題下,聯(lián)邦學(xué)習(xí)成了“良方”。聯(lián)邦學(xué)習(xí)是一種新的人工智能機(jī)器學(xué)習(xí)框架。其設(shè)計(jì)目標(biāo)是在保證信息安全、保護(hù)終端數(shù)據(jù)和個(gè)人數(shù)據(jù)隱私、確保合規(guī)的前提下,在多個(gè)參與者或計(jì)算節(jié)點(diǎn)之間進(jìn)行高效的機(jī)器學(xué)習(xí)。聯(lián)邦學(xué)習(xí)作為一種分布式機(jī)器學(xué)習(xí)范式,可以有效解決數(shù)據(jù)孤島問題,讓參與者在不共享數(shù)據(jù)的基礎(chǔ)上聯(lián)合建模,從技術(shù)上打破數(shù)據(jù)孤島,實(shí)現(xiàn)AI協(xié)同。
這項(xiàng)技術(shù)最早由谷歌在2016年提出,隨后微眾銀行在首席人工智能官楊強(qiáng)教授的帶領(lǐng)下,首次提出“聯(lián)邦轉(zhuǎn)移學(xué)習(xí)”,并開發(fā)了聯(lián)邦學(xué)習(xí)框架Federated AI Technology Enabler(FATE),推動聯(lián)邦學(xué)習(xí)技術(shù)在行業(yè)內(nèi)的應(yīng)用。此前,聯(lián)邦學(xué)習(xí)在金融、互聯(lián)網(wǎng)、智能、智能等領(lǐng)域已經(jīng)有不少成功的應(yīng)用,但在醫(yī)療領(lǐng)域,由于醫(yī)療知識的專業(yè)性,電子病歷的復(fù)雜性給聯(lián)邦學(xué)習(xí)的建設(shè)帶來了種種困難。
近日,騰訊田燕實(shí)驗(yàn)室結(jié)合自身醫(yī)療機(jī)器學(xué)習(xí)和自然語言處理的優(yōu)勢,與微眾銀行一起,將聯(lián)邦學(xué)習(xí)與醫(yī)療深度融合,將醫(yī)療模型與機(jī)器學(xué)習(xí)有機(jī)融合。通過搭建基于聯(lián)邦學(xué)習(xí)技術(shù)的大數(shù)據(jù)集中和挖掘平臺,他們共同開發(fā)醫(yī)療醫(yī)療聯(lián)邦學(xué)習(xí)技術(shù)。
這種創(chuàng)新技術(shù)讓醫(yī)療行業(yè)的數(shù)據(jù)問題“病有所醫(yī)”。聯(lián)邦可以繞過醫(yī)療機(jī)構(gòu)之間的信息壁壘,而不是合并各自的數(shù)據(jù),而是通過協(xié)議在它們之間傳輸加密信息。這個(gè)加密過程有一定的隱私保護(hù)機(jī)制,保證加密的信息不會造成數(shù)據(jù)泄露。每個(gè)醫(yī)療機(jī)構(gòu)利用這些加密信息更新模型參數(shù),從而實(shí)現(xiàn)使用所有患者數(shù)據(jù)而不暴露原始數(shù)據(jù)的訓(xùn)練過程。
舉個(gè)例子,假設(shè)A醫(yī)院和B醫(yī)院想聯(lián)合訓(xùn)練一個(gè)中風(fēng)疾病預(yù)測模型,兩個(gè)醫(yī)院都有自己的科研病例數(shù)據(jù)。此外,B醫(yī)院還有模型標(biāo)簽數(shù)據(jù)需要預(yù)測,比如中風(fēng)發(fā)病率標(biāo)簽。出于數(shù)據(jù)隱私保護(hù)和安全考慮,甲醫(yī)院和乙醫(yī)院不能直接交換數(shù)據(jù)。聯(lián)邦學(xué)習(xí)系統(tǒng)可以使用基于加密的患者樣本比對技術(shù),在不公開各自數(shù)據(jù)的前提下,確認(rèn)A醫(yī)院和B醫(yī)院的共享患者,不暴露互不重疊的患者,從而結(jié)合這些用戶的特征進(jìn)行建模。確定了共享的用戶群后,就可以用這些數(shù)據(jù)來訓(xùn)練疾病預(yù)測模型。