臨床預(yù)測(cè)模型這么火,它到底是什么?!
臨床預(yù)測(cè)模型既重要又復(fù)雜。
近年來(lái),臨床預(yù)測(cè)模型在診療決策、患者預(yù)后管理和公共衛(wèi)生資源配置中的應(yīng)用越來(lái)越重要,但臨床預(yù)測(cè)模型的建立是一項(xiàng)復(fù)雜的系統(tǒng)工程。本文回顧了相關(guān)的權(quán)威研究,總結(jié)了建立臨床預(yù)測(cè)模型的全過(guò)程,介紹了相關(guān)概念和重要原則。
建立臨床預(yù)測(cè)模型的五個(gè)階段
在個(gè)性化的醫(yī)學(xué)時(shí)代,對(duì)流行病或意外疾病的結(jié)果(診斷)或未來(lái)疾病進(jìn)展(預(yù)后)的預(yù)測(cè)對(duì)于醫(yī)護(hù)人員的患者管理變得更加重要。臨床預(yù)測(cè)模型用于研究特定條件下患者未來(lái)或未知結(jié)局(終點(diǎn))與基線健康狀態(tài)(起點(diǎn))之間的關(guān)系。它通常結(jié)合多個(gè)參數(shù)來(lái)幫助醫(yī)生洞察模型中每個(gè)預(yù)測(cè)因子的相對(duì)影響。
該模型需要準(zhǔn)確預(yù)測(cè)特定事件,并且相對(duì)簡(jiǎn)單易用。一方面,如果預(yù)測(cè)模型對(duì)未來(lái)事件的估計(jì)不準(zhǔn)確,會(huì)誤導(dǎo)醫(yī)療專業(yè)人士;另一方面,如果模型具有較高的可預(yù)測(cè)性,但難以應(yīng)用(例如,計(jì)算復(fù)雜或不熟悉的問(wèn)題/項(xiàng)目或單元),耗時(shí)、成本高或相關(guān)性低(例如,對(duì)所有患者進(jìn)行無(wú)差別篩查),則不會(huì)在臨床上廣泛應(yīng)用。因此,可預(yù)測(cè)性和可操作性之間的平衡是建立良好臨床預(yù)測(cè)模型的關(guān)鍵。
目前,雖然對(duì)預(yù)測(cè)模型的理想構(gòu)建方法還沒(méi)有達(dá)成共識(shí),但臨床研究領(lǐng)域的許多專家提出了許多方法來(lái)提高模型開(kāi)發(fā)的質(zhì)量和影響力?;谇叭说难芯砍晒?,本文將建立臨床預(yù)測(cè)模型的全過(guò)程歸納為五個(gè)主要階段:
建立臨床預(yù)測(cè)模型的五個(gè)階段
一個(gè)
第一階段:界定研究問(wèn)題。
從統(tǒng)計(jì)技術(shù)的角度來(lái)看,臨床預(yù)測(cè)模型是臨床研究中比較先進(jìn)的研究類型,但并不是所有的問(wèn)題都適合用臨床預(yù)測(cè)模型來(lái)回答。例如,干預(yù)/暴露措施的效果估計(jì)和比較適合用傳統(tǒng)的統(tǒng)計(jì)假設(shè)檢驗(yàn)或校正模型來(lái)回答,如T檢驗(yàn)/方差分析、卡方檢驗(yàn)和對(duì)數(shù)秩檢驗(yàn)。臨床預(yù)測(cè)模型適用于回答與疾病的診斷或預(yù)后相關(guān)的問(wèn)題,特別是如何通過(guò)預(yù)測(cè)因素的組合來(lái)準(zhǔn)確估計(jì)疾病或事件發(fā)生的概率。臨床預(yù)測(cè)模型的本質(zhì)是利用臨床數(shù)據(jù)集建立一個(gè)多元的、高精度的、有意義的預(yù)測(cè)模型。首先,我們需要明確幾個(gè)重要的研究問(wèn)題:1)靶疾病領(lǐng)域的靶結(jié)果是什么?如糖尿病和心血管疾??;某種并發(fā)癥,死亡。2)目標(biāo)患者是誰(shuí)?例如普通人群、65歲以上的老年人或二型糖尿病患者。3)預(yù)測(cè)模型的目標(biāo)用戶是誰(shuí)?例如疾病領(lǐng)域的其他醫(yī)生、健康相關(guān)組織、處于疾病風(fēng)險(xiǎn)中的群體和關(guān)注疾病的其他群體。根據(jù)以上問(wèn)題的回答,結(jié)合患者選擇的目標(biāo)區(qū)域和相關(guān)區(qū)域的數(shù)據(jù)集,目標(biāo)用戶的類別將決定指標(biāo)的選擇和處理過(guò)程,從而影響臨床預(yù)測(cè)模型的專業(yè)性和復(fù)雜性。
預(yù)測(cè)模型適用的問(wèn)題類型。
2
第二階段:選擇數(shù)據(jù)集。
在融合的過(guò)程中,醫(yī)學(xué)教學(xué)、科研、管理的應(yīng)用需要人才的聚集和產(chǎn)業(yè)生態(tài)的建立。自2013年成立以來(lái),國(guó)內(nèi)已有近百家領(lǐng)先的醫(yī)療研究機(jī)構(gòu)(150強(qiáng))和政府機(jī)構(gòu)與醫(yī)療人工智能公司醫(yī)療都勻展開(kāi)合作。醫(yī)學(xué)都勻在發(fā)展中,憑借其戰(zhàn)略國(guó)際化和文化多樣性,吸引了專業(yè)領(lǐng)域的世界知名科學(xué)家和人才。整合了跨越10余年的醫(yī)學(xué)信息進(jìn)行醫(yī)院處理和整合,覆蓋40余種重大疾病,創(chuàng)建了3000余個(gè)??萍膊∧P?,自主研發(fā)了醫(yī)學(xué)數(shù)據(jù)智能平臺(tái)。數(shù)據(jù)集是臨床預(yù)測(cè)模型最重要的組成部分之一。在現(xiàn)實(shí)中,需要搜索最合適的數(shù)據(jù)集并充分利用它。通常,您也可以選擇使用專業(yè)的臨床數(shù)據(jù)源輔助和管理工具來(lái)整理和建立包含研究終點(diǎn)和所有關(guān)鍵預(yù)測(cè)指標(biāo)的主數(shù)據(jù)集。研究人員可以根據(jù)預(yù)測(cè)模型的目的,使用不同的方法提取不同的子數(shù)據(jù)集。不同的臨床預(yù)測(cè)模型問(wèn)題適合用不同的研究設(shè)計(jì)數(shù)據(jù)來(lái)回答。對(duì)于診斷問(wèn)題來(lái)說(shuō),預(yù)測(cè)因素和結(jié)果都在同一時(shí)間或短時(shí)間內(nèi),因此使用橫截面數(shù)據(jù)建立診斷模型是合適的。對(duì)于預(yù)后問(wèn)題,預(yù)測(cè)因子和結(jié)果之間存在縱向時(shí)間邏輯,適合用隊(duì)列研究數(shù)據(jù)擬合預(yù)后模型。隨機(jī)臨床試驗(yàn)可視為更嚴(yán)謹(jǐn)?shù)那罢靶躁?duì)列,因此也可用于建立預(yù)后模型,但外推法有限。不同類型的臨床預(yù)測(cè)模型的特征如下表所示:
不同預(yù)測(cè)模型的特點(diǎn)及數(shù)據(jù)選擇
對(duì)于數(shù)據(jù)集中樣本容量的最低要求,沒(méi)有絕對(duì)的共識(shí)。一般來(lái)說(shuō),較大且較新的數(shù)據(jù)集能更好地反映目標(biāo)群體的特征,增強(qiáng)模型的相關(guān)性、可重復(fù)性和普及性,是建模的理想選擇。為了客觀地驗(yàn)證建模結(jié)果,通常需要將研究數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集兩部分。根據(jù)研究者的具體目標(biāo),分割率可能有所不同,但一般來(lái)說(shuō),更多的研究對(duì)象應(yīng)該被分配到開(kāi)發(fā)數(shù)據(jù)集,而不是驗(yàn)證數(shù)據(jù)集。臨床預(yù)測(cè)模型首先通過(guò)算法從訓(xùn)練集中提取規(guī)則,其預(yù)測(cè)性能要根據(jù)驗(yàn)證集在不同的組中進(jìn)行評(píng)估。為了確定模型的可擴(kuò)展性和健壯性,可以根據(jù)數(shù)據(jù)集格式,盡可能使用來(lái)自外部研究組或隊(duì)列的測(cè)試數(shù)據(jù)集進(jìn)行外部驗(yàn)證。
醫(yī)療大數(shù)據(jù)成為預(yù)測(cè)模型數(shù)據(jù)集的重要選擇。
三
第三階段:處理特征變量。
首先,需要對(duì)確定的數(shù)據(jù)集進(jìn)行基本的清洗,包括檢查數(shù)據(jù)一致性、處理無(wú)效值和錯(cuò)誤值等。因?yàn)閿?shù)據(jù)集通常包含比最終預(yù)測(cè)模型中使用的變量更多的變量,所以在建立模型之前,需要評(píng)估和選擇最可預(yù)測(cè)和最敏感的預(yù)測(cè)因子。一般來(lái)說(shuō),特征變量的評(píng)價(jià)主要有三個(gè)方面:1。要求檢查員處理丟失的數(shù)據(jù)。在大多數(shù)數(shù)據(jù)分析中,數(shù)據(jù)缺失是一個(gè)長(zhǎng)期的問(wèn)題,丟失的原因各不相同,包括不收集、不可用或不適用、被調(diào)查者拒絕,或者“不知道”。為了解決這個(gè)問(wèn)題,研究人員可以考慮使用插值技術(shù)將答案分為“是”和“其他”,或者允許“未知”作為單獨(dú)的類別,以盡可能提高數(shù)據(jù)填充率。
2.需要專家對(duì)之前發(fā)現(xiàn)的顯著預(yù)測(cè)因子進(jìn)行判斷,通常應(yīng)將其作為候選變量,如糖尿病風(fēng)險(xiǎn)評(píng)分中的糖尿病家族史。應(yīng)該注意的是,并非所有重要的預(yù)測(cè)因素都需要包括在最終模型中,例如P
3.要求數(shù)據(jù)科學(xué)家對(duì)變量編碼分類變量和連續(xù)變量有不同的處理方法。對(duì)于分類變量,我們可以根據(jù)臨床實(shí)際意義和數(shù)據(jù)特點(diǎn),對(duì)類別進(jìn)行組合或重新分類。比如,在基本的人口特征中,教育程度往往分為小學(xué)、初中、高中、大專、本科、研究生、博士等。根據(jù)分析和以往研究的需要,高中畢業(yè)與否可能是一個(gè)重要的分界點(diǎn),可以重新劃分為小學(xué)、中學(xué)、本科及以上。這樣可以相對(duì)平衡其他人的數(shù)量,避免過(guò)度細(xì)分。連續(xù)變量的相對(duì)影響由模型中使用的測(cè)量尺度決定。例如,空腹血糖水平對(duì)心血管疾病風(fēng)險(xiǎn)的影響可以解釋為,每10 mg/dl通常比每1 mg/dl對(duì)結(jié)果的影響更大。在對(duì)特征變量進(jìn)行求值和處理后,由于不同的算法需要不同的數(shù)據(jù)類型,所以需要對(duì)數(shù)據(jù)和算法進(jìn)行適配。通常情況下,連續(xù)變量通常比分類變量承載更豐富、更準(zhǔn)確的信息,但同時(shí)也可能增加模型的復(fù)雜性和難度或者外行人難以理解。研究者可以通過(guò)觀察建模過(guò)程中的一些預(yù)測(cè)因素,進(jìn)一步調(diào)整變量類型,從而優(yōu)化模型。
加工特征變量的工作比例
四
第四階段:預(yù)測(cè)模型的建立。
雖然在選擇預(yù)測(cè)目標(biāo)變量和確定預(yù)測(cè)模型方面沒(méi)有全行業(yè)一致的指南,但我們可以借鑒統(tǒng)計(jì)分析的概念。根據(jù)預(yù)期用途,將問(wèn)題求解方法定義為分類預(yù)測(cè)模型、線性預(yù)測(cè)模型和風(fēng)險(xiǎn)預(yù)測(cè)模型。建立臨床預(yù)測(cè)模型的幾點(diǎn)建議:
所有的候選變量都包含在模型中,一些不重要的候選變量可以通過(guò)逆向淘汰或逐步選擇的方法去除。包含所有候選變量可以避免過(guò)度擬合和選擇偏差。模型的擬合程度可以通過(guò)參考赤池信息準(zhǔn)則(AIC)和貝葉斯信息準(zhǔn)則(BIC)來(lái)檢查。AIC是模型擬合的一個(gè)指標(biāo)。通常,AIC值越低,模型擬合越好。有人認(rèn)為AIC涉及解釋,而BIC涉及預(yù)測(cè),其中BIC可視為貝葉斯算法的相應(yīng)指標(biāo)。如果研究人員對(duì)高級(jí)算法比較熟悉,可以考慮用機(jī)器學(xué)習(xí)算法進(jìn)行模型擬合。根據(jù)響應(yīng)變量(因變量Y)的類型,可以分配不同的建模算法。類似研究中常用的算法如下。
常見(jiàn)算法和特征
五
第五階段:模型評(píng)估與驗(yàn)證(內(nèi)部/外部)模型生成后,研究人員應(yīng)使用獨(dú)立的測(cè)試數(shù)據(jù)集來(lái)評(píng)估其提出的模型的預(yù)測(cè)能力。不同類型的問(wèn)題有不同的評(píng)價(jià)指標(biāo),可以反映模型不同方面的特點(diǎn)。下面分別列出分類問(wèn)題和回歸問(wèn)題的評(píng)價(jià)指標(biāo)。在實(shí)際的建模工作中,還需要了解各個(gè)指標(biāo)的含義,并對(duì)這些指標(biāo)進(jìn)行合理的解讀。
分類問(wèn)題中的指標(biāo)
回歸問(wèn)題中的指標(biāo)
預(yù)測(cè)模型的驗(yàn)證及應(yīng)用方向
由于模型開(kāi)發(fā)的復(fù)雜性,咨詢數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)專家可以提高預(yù)測(cè)模型研究的有效性和整體質(zhì)量。在開(kāi)發(fā)模型之后,在使用模型之前,我們應(yīng)該使用盡可能多的外部數(shù)據(jù)集,并有效地傳播給相關(guān)方。臨床預(yù)測(cè)模型的應(yīng)用場(chǎng)景不限于醫(yī)療機(jī)構(gòu)?;谥袊?guó)目前的情況,Web或智能移動(dòng)應(yīng)用程序可以更好地成為向公眾宣傳和普及預(yù)測(cè)模型的重要渠道。希望本文的內(nèi)容能夠幫助醫(yī)生和研究人員對(duì)臨床預(yù)測(cè)模型有一個(gè)初步的了解,并能夠支持實(shí)際的科學(xué)研究。在未來(lái)的推文中,我們將詳細(xì)介紹預(yù)測(cè)模型中使用的回歸方法和算法的主題。
參考文獻(xiàn):moonskg,Royston P,Vergouwe Y,格羅布·比德,奧特曼DG。預(yù)后和預(yù)后研究:什么、為什么和如何?BMJ 2009;338:b375。Hemingway H,Croft P,Perel P,Hayden JA,Abrams K,Timmis A,等。預(yù)后研究策略(進(jìn)展)1:研究臨床結(jié)果的框架。BMJ青奧會(huì);346:e5595。Greenland S .對(duì)成本效益預(yù)測(cè)重新定位的需要:對(duì)M. J. Pencina等人的“評(píng)估一種新標(biāo)記物從ROC曲線下面積到重新分類及以后的額外預(yù)測(cè)能力”的評(píng)論,醫(yī)學(xué)統(tǒng)計(jì)學(xué)(DOI: 10.1002/sim.2929)。統(tǒng)計(jì)醫(yī)學(xué)2008;27:199-206.格里芬SJ,小PS,黑爾斯CN,金月AL,韋勒姆新澤西州。糖尿病風(fēng)險(xiǎn)評(píng)分:全科醫(yī)療中二型糖尿病的早期檢測(cè)。糖尿病代謝研究2000年修訂版;16:164- 71.小戈夫·DC、勞埃德·瓊斯、貝內(nèi)特·G、科亞迪·S、達(dá)戈斯蒂諾·RB、吉本斯·R等,2013年美國(guó)心臟病學(xué)會(huì)/美國(guó)心臟協(xié)會(huì)心血管風(fēng)險(xiǎn)評(píng)估指南:美國(guó)心臟病學(xué)會(huì)/美國(guó)心臟協(xié)會(huì)實(shí)踐指南工作組報(bào)告。循環(huán)2014;129 (25補(bǔ)編第2號(hào)):S49-73。邁向更好的臨床預(yù)測(cè)模型:發(fā)展的七個(gè)步驟和驗(yàn)證的ABCD。歐洲心臟雜志2014;35:1925-31.我們驗(yàn)證一個(gè)預(yù)后模型意味著什么?統(tǒng)計(jì)醫(yī)學(xué)2000;19:453-73.斯特耶伯格。臨床預(yù)測(cè)模型:開(kāi)發(fā)、驗(yàn)證和更新的實(shí)用方法。紐約:斯普林格;2009.Steyerberg EW,Moons KG,van der Windt DA,Hayden JA,Perel P,Schroter S,等。預(yù)測(cè)研究策略(進(jìn)展)3:預(yù)測(cè)模型研究。PLoS Med 201310:e1001381??铝炙笹S,賴茨馬JB,奧特曼DG,月亮KG。個(gè)體預(yù)后或診斷多變量預(yù)測(cè)模型的透明報(bào)告(TRIPOD):TRIPOD聲明。Ann實(shí)習(xí)生Med 2015162:55-63.李YH,邦H,樸YM,Bae JC,李BW,康ES,等。非酒精性脂肪性肝病的非實(shí)驗(yàn)室自我評(píng)估篩查評(píng)分:發(fā)展,驗(yàn)證和與其他評(píng)分的比較。PLoS One 20149:e107584。Bang H,Edwards AM,Bomback AS,Ballantyne CM,Brillon D,Callahan MA,等。糖尿病風(fēng)險(xiǎn)患者自我評(píng)估評(píng)分的開(kāi)發(fā)和驗(yàn)證。Ann實(shí)習(xí)生Med 2009151:775-83.Kotronen A,Peltonen M,Hakkarainen A,Sevastianova K,Bergholm R,Johansson LM,等.利用代謝和遺傳因素預(yù)測(cè)非酒精性脂肪性肝病和肝臟脂肪.胃腸病學(xué)2009;137:865-72.回歸建模策略:應(yīng)用于線性模型、邏輯回歸和生存分析。紐約:斯普林格;2001.主要血管手術(shù)后心臟事件的預(yù)測(cè)因素:臨床特征、多巴酚丁胺超聲心動(dòng)圖和β-受體阻滯劑治療的作用JAMA 2001285:1865-73.解釋還是預(yù)測(cè)?統(tǒng)計(jì)科學(xué)2010年:289-310。Heikes KE,Eddy DM,Arondekar B,Schlessinger L .糖尿病風(fēng)險(xiǎn)計(jì)算器:檢測(cè)未診斷糖尿病和糖尿病前期的簡(jiǎn)單工具。2008年糖尿病護(hù)理;31:1040-5.統(tǒng)計(jì)建模:兩種文化(作者有評(píng)論和反駁)。統(tǒng)計(jì)學(xué)家Sci 200116:199-231.Steyerberg EW,Vickers AJ,Cook NR,Gerds T,戈寧M,Obuchowski N,等,《評(píng)估預(yù)測(cè)模型的性能:傳統(tǒng)和新方法的框架》。流行病學(xué)2010;21:128-38.一種新的肝脂肪變性診斷評(píng)分的開(kāi)發(fā)、外部驗(yàn)證和比較評(píng)估。美國(guó)胃腸病學(xué)雜志2014;109:1404-14.Hilden J .評(píng)論:關(guān)于NRI、IDI和“好看”的統(tǒng)計(jì)數(shù)據(jù),下面什么也沒(méi)有。2014年流行病學(xué);25:265-7.
欣賞醫(yī)學(xué)的美好,快樂(lè)學(xué)習(xí)生活。歡迎關(guān)注微信官方賬號(hào)【樊棋醫(yī)學(xué)BioSCI】。微信官方賬號(hào)專注于生物醫(yī)學(xué)研究、科研項(xiàng)目設(shè)計(jì)、SCI論文寫作等領(lǐng)域的知識(shí)梳理和數(shù)據(jù)分享。,為醫(yī)務(wù)工作者提供了方便。
本文網(wǎng)址:http://55swg.cn/news/924.html
相關(guān)標(biāo)簽:醫(yī)學(xué)時(shí)代,醫(yī)學(xué)教學(xué),醫(yī)學(xué)都勻,醫(yī)學(xué)信息,醫(yī)院處理,醫(yī)學(xué)數(shù)據(jù),醫(yī)學(xué)統(tǒng)計(jì)學(xué),樊棋醫(yī)學(xué)BioSCI
最近瀏覽:
相關(guān)產(chǎn)品:
相關(guān)新聞:
- 醫(yī)學(xué)教學(xué)模型設(shè)計(jì):創(chuàng)新教學(xué)與學(xué)生參與的突破
- 蘇州市醫(yī)學(xué)教學(xué)模型:提升醫(yī)學(xué)教育質(zhì)量與臨床實(shí)踐能力
- 醫(yī)學(xué)教學(xué)模型銷售:提供優(yōu)質(zhì)教育資源與專業(yè)支持
- 醫(yī)學(xué)教學(xué)模型制造,打造精準(zhǔn)實(shí)用的教育工具
- 蘇州醫(yī)學(xué)教學(xué)模型廠,打造優(yōu)質(zhì)醫(yī)學(xué)教育工具
- 醫(yī)學(xué)教學(xué)模型哪里有:探索高質(zhì)量醫(yī)學(xué)教育資源
- 上海醫(yī)學(xué)教學(xué)模型廠家:打造高質(zhì)量醫(yī)學(xué)教育工具
- 醫(yī)學(xué)教學(xué)用人體模型:互動(dòng)學(xué)習(xí)與臨床應(yīng)用的利器
- 醫(yī)學(xué)教學(xué)模型品牌,為醫(yī)學(xué)教育帶來(lái)卓越質(zhì)量
- 醫(yī)學(xué)教學(xué)模型視頻:創(chuàng)新方式助力醫(yī)學(xué)教育