導(dǎo)讀:機器學(xué)習(xí)將加快醫(yī)療健康行業(yè)轉(zhuǎn)型的步伐,這是因為它能夠支持我們從海量的數(shù)據(jù)中生成洞見。越來越多的證據(jù)顯示,機器學(xué)習(xí)能夠支持藥物研發(fā)、識別風(fēng)險人群、提高診斷、提供研發(fā)設(shè)計支持、優(yōu)化銷售和市場營銷等。
隨著計算機系統(tǒng)可以從大數(shù)據(jù)生成洞見并支持決策,機器學(xué)習(xí)正在改變醫(yī)療健康行業(yè)的方方面面。從這個意義上來講,使計算機通過學(xué)習(xí),賦予新功能可以說是“塑造未來”,這不亞于人類教育。出乎意料的是,“教育”計算機系統(tǒng)其實是一個勞動密集型過程,這不僅需要大量的數(shù)據(jù),還需要細(xì)致了解來自每個數(shù)據(jù)源的每個數(shù)據(jù)元素,以及多年的反復(fù)試驗、不斷試錯和深厚的專業(yè)知識。機器學(xué)習(xí)的關(guān)鍵不同之處,并不是具體的技術(shù)和科學(xué)應(yīng)用,而是在此過程共所需的“教學(xué)材料”的量和質(zhì),以及“教師”的知識面。
機器學(xué)習(xí)需要人的參與及專業(yè)知識
如今,計算機滲透到人類生活的各個行業(yè),這些計算機可以從經(jīng)驗中學(xué)習(xí),進(jìn)而具備新功能,處理新情況。除了網(wǎng)絡(luò)搜索、垃圾郵件過濾、音樂推薦等日常功能,計算機也在通過每一次人機交互變得越來越智能。
機器學(xué)習(xí)將加快醫(yī)療健康行業(yè)轉(zhuǎn)型的步伐,這是因為它能夠支持我們從海量的數(shù)據(jù)中生成洞見。越來越多的證據(jù)顯示,機器學(xué)習(xí)能夠支持藥物研發(fā)、識別風(fēng)險人群、提高診斷、提供研發(fā)設(shè)計支持、優(yōu)化銷售和市場營銷等。
1、高質(zhì)量的數(shù)據(jù)
解決醫(yī)療健康業(yè)務(wù)問題,有時需要有廣度的數(shù)據(jù),有時需要有深度的數(shù)據(jù)。但是大多數(shù)情況下,尤其是對于關(guān)鍵業(yè)務(wù)決策,數(shù)據(jù)必須是高質(zhì)量的,“干凈”的。這也就是為什么大多數(shù)聲稱自己可以在“臟數(shù)據(jù)”上面工作的數(shù)據(jù)挖掘機構(gòu),在處理數(shù)據(jù)之前實際上有一個針對“臟數(shù)據(jù)”的集中清洗步驟。在這里也有必要回顧一下數(shù)據(jù)清洗和處理中的三個基本步驟:橋接、編碼和鏈接。這些步驟不僅可以產(chǎn)生高質(zhì)量數(shù)據(jù),也是在處理和分析階段,高質(zhì)量機器學(xué)習(xí)的基礎(chǔ)。
案例
機器學(xué)習(xí)正在實時地改變醫(yī)療健康行業(yè)。IQVIA建立了一個決策支持系統(tǒng),使用機器學(xué)習(xí)來幫助藥企管理臨床試驗中的醫(yī)生選定,這也是試驗成功的基礎(chǔ)。
治療領(lǐng)域的專家構(gòu)建了多維模型,闡述研究方案的所有細(xì)節(jié)。多名不同專長的數(shù)據(jù)科學(xué)家組成團(tuán)隊,構(gòu)建匹配的多維模型,以描述所有醫(yī)生開具處方或診療的模式和歷史。通過深度學(xué)習(xí),我們訓(xùn)練了一個基于8PB數(shù)據(jù)的系統(tǒng),數(shù)據(jù)涵蓋了可追溯(橋接、編碼和鏈接后)的醫(yī)療報銷和電子醫(yī)療病歷(EMR)數(shù)據(jù),最后按照成功幾率排列調(diào)查人員的優(yōu)先順序。這使得未注冊的調(diào)查人員的百分比下降了兩位數(shù),同時,參與類風(fēng)濕關(guān)節(jié)炎研究的患者注冊人數(shù)百分比也增長了兩位數(shù)。
因為醫(yī)生的行為和研究內(nèi)容非常復(fù)雜,所以領(lǐng)域?qū)<矣胸?zé)任了解如何針對這種復(fù)雜性進(jìn)行建模。建模結(jié)果的準(zhǔn)確性取決于訓(xùn)練過程,又直接受數(shù)據(jù)質(zhì)量的影響。
機器學(xué)習(xí)的關(guān)鍵基礎(chǔ)就在于用于訓(xùn)練模型的高質(zhì)量數(shù)據(jù)的有效性,以及負(fù)責(zé)優(yōu)化結(jié)果的行業(yè)專家的持續(xù)監(jiān)督。
2、人類的持續(xù)介入
即便機器學(xué)習(xí)系統(tǒng)已經(jīng)成熟,過去的60年里,機器每年都成功地處理了數(shù)十億或數(shù)萬億的業(yè)務(wù);但是,日常的人工介入仍然是數(shù)據(jù)運營和數(shù)據(jù)挖掘的關(guān)鍵。行業(yè)專家必須與機器一同工作,監(jiān)督并糾正機器工作。
3、機器學(xué)習(xí)+數(shù)據(jù)+領(lǐng)域知識
干凈的、有關(guān)聯(lián)的和屬性豐富的大數(shù)據(jù)是高質(zhì)量和有效分析的基礎(chǔ)。每一個利益相關(guān)方(制藥公司、支付方、供貨商等)和每一個衡量維度(國家、語言、供應(yīng)商、數(shù)據(jù)類型),以及每一個特定的用途(治療、臨床、商業(yè)、研發(fā)等),都需要特定的機器學(xué)習(xí)算法和配置。只有通過長期積累,持續(xù)建設(shè)不斷擴(kuò)大知識儲備,才能逐漸開發(fā)出有效的分析。
分析被分為三類:描述性、預(yù)測性和規(guī)范性。
在預(yù)測性和規(guī)范性分析中,第一個階段是建模,首先是臨床醫(yī)生和數(shù)據(jù)科學(xué)家在內(nèi)的專家團(tuán)隊,對潛在問題及可用數(shù)據(jù)進(jìn)行分析,并選擇能夠獲得最高成功率的機器學(xué)習(xí)算法。在這個過程中,人的作用是不可或缺的,需要大量臨床實踐、數(shù)據(jù)、計算機科學(xué)和機器學(xué)習(xí)算法,以及區(qū)域化的醫(yī)療和應(yīng)用的專家意見。從這個意義上講,計算機系統(tǒng)(機器)才能依照正確的“指令”去學(xué)習(xí)。
由于數(shù)據(jù)和醫(yī)療健康行業(yè)發(fā)展日新月異,機器學(xué)習(xí)需要不斷地改進(jìn)核心算法和設(shè)置。只有對數(shù)據(jù)科學(xué)和醫(yī)療了如指掌的專家團(tuán)隊,才能知道何時,以及如何改進(jìn)模型。盡管與機器的日常交互和專家的定期監(jiān)督是資源密集型,且費時費力,但這對計算機系統(tǒng)的性能提升是至關(guān)重要的。
結(jié)論
醫(yī)療健康行業(yè)每年都能產(chǎn)生數(shù)以億計的記錄數(shù)據(jù)。我們得到的數(shù)據(jù)越多,醫(yī)療服務(wù)就變得越加精準(zhǔn)。同時,這些數(shù)據(jù)也帶來了成千上萬的分析類問題,如果具備高質(zhì)量的大數(shù)據(jù),前沿的科技,以及豐富的專業(yè)知識,機器學(xué)習(xí)可以在解決問題方面產(chǎn)生深遠(yuǎn)的影響。
機器學(xué)習(xí)的各個步驟都要求專業(yè)人員對所研究課題有深入廣泛的知識。從這個角度來看,機器學(xué)習(xí)是一個需要人類深度參與的過程。