數據挖掘在醫學(xué)大數據研究中的應用

2018-06-04

數據挖掘隨著(zhù)計算機技術(shù)得到了廣泛應用,從而提高了數據利用效率,拓展了知識發(fā)現的廣度與深度。數據挖掘已有較多成熟方法,并在醫學(xué)大數據挖掘中取得了一定成果。數據挖掘是指從數據庫中,提取隱含在其中的人們事先未知、潛在的有用的信息和知識的過(guò)程。目前,醫院已積累了大量醫療相關(guān)數據。

數據挖掘在醫學(xué)大數據研究中已取得了較多成果,通過(guò)文獻檢索,總結了三方面的應用現狀。

疾病早期預警醫療領(lǐng)域往往需要更精確的實(shí)時(shí)預警工具,而基于數據挖掘的疾病早期預警模型的建立,有助于提高疾病的早期診斷、預警和監護,同時(shí),也有利于醫療機構采取預防和控制措施,減少疾病惡化及并發(fā)癥的發(fā)生。

疾病早期預警,首先要收集與疾病相關(guān)的指標數據或危險因素,然后建立模型,從而發(fā)現隱含在數據之中的發(fā)病機制和病情之間的聯(lián)系。Forkan等采集日常監測的心率、舒張壓、收縮壓、平均血壓、呼吸率、血氧飽和度等生命體征數據,以J48決策樹(shù)、隨機森林樹(shù)及序列最小優(yōu)化算法等建立疾病預警模型,用于遠程家庭監測,識別未曾診斷過(guò)的疾病發(fā)生,并將監測結果發(fā)送到醫療急救機構,實(shí)現生命體征大數據、病人及醫療機構的完整銜接,以降低突發(fā)疾病及死亡的發(fā)生率。Easton等利用貝葉斯分類(lèi)算法建立了中風(fēng)后遺癥死亡預測模型,認為中風(fēng)后遺癥死亡概率與中風(fēng)發(fā)生后的時(shí)間長(cháng)短成函數關(guān)系,有助于中風(fēng)后遺癥患者的后續監護。Tayefi等基于決策樹(shù)算法建立了冠心病預測模型,該模型發(fā)現hs-CRP作為新的冠心病預測標志物,比傳統的標志物(如FBG、LDL)更具特異性。

慢性病研究糖尿病、高血壓、心血管疾病等慢性病正在影響著(zhù)人們的健康,識別慢性病危險因素并建立預警模型有助于降低慢性疾病并發(fā)癥的發(fā)生。Alagugowr等建立的心臟病預警系統,從心臟病大數據庫中提取特征指標,通過(guò)K-means聚類(lèi)算法識別出心臟病危險因素,又以Apriori算法挖掘高頻危險因素與心臟病危險等級之間的關(guān)聯(lián)規則。Ilayaraja等則以高頻項集尋找心臟病危險因素并識別病人風(fēng)險程度,該方法能夠回避無(wú)意義項集的產(chǎn)生,從而解決了以往研究中項集數量多、所需存儲空間大等問(wèn)題。CH Jen等對慢性疾病并發(fā)癥風(fēng)險識別的研究分三個(gè)步驟,首先,選擇健康人群體檢數據和慢性病患者相關(guān)疾病數據,以帶有序列前項選擇的線(xiàn)性判別分析來(lái)尋找相關(guān)疾病的特征變量;然后,以K-NN對特征變量進(jìn)行分類(lèi)處理;最后,將K-NN算法的分類(lèi)結果應用于慢性疾病預警模型的建立。Aljumah等先后以回歸分析和SVM用于預測和判斷糖尿病不同治療方式與不同年齡組之間的最佳匹配,為患者選擇最佳治療方式提供依據。Perveen等對糖尿病的預測研究,采用患者人口學(xué)數據和臨床指標數據,并分別用Adaboost集成算法、Bagging算法及決策樹(shù)三種算法來(lái)建立預測模型,認為Adaboost集成算法的精確性更高。

輔助醫學(xué)診斷醫學(xué)數據不僅體量大,而且錯綜復雜、相互關(guān)聯(lián)。對大量醫學(xué)數據的分析,挖掘出有價(jià)值的診斷規則,將對疾病診斷提供參考。Yang等基于決策樹(shù)算法和Apriori算法,對肺癌病理報告與臨床信息之間的關(guān)聯(lián)性進(jìn)行了研究,為肺癌病理分期診斷提供依據,從而可回避診斷中需要手術(shù)方法獲取病理組織。Becerra-Garcia等應用SVM、K-NN和CART三種算法對眼球電圖進(jìn)行信號預處理、脈沖檢測和脈沖分類(lèi),為研究臨床眼球電圖檢查中非自發(fā)掃視眼球運動(dòng)的識別提供依據。彭玉蘭等對某醫院5年的乳腺超聲數據進(jìn)行了關(guān)聯(lián)規則挖掘,建立乳腺病理診斷與超聲診斷之間的關(guān)聯(lián)規則,并開(kāi)發(fā)了乳腺超聲數據庫數據檢索系統,便于醫生快速獲得超聲診斷和病理診斷的各種診斷信息和病例信息。

醫學(xué)大數據挖掘已呈現廣闊的發(fā)展前景和巨大的應用價(jià)值,將為疾病研究、臨床及管理決策、醫療服務(wù)個(gè)性化及圖像識別等眾多領(lǐng)域帶來(lái)更多支持。麥肯錫在其報告中指出,大數據分析可以幫助美國醫療服務(wù)業(yè)一年創(chuàng )造3000億美元的附加價(jià)值,而美國醫療協(xié)會(huì )也稱(chēng),改善醫療衛生事業(yè)的關(guān)鍵在于大數據。

目前,醫院大數據中心、區域性衛生信息平臺、國家醫療大數據中心的建立以及衛生信息互聯(lián)互通標準和共享規范的制定,為數據存儲和共享、推動(dòng)醫學(xué)大數據的應用提供了更多支撐。未來(lái),醫學(xué)大數據挖掘將不斷更新,探索新的研究領(lǐng)域,推動(dòng)研究成果轉化。

朗銳慧康(www.game3222.com)認為,醫學(xué)大數據與數據挖掘的結合,能夠幫助人們從存儲的大體量、高復雜的醫學(xué)數據中提取有價(jià)值信息,加速醫學(xué)成果轉化,為醫療行業(yè)開(kāi)拓一個(gè)新的時(shí)代。