公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用范文,希望能給你帶來靈感和參考,敬請閱讀。

數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用

1常見數(shù)據(jù)挖掘算法及其在醫(yī)院內(nèi)感染中的應(yīng)用

1.1神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)傳遞的智能算法,一般由輸入、隱含和輸出三部分構(gòu)成,包括前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)3種模型。BP神經(jīng)網(wǎng)絡(luò)為多層前饋式人工神經(jīng)網(wǎng)絡(luò),是醫(yī)學(xué)領(lǐng)域最常用的一種,基于誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練而成。神經(jīng)網(wǎng)絡(luò)對資料類型沒有任何要求,非線性數(shù)據(jù)處理能力強,容錯性能良好,分類精確度高。但構(gòu)建神經(jīng)網(wǎng)絡(luò)模型時缺乏相應(yīng)的理論指導(dǎo),主要靠專業(yè)經(jīng)驗設(shè)置網(wǎng)絡(luò)隱藏層的層數(shù)和單元數(shù),且無法明確輸入變量是保護(hù)因素還是危險因素,對結(jié)果的解釋性能較低。重癥監(jiān)護(hù)病房(ICU)住院患者自身基礎(chǔ)疾病多,侵襲性治療操作多,是醫(yī)院內(nèi)感染的高危人群。謝多雙等[6]將ICU患者作為研究對象,構(gòu)建ICU患者醫(yī)院內(nèi)感染的多層感知器神經(jīng)網(wǎng)絡(luò)預(yù)測模型,模型結(jié)構(gòu)為25-4-1,結(jié)果顯示,ICU患者醫(yī)院內(nèi)感染的影響因素依次為ICU入住時間、抗菌藥物使用情況、基礎(chǔ)疾病診斷、年齡、使用插管等,模型訓(xùn)練集與測試集的準(zhǔn)確率分別達(dá)81.60%、84.20%,受試者工作特征曲線下面積為0.861,模型預(yù)測效果良好。許林勇等[7]使用SAS/EnterpriseMiner軟件對患者醫(yī)院內(nèi)感染數(shù)據(jù)進(jìn)行清洗和編碼后使用16-6-1結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行醫(yī)院內(nèi)感染的危險度評估,建立了針對患者個體的預(yù)測模型,正確率達(dá)98.91%,受試者工作特征曲線下面積為0.986。但該研究納入研究因素較少,且未對各科室情況進(jìn)行分析。牛淼[8]根據(jù)住院患者種類將醫(yī)院分為內(nèi)科病區(qū)、外科病區(qū)、干部病區(qū)和其他病區(qū),運用多層感知器神經(jīng)網(wǎng)絡(luò)模型對各病區(qū)醫(yī)院內(nèi)感染情況進(jìn)行分析,結(jié)果顯示,各病區(qū)中最重要的影響因素均為住院時間,無論在哪個病區(qū),隨著住院時間增加,醫(yī)院內(nèi)感染的風(fēng)險顯著升高。

1.2決策樹

決策樹的經(jīng)典算法是由Quinlan提出的ID3算法,C4.5算法在此基礎(chǔ)上增加了連續(xù)變量的處理方法,隨著boosting技術(shù)的應(yīng)用,C5.0算法應(yīng)運而生。決策樹的傳遞方式為自上而下,通過邏輯分支關(guān)系,形成一種具有分類規(guī)則的樹狀結(jié)構(gòu)。決策樹根據(jù)信息增益、GINI系數(shù)等模型參數(shù)選擇對測試數(shù)據(jù)區(qū)分度最大的屬性變量作為決策樹的根節(jié)點,然后根據(jù)根節(jié)點變量的屬性向下進(jìn)行分割,形成分支;每個分支節(jié)點重新測試變量屬性,繼續(xù)向下分支,直到該分支節(jié)點的類別同質(zhì)化或達(dá)到預(yù)先設(shè)定的閾值[9]。決策樹生成過程若不加以限制,將會發(fā)生過擬合的現(xiàn)象,需對樹進(jìn)行剪枝。剪枝方式有2種,前剪枝和后剪枝,前剪枝是限制決策樹的生長,減少決策分支;后剪枝是在決策樹分割完成后對樹進(jìn)行修剪,防止過度擬合的發(fā)生。決策樹模型生成的樹狀圖簡單、直觀,易于理解,建模過程省時、高效、速度快,對多種類型屬性等復(fù)雜數(shù)據(jù)處理能力強,具有高度精準(zhǔn)的預(yù)測和分類的能力。王力紅等[10]研究了1897例入住ICU的患者,分析其發(fā)生醫(yī)院內(nèi)感染的危險因素,通過建立評價指標(biāo)體系將危險因素進(jìn)行分類,并建立了決策樹預(yù)測模型,對ICU患者住院期間發(fā)生醫(yī)院內(nèi)感染的風(fēng)險進(jìn)行早期預(yù)測。LOPES等[11]對巴西兒科醫(yī)院的急診患者進(jìn)行前瞻性隊列研究,監(jiān)測患者醫(yī)院內(nèi)感染情況,并將決策樹算法用于醫(yī)院內(nèi)感染相關(guān)病死率的預(yù)測,并找出高病死率相關(guān)的預(yù)測因素,結(jié)果顯示,醫(yī)院內(nèi)感染相關(guān)高病死率與侵入性操作、多種抗生素聯(lián)合應(yīng)用有關(guān),通過改變決策路徑里的這些因素可降低醫(yī)院內(nèi)感染相關(guān)病死率。鄧小紅等[12]將CART決策樹算法用于ICU住院患者醫(yī)院獲得性壓瘡的風(fēng)險預(yù)測,最終生成4層11個節(jié)點的決策樹模型,共提取6條分類規(guī)則,篩選出3類高危人群,且決策樹模型的靈敏度、特異性及受試者工作特征曲線下面積均高于Braden評分。

1.3支持向量機(SVM)

SVM由Vapnik提出,在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上發(fā)展而來[13]。SVM融合了結(jié)構(gòu)風(fēng)險最小原理和VC維理論等統(tǒng)計學(xué)習(xí)理論,成為其最大的技術(shù)特色,具有更良好的執(zhí)行推廣能力[14]。SVM旨在小樣本數(shù)據(jù)的有限空間內(nèi)尋找具有最大間隔的決策面,使決策風(fēng)險達(dá)到最小,模型泛化能力達(dá)到最優(yōu)[15]。SVM可很好地解決數(shù)據(jù)非線性問題及高維問題,解決了神經(jīng)網(wǎng)絡(luò)模型的局部極小點問題,提高了泛化性能[16]。EHRENTRAUT等[17]采用SVM和梯度樹增強構(gòu)建醫(yī)院內(nèi)感染監(jiān)測模型。梯度樹增強具有良好的分類能力,且能測量每個功能的重要程度,評估分類器所使用的特征是否為醫(yī)院內(nèi)感染的合理指標(biāo)。該研究將重點研究有關(guān)預(yù)處理方法或參數(shù)調(diào)整是否有助于提高模型性能的問題,盡可能高地使回憶精度接近于100%,而具有高召回率的算法尤其適用于對感染的篩查。SILVA等[18]采用跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程方法將SVM和樸素貝葉斯分類技術(shù)用于波爾圖市中心醫(yī)院的醫(yī)院內(nèi)感染數(shù)據(jù)分析,根據(jù)不同場景創(chuàng)建預(yù)測模型,以發(fā)現(xiàn)新知識并獲得解決問題的最佳模型(靈敏度高于91.90%)。該研究通過對現(xiàn)有臨床數(shù)據(jù)進(jìn)行分析,提供了以臨床問題為導(dǎo)向的科研思路,旨在減少患者發(fā)生并發(fā)癥的風(fēng)險,改善其安全和健康,從而預(yù)防和減少醫(yī)療機構(gòu)的醫(yī)院內(nèi)感染的發(fā)生。醫(yī)院內(nèi)感染數(shù)據(jù)存在嚴(yán)重的不均衡性,陽性患者所占比重較小,針對這一現(xiàn)象,COHEN等[19]提出了非對稱SVM,提高了SVM模型對罕見陽性病例的識別能力,以極低的成本實現(xiàn)了92.00%的召回率,且與之前研究通過新穎的重采樣策略獲得的最高靈敏度(87.00%)又有所提升。

1.4粗糙集

粗糙集理論是由PWLAK[20]教授于1982年提出的一種研究不完整、不確定知識和數(shù)據(jù)的學(xué)習(xí)歸納法,在處理大數(shù)據(jù)庫和消除冗雜信息方面具有明顯優(yōu)勢,現(xiàn)在已成為數(shù)據(jù)挖掘/知識發(fā)現(xiàn)研究中強有力的工具。粗糙集的基本思想是對決策表(數(shù)據(jù)集)進(jìn)行屬性約簡和值約簡后得出決策規(guī)則,然后采用判別規(guī)則進(jìn)行分類。粗糙集理論的特點是不用預(yù)先給定特征或?qū)傩缘臄?shù)量描述,而直接從給定問題出發(fā),通過不可分辨關(guān)系(類)找出問題的近似域,從而發(fā)現(xiàn)其內(nèi)在規(guī)律[21-22]。王向陽等[23]首次將粗糙集算法用于醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究,通過對患者信息數(shù)據(jù)進(jìn)行預(yù)處理,將病情信息看作條件屬性,將是否發(fā)生醫(yī)院內(nèi)感染看作決策屬性,對數(shù)據(jù)集進(jìn)行屬性約簡和值約簡,通過約簡后的數(shù)據(jù)集得出決策規(guī)則,再使用得到的決策規(guī)則進(jìn)行判別分類,得到的決策規(guī)則少而精,非常直觀。洪晶等[24]將粗糙集與經(jīng)典ID3決策樹算法結(jié)合起來,建立了基于粗糙集的決策樹算法,通過粗糙集屬性約簡后數(shù)據(jù)再使用決策樹進(jìn)行分類,2種算法優(yōu)勢互補,為診斷醫(yī)院內(nèi)感染提供了新的思路與方法。

1.5時間序列

時間序列數(shù)據(jù)具有高維性、海量性、噪聲性、幅度上的拉伸和平移、時間軸上的伸縮性、線性漂移和不連續(xù)點等特征。傳統(tǒng)的數(shù)據(jù)挖掘算法無法對時間序列數(shù)據(jù)進(jìn)行有效的處理分析,因此,時間序列數(shù)據(jù)挖掘應(yīng)運而生[25]。典型的時間序列模型包括自回歸滑動平均模型、Markov模型和人工神經(jīng)網(wǎng)絡(luò)模型等[26]。耐甲氧西林金黃色葡萄球菌(MRSA)造成的醫(yī)院內(nèi)感染或社區(qū)感染不斷攀升,對環(huán)境物表清潔消毒的要求也不斷提高。單歡等[27]考慮到MRSA流行的時間趨勢及周期變化,使用求和自回歸滑動平均模型(ARIMA)對2010-2014年浙江醫(yī)院MRSA監(jiān)測數(shù)據(jù)進(jìn)行擬合分析,建立了MRSA的ARIMA預(yù)測模型,對MRSA的流行趨勢進(jìn)行預(yù)測,得出模型的平均相對誤差為20.19%,預(yù)測出的MR-SA動態(tài)趨勢與實際檢出情況基本符合,可為MRSA的防控提供參考依據(jù)。NGO等[28]將指數(shù)平滑法用于加利福尼亞州舊金山退伍軍人醫(yī)學(xué)中心在1991-1992年銅綠假單胞菌細(xì)菌感染疑似慶大霉素耐藥情況分析,研究了慶大霉素抗性銅綠假單胞菌年累計發(fā)病率與流行發(fā)生的關(guān)系。由于兒童各器官系統(tǒng)發(fā)育尚未成熟,免疫機制尚不健全,對病原體尤其是呼吸道病原體抵抗力較弱,是醫(yī)院內(nèi)感染的易感人群。劉海鵬等[29]收集匯總了2011-2015年安徽省兒童醫(yī)院住院患兒醫(yī)院內(nèi)感染數(shù)據(jù),使用ARIMA時間序列分析方法進(jìn)行模型的構(gòu)建,并對數(shù)據(jù)進(jìn)行一階差分來平穩(wěn)序列的方差,根據(jù)信息量準(zhǔn)則選擇最優(yōu)模型,預(yù)測效果良好,對住院患兒醫(yī)院內(nèi)感染的發(fā)生率具有一定的預(yù)測價值。監(jiān)測抗生素耐藥性導(dǎo)致的醫(yī)院內(nèi)感染暴發(fā)是醫(yī)院內(nèi)感染控制不可或缺的重要部分。

1.6關(guān)聯(lián)規(guī)則

對事務(wù)數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)規(guī)則挖掘,就是通過用戶指定的最小支持度(Support)和最小置信度(Confidence)尋找強關(guān)聯(lián)規(guī)則的過程[30]。關(guān)聯(lián)規(guī)則挖掘問題包括尋找所有頻繁項目集和在頻繁項目集中尋找關(guān)聯(lián)規(guī)則兩部分。關(guān)聯(lián)模式中最著名的就是AGRAWAL等提出來的Apriori算法[31],其算法思想是首先找出頻繁性至少和預(yù)定義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則。通過減少對數(shù)據(jù)庫的掃描次數(shù)和不必要的頻繁項目集的生成方法可提高Apriori算法的效率。由于Apriori算法在尋找頻繁項目集時產(chǎn)生大量的候選項,占用了大量的內(nèi)存,不適用于大規(guī)模數(shù)據(jù)集,由此衍生出CLOSE算法和FP-GROWTH算法[32]。FP-GROWTH算法對原始數(shù)據(jù)庫進(jìn)行2次掃描,將原始庫映射成一棵頻繁模式樹,并保留關(guān)聯(lián)信息,然后再將頻繁模式樹分化成條件庫,再對條件庫進(jìn)行挖掘,在內(nèi)存中即可完成頻繁項目集的發(fā)現(xiàn)工作。對醫(yī)院內(nèi)感染數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析可發(fā)現(xiàn)數(shù)據(jù)屬性間的關(guān)系,為醫(yī)院內(nèi)感染的防治提供參考依據(jù)。BROSSETTE等[33]利用阿拉巴馬大學(xué)伯明翰分校醫(yī)院的銅綠假單胞菌感染控制數(shù)據(jù)探索了一個基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘流程,期望用于醫(yī)院內(nèi)感染事件的自動識別與監(jiān)測,模型實現(xiàn)結(jié)果良好。目前,醫(yī)療數(shù)據(jù)分析主要采用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)分析,但Apriori算法候選頻繁集較多,生成許多無趣的規(guī)則。有研究采用FP-GROWTH算法對解放軍總醫(yī)院第一附屬醫(yī)院的400例患者進(jìn)行了關(guān)聯(lián)分析,提取患者性別、年齡、抗生素使用情況等7個屬性建立了13條關(guān)聯(lián)規(guī)則,揭示了年齡、介入性操作、抗生素使用、住院時間等因素與醫(yī)院內(nèi)感染間的關(guān)聯(lián)性[34]。醫(yī)院內(nèi)感染的影響因素多且彼此間及與醫(yī)院內(nèi)感染發(fā)生的聯(lián)系尚未明確,具有灰色特性。劉姣英[35]運用灰色關(guān)聯(lián)分析理論將醫(yī)院內(nèi)感染的數(shù)據(jù)資料進(jìn)行量化分析,研究各因素間的關(guān)聯(lián)程度及優(yōu)勢程度,結(jié)果顯示,外科是醫(yī)院內(nèi)感染控制的重點科室,外科感染以泌尿系統(tǒng)感染最為突出,下呼吸道感染是醫(yī)院內(nèi)感染監(jiān)控的重要部位,是造成其他部位感染的重要潛在因素。

2小結(jié)與展望

醫(yī)院內(nèi)感染因素復(fù)雜,種類龐多,對不同類型、不同部位的醫(yī)院內(nèi)感染進(jìn)行預(yù)測,沒有哪一種模型是絕對最優(yōu)的,因此,需進(jìn)一步進(jìn)行大量的針對不同類型、途徑、人群等具體屬性的醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究。隨著醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究的越來越深入,單一模型已無法滿足研究需求,組合模型研究成為新的研究方向。模型的優(yōu)劣取決于現(xiàn)有數(shù)據(jù)的擬合程度及對新數(shù)據(jù)的預(yù)測準(zhǔn)確程度及實用性。模型預(yù)測的結(jié)果可集成到智能平臺中,用于醫(yī)院內(nèi)感染發(fā)生的監(jiān)測及預(yù)警,為醫(yī)療衛(wèi)生決策提供重要參考依據(jù)。

作者:楊文偉 蔣良芝 李春燕 汪可可 單位:上海市楊浦區(qū)中心醫(yī)院 同濟大學(xué)附屬楊浦醫(yī)院醫(yī)院感染管理科