网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用范文,希望能給你帶來靈感和參考,敬請閱讀。

數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用

1常見數(shù)據(jù)挖掘算法及其在醫(yī)院內(nèi)感染中的應(yīng)用

1.1神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)傳遞的智能算法,一般由輸入、隱含和輸出三部分構(gòu)成,包括前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)3種模型。BP神經(jīng)網(wǎng)絡(luò)為多層前饋式人工神經(jīng)網(wǎng)絡(luò),是醫(yī)學(xué)領(lǐng)域最常用的一種,基于誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練而成。神經(jīng)網(wǎng)絡(luò)對資料類型沒有任何要求,非線性數(shù)據(jù)處理能力強,容錯性能良好,分類精確度高。但構(gòu)建神經(jīng)網(wǎng)絡(luò)模型時缺乏相應(yīng)的理論指導(dǎo),主要靠專業(yè)經(jīng)驗設(shè)置網(wǎng)絡(luò)隱藏層的層數(shù)和單元數(shù),且無法明確輸入變量是保護因素還是危險因素,對結(jié)果的解釋性能較低。重癥監(jiān)護病房(ICU)住院患者自身基礎(chǔ)疾病多,侵襲性治療操作多,是醫(yī)院內(nèi)感染的高危人群。謝多雙等[6]將ICU患者作為研究對象,構(gòu)建ICU患者醫(yī)院內(nèi)感染的多層感知器神經(jīng)網(wǎng)絡(luò)預(yù)測模型,模型結(jié)構(gòu)為25-4-1,結(jié)果顯示,ICU患者醫(yī)院內(nèi)感染的影響因素依次為ICU入住時間、抗菌藥物使用情況、基礎(chǔ)疾病診斷、年齡、使用插管等,模型訓(xùn)練集與測試集的準(zhǔn)確率分別達81.60%、84.20%,受試者工作特征曲線下面積為0.861,模型預(yù)測效果良好。許林勇等[7]使用SAS/EnterpriseMiner軟件對患者醫(yī)院內(nèi)感染數(shù)據(jù)進行清洗和編碼后使用16-6-1結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò)模型進行醫(yī)院內(nèi)感染的危險度評估,建立了針對患者個體的預(yù)測模型,正確率達98.91%,受試者工作特征曲線下面積為0.986。但該研究納入研究因素較少,且未對各科室情況進行分析。牛淼[8]根據(jù)住院患者種類將醫(yī)院分為內(nèi)科病區(qū)、外科病區(qū)、干部病區(qū)和其他病區(qū),運用多層感知器神經(jīng)網(wǎng)絡(luò)模型對各病區(qū)醫(yī)院內(nèi)感染情況進行分析,結(jié)果顯示,各病區(qū)中最重要的影響因素均為住院時間,無論在哪個病區(qū),隨著住院時間增加,醫(yī)院內(nèi)感染的風(fēng)險顯著升高。

1.2決策樹

決策樹的經(jīng)典算法是由Quinlan提出的ID3算法,C4.5算法在此基礎(chǔ)上增加了連續(xù)變量的處理方法,隨著boosting技術(shù)的應(yīng)用,C5.0算法應(yīng)運而生。決策樹的傳遞方式為自上而下,通過邏輯分支關(guān)系,形成一種具有分類規(guī)則的樹狀結(jié)構(gòu)。決策樹根據(jù)信息增益、GINI系數(shù)等模型參數(shù)選擇對測試數(shù)據(jù)區(qū)分度最大的屬性變量作為決策樹的根節(jié)點,然后根據(jù)根節(jié)點變量的屬性向下進行分割,形成分支;每個分支節(jié)點重新測試變量屬性,繼續(xù)向下分支,直到該分支節(jié)點的類別同質(zhì)化或達到預(yù)先設(shè)定的閾值[9]。決策樹生成過程若不加以限制,將會發(fā)生過擬合的現(xiàn)象,需對樹進行剪枝。剪枝方式有2種,前剪枝和后剪枝,前剪枝是限制決策樹的生長,減少決策分支;后剪枝是在決策樹分割完成后對樹進行修剪,防止過度擬合的發(fā)生。決策樹模型生成的樹狀圖簡單、直觀,易于理解,建模過程省時、高效、速度快,對多種類型屬性等復(fù)雜數(shù)據(jù)處理能力強,具有高度精準(zhǔn)的預(yù)測和分類的能力。王力紅等[10]研究了1897例入住ICU的患者,分析其發(fā)生醫(yī)院內(nèi)感染的危險因素,通過建立評價指標(biāo)體系將危險因素進行分類,并建立了決策樹預(yù)測模型,對ICU患者住院期間發(fā)生醫(yī)院內(nèi)感染的風(fēng)險進行早期預(yù)測。LOPES等[11]對巴西兒科醫(yī)院的急診患者進行前瞻性隊列研究,監(jiān)測患者醫(yī)院內(nèi)感染情況,并將決策樹算法用于醫(yī)院內(nèi)感染相關(guān)病死率的預(yù)測,并找出高病死率相關(guān)的預(yù)測因素,結(jié)果顯示,醫(yī)院內(nèi)感染相關(guān)高病死率與侵入性操作、多種抗生素聯(lián)合應(yīng)用有關(guān),通過改變決策路徑里的這些因素可降低醫(yī)院內(nèi)感染相關(guān)病死率。鄧小紅等[12]將CART決策樹算法用于ICU住院患者醫(yī)院獲得性壓瘡的風(fēng)險預(yù)測,最終生成4層11個節(jié)點的決策樹模型,共提取6條分類規(guī)則,篩選出3類高危人群,且決策樹模型的靈敏度、特異性及受試者工作特征曲線下面積均高于Braden評分。

1.3支持向量機(SVM)

SVM由Vapnik提出,在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上發(fā)展而來[13]。SVM融合了結(jié)構(gòu)風(fēng)險最小原理和VC維理論等統(tǒng)計學(xué)習(xí)理論,成為其最大的技術(shù)特色,具有更良好的執(zhí)行推廣能力[14]。SVM旨在小樣本數(shù)據(jù)的有限空間內(nèi)尋找具有最大間隔的決策面,使決策風(fēng)險達到最小,模型泛化能力達到最優(yōu)[15]。SVM可很好地解決數(shù)據(jù)非線性問題及高維問題,解決了神經(jīng)網(wǎng)絡(luò)模型的局部極小點問題,提高了泛化性能[16]。EHRENTRAUT等[17]采用SVM和梯度樹增強構(gòu)建醫(yī)院內(nèi)感染監(jiān)測模型。梯度樹增強具有良好的分類能力,且能測量每個功能的重要程度,評估分類器所使用的特征是否為醫(yī)院內(nèi)感染的合理指標(biāo)。該研究將重點研究有關(guān)預(yù)處理方法或參數(shù)調(diào)整是否有助于提高模型性能的問題,盡可能高地使回憶精度接近于100%,而具有高召回率的算法尤其適用于對感染的篩查。SILVA等[18]采用跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程方法將SVM和樸素貝葉斯分類技術(shù)用于波爾圖市中心醫(yī)院的醫(yī)院內(nèi)感染數(shù)據(jù)分析,根據(jù)不同場景創(chuàng)建預(yù)測模型,以發(fā)現(xiàn)新知識并獲得解決問題的最佳模型(靈敏度高于91.90%)。該研究通過對現(xiàn)有臨床數(shù)據(jù)進行分析,提供了以臨床問題為導(dǎo)向的科研思路,旨在減少患者發(fā)生并發(fā)癥的風(fēng)險,改善其安全和健康,從而預(yù)防和減少醫(yī)療機構(gòu)的醫(yī)院內(nèi)感染的發(fā)生。醫(yī)院內(nèi)感染數(shù)據(jù)存在嚴(yán)重的不均衡性,陽性患者所占比重較小,針對這一現(xiàn)象,COHEN等[19]提出了非對稱SVM,提高了SVM模型對罕見陽性病例的識別能力,以極低的成本實現(xiàn)了92.00%的召回率,且與之前研究通過新穎的重采樣策略獲得的最高靈敏度(87.00%)又有所提升。

1.4粗糙集

粗糙集理論是由PWLAK[20]教授于1982年提出的一種研究不完整、不確定知識和數(shù)據(jù)的學(xué)習(xí)歸納法,在處理大數(shù)據(jù)庫和消除冗雜信息方面具有明顯優(yōu)勢,現(xiàn)在已成為數(shù)據(jù)挖掘/知識發(fā)現(xiàn)研究中強有力的工具。粗糙集的基本思想是對決策表(數(shù)據(jù)集)進行屬性約簡和值約簡后得出決策規(guī)則,然后采用判別規(guī)則進行分類。粗糙集理論的特點是不用預(yù)先給定特征或?qū)傩缘臄?shù)量描述,而直接從給定問題出發(fā),通過不可分辨關(guān)系(類)找出問題的近似域,從而發(fā)現(xiàn)其內(nèi)在規(guī)律[21-22]。王向陽等[23]首次將粗糙集算法用于醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究,通過對患者信息數(shù)據(jù)進行預(yù)處理,將病情信息看作條件屬性,將是否發(fā)生醫(yī)院內(nèi)感染看作決策屬性,對數(shù)據(jù)集進行屬性約簡和值約簡,通過約簡后的數(shù)據(jù)集得出決策規(guī)則,再使用得到的決策規(guī)則進行判別分類,得到的決策規(guī)則少而精,非常直觀。洪晶等[24]將粗糙集與經(jīng)典ID3決策樹算法結(jié)合起來,建立了基于粗糙集的決策樹算法,通過粗糙集屬性約簡后數(shù)據(jù)再使用決策樹進行分類,2種算法優(yōu)勢互補,為診斷醫(yī)院內(nèi)感染提供了新的思路與方法。

1.5時間序列

時間序列數(shù)據(jù)具有高維性、海量性、噪聲性、幅度上的拉伸和平移、時間軸上的伸縮性、線性漂移和不連續(xù)點等特征。傳統(tǒng)的數(shù)據(jù)挖掘算法無法對時間序列數(shù)據(jù)進行有效的處理分析,因此,時間序列數(shù)據(jù)挖掘應(yīng)運而生[25]。典型的時間序列模型包括自回歸滑動平均模型、Markov模型和人工神經(jīng)網(wǎng)絡(luò)模型等[26]。耐甲氧西林金黃色葡萄球菌(MRSA)造成的醫(yī)院內(nèi)感染或社區(qū)感染不斷攀升,對環(huán)境物表清潔消毒的要求也不斷提高。單歡等[27]考慮到MRSA流行的時間趨勢及周期變化,使用求和自回歸滑動平均模型(ARIMA)對2010-2014年浙江醫(yī)院MRSA監(jiān)測數(shù)據(jù)進行擬合分析,建立了MRSA的ARIMA預(yù)測模型,對MRSA的流行趨勢進行預(yù)測,得出模型的平均相對誤差為20.19%,預(yù)測出的MR-SA動態(tài)趨勢與實際檢出情況基本符合,可為MRSA的防控提供參考依據(jù)。NGO等[28]將指數(shù)平滑法用于加利福尼亞州舊金山退伍軍人醫(yī)學(xué)中心在1991-1992年銅綠假單胞菌細菌感染疑似慶大霉素耐藥情況分析,研究了慶大霉素抗性銅綠假單胞菌年累計發(fā)病率與流行發(fā)生的關(guān)系。由于兒童各器官系統(tǒng)發(fā)育尚未成熟,免疫機制尚不健全,對病原體尤其是呼吸道病原體抵抗力較弱,是醫(yī)院內(nèi)感染的易感人群。劉海鵬等[29]收集匯總了2011-2015年安徽省兒童醫(yī)院住院患兒醫(yī)院內(nèi)感染數(shù)據(jù),使用ARIMA時間序列分析方法進行模型的構(gòu)建,并對數(shù)據(jù)進行一階差分來平穩(wěn)序列的方差,根據(jù)信息量準(zhǔn)則選擇最優(yōu)模型,預(yù)測效果良好,對住院患兒醫(yī)院內(nèi)感染的發(fā)生率具有一定的預(yù)測價值。監(jiān)測抗生素耐藥性導(dǎo)致的醫(yī)院內(nèi)感染暴發(fā)是醫(yī)院內(nèi)感染控制不可或缺的重要部分。

1.6關(guān)聯(lián)規(guī)則

對事務(wù)數(shù)據(jù)庫進行關(guān)聯(lián)規(guī)則挖掘,就是通過用戶指定的最小支持度(Support)和最小置信度(Confidence)尋找強關(guān)聯(lián)規(guī)則的過程[30]。關(guān)聯(lián)規(guī)則挖掘問題包括尋找所有頻繁項目集和在頻繁項目集中尋找關(guān)聯(lián)規(guī)則兩部分。關(guān)聯(lián)模式中最著名的就是AGRAWAL等提出來的Apriori算法[31],其算法思想是首先找出頻繁性至少和預(yù)定義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則。通過減少對數(shù)據(jù)庫的掃描次數(shù)和不必要的頻繁項目集的生成方法可提高Apriori算法的效率。由于Apriori算法在尋找頻繁項目集時產(chǎn)生大量的候選項,占用了大量的內(nèi)存,不適用于大規(guī)模數(shù)據(jù)集,由此衍生出CLOSE算法和FP-GROWTH算法[32]。FP-GROWTH算法對原始數(shù)據(jù)庫進行2次掃描,將原始庫映射成一棵頻繁模式樹,并保留關(guān)聯(lián)信息,然后再將頻繁模式樹分化成條件庫,再對條件庫進行挖掘,在內(nèi)存中即可完成頻繁項目集的發(fā)現(xiàn)工作。對醫(yī)院內(nèi)感染數(shù)據(jù)進行關(guān)聯(lián)分析可發(fā)現(xiàn)數(shù)據(jù)屬性間的關(guān)系,為醫(yī)院內(nèi)感染的防治提供參考依據(jù)。BROSSETTE等[33]利用阿拉巴馬大學(xué)伯明翰分校醫(yī)院的銅綠假單胞菌感染控制數(shù)據(jù)探索了一個基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘流程,期望用于醫(yī)院內(nèi)感染事件的自動識別與監(jiān)測,模型實現(xiàn)結(jié)果良好。目前,醫(yī)療數(shù)據(jù)分析主要采用Apriori算法進行關(guān)聯(lián)規(guī)則的數(shù)據(jù)分析,但Apriori算法候選頻繁集較多,生成許多無趣的規(guī)則。有研究采用FP-GROWTH算法對解放軍總醫(yī)院第一附屬醫(yī)院的400例患者進行了關(guān)聯(lián)分析,提取患者性別、年齡、抗生素使用情況等7個屬性建立了13條關(guān)聯(lián)規(guī)則,揭示了年齡、介入性操作、抗生素使用、住院時間等因素與醫(yī)院內(nèi)感染間的關(guān)聯(lián)性[34]。醫(yī)院內(nèi)感染的影響因素多且彼此間及與醫(yī)院內(nèi)感染發(fā)生的聯(lián)系尚未明確,具有灰色特性。劉姣英[35]運用灰色關(guān)聯(lián)分析理論將醫(yī)院內(nèi)感染的數(shù)據(jù)資料進行量化分析,研究各因素間的關(guān)聯(lián)程度及優(yōu)勢程度,結(jié)果顯示,外科是醫(yī)院內(nèi)感染控制的重點科室,外科感染以泌尿系統(tǒng)感染最為突出,下呼吸道感染是醫(yī)院內(nèi)感染監(jiān)控的重要部位,是造成其他部位感染的重要潛在因素。

2小結(jié)與展望

醫(yī)院內(nèi)感染因素復(fù)雜,種類龐多,對不同類型、不同部位的醫(yī)院內(nèi)感染進行預(yù)測,沒有哪一種模型是絕對最優(yōu)的,因此,需進一步進行大量的針對不同類型、途徑、人群等具體屬性的醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究。隨著醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究的越來越深入,單一模型已無法滿足研究需求,組合模型研究成為新的研究方向。模型的優(yōu)劣取決于現(xiàn)有數(shù)據(jù)的擬合程度及對新數(shù)據(jù)的預(yù)測準(zhǔn)確程度及實用性。模型預(yù)測的結(jié)果可集成到智能平臺中,用于醫(yī)院內(nèi)感染發(fā)生的監(jiān)測及預(yù)警,為醫(yī)療衛(wèi)生決策提供重要參考依據(jù)。

作者:楊文偉 蔣良芝 李春燕 汪可可 單位:上海市楊浦區(qū)中心醫(yī)院 同濟大學(xué)附屬楊浦醫(yī)院醫(yī)院感染管理科

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表