国产精品99亚发布,国产精品视频无码,欧美成人亚洲国产精品

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用范文，希望能給你帶來靈感和參考，敬請閱讀。

數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用

1常見數(shù)據(jù)挖掘算法及其在醫(yī)院內(nèi)感染中的應(yīng)用

1．1神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)傳遞的智能算法，一般由輸入、隱含和輸出三部分構(gòu)成，包括前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)3種模型。BP神經(jīng)網(wǎng)絡(luò)為多層前饋式人工神經(jīng)網(wǎng)絡(luò)，是醫(yī)學(xué)領(lǐng)域最常用的一種，基于誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練而成。神經(jīng)網(wǎng)絡(luò)對資料類型沒有任何要求，非線性數(shù)據(jù)處理能力強，容錯性能良好，分類精確度高。但構(gòu)建神經(jīng)網(wǎng)絡(luò)模型時缺乏相應(yīng)的理論指導(dǎo)，主要靠專業(yè)經(jīng)驗設(shè)置網(wǎng)絡(luò)隱藏層的層數(shù)和單元數(shù)，且無法明確輸入變量是保護因素還是危險因素，對結(jié)果的解釋性能較低。重癥監(jiān)護病房（ICU）住院患者自身基礎(chǔ)疾病多，侵襲性治療操作多，是醫(yī)院內(nèi)感染的高危人群。謝多雙等［6］將ICU患者作為研究對象，構(gòu)建ICU患者醫(yī)院內(nèi)感染的多層感知器神經(jīng)網(wǎng)絡(luò)預(yù)測模型，模型結(jié)構(gòu)為25－4－1，結(jié)果顯示，ICU患者醫(yī)院內(nèi)感染的影響因素依次為ICU入住時間、抗菌藥物使用情況、基礎(chǔ)疾病診斷、年齡、使用插管等，模型訓(xùn)練集與測試集的準(zhǔn)確率分別達81．60％、84．20％，受試者工作特征曲線下面積為0．861，模型預(yù)測效果良好。許林勇等［7］使用SAS／EnterpriseMiner軟件對患者醫(yī)院內(nèi)感染數(shù)據(jù)進行清洗和編碼后使用16－6－1結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò)模型進行醫(yī)院內(nèi)感染的危險度評估，建立了針對患者個體的預(yù)測模型，正確率達98．91％，受試者工作特征曲線下面積為0．986。但該研究納入研究因素較少，且未對各科室情況進行分析。牛淼［8］根據(jù)住院患者種類將醫(yī)院分為內(nèi)科病區(qū)、外科病區(qū)、干部病區(qū)和其他病區(qū)，運用多層感知器神經(jīng)網(wǎng)絡(luò)模型對各病區(qū)醫(yī)院內(nèi)感染情況進行分析，結(jié)果顯示，各病區(qū)中最重要的影響因素均為住院時間，無論在哪個病區(qū)，隨著住院時間增加，醫(yī)院內(nèi)感染的風(fēng)險顯著升高。

1．2決策樹

決策樹的經(jīng)典算法是由Quinlan提出的ID3算法，C4．5算法在此基礎(chǔ)上增加了連續(xù)變量的處理方法，隨著boosting技術(shù)的應(yīng)用，C5．0算法應(yīng)運而生。決策樹的傳遞方式為自上而下，通過邏輯分支關(guān)系，形成一種具有分類規(guī)則的樹狀結(jié)構(gòu)。決策樹根據(jù)信息增益、GINI系數(shù)等模型參數(shù)選擇對測試數(shù)據(jù)區(qū)分度最大的屬性變量作為決策樹的根節(jié)點，然后根據(jù)根節(jié)點變量的屬性向下進行分割，形成分支；每個分支節(jié)點重新測試變量屬性，繼續(xù)向下分支，直到該分支節(jié)點的類別同質(zhì)化或達到預(yù)先設(shè)定的閾值［9］。決策樹生成過程若不加以限制，將會發(fā)生過擬合的現(xiàn)象，需對樹進行剪枝。剪枝方式有2種，前剪枝和后剪枝，前剪枝是限制決策樹的生長，減少決策分支；后剪枝是在決策樹分割完成后對樹進行修剪，防止過度擬合的發(fā)生。決策樹模型生成的樹狀圖簡單、直觀，易于理解，建模過程省時、高效、速度快，對多種類型屬性等復(fù)雜數(shù)據(jù)處理能力強，具有高度精準(zhǔn)的預(yù)測和分類的能力。王力紅等［10］研究了1897例入住ICU的患者，分析其發(fā)生醫(yī)院內(nèi)感染的危險因素，通過建立評價指標(biāo)體系將危險因素進行分類，并建立了決策樹預(yù)測模型，對ICU患者住院期間發(fā)生醫(yī)院內(nèi)感染的風(fēng)險進行早期預(yù)測。LOPES等［11］對巴西兒科醫(yī)院的急診患者進行前瞻性隊列研究，監(jiān)測患者醫(yī)院內(nèi)感染情況，并將決策樹算法用于醫(yī)院內(nèi)感染相關(guān)病死率的預(yù)測，并找出高病死率相關(guān)的預(yù)測因素，結(jié)果顯示，醫(yī)院內(nèi)感染相關(guān)高病死率與侵入性操作、多種抗生素聯(lián)合應(yīng)用有關(guān)，通過改變決策路徑里的這些因素可降低醫(yī)院內(nèi)感染相關(guān)病死率。鄧小紅等［12］將CART決策樹算法用于ICU住院患者醫(yī)院獲得性壓瘡的風(fēng)險預(yù)測，最終生成4層11個節(jié)點的決策樹模型，共提取6條分類規(guī)則，篩選出3類高危人群，且決策樹模型的靈敏度、特異性及受試者工作特征曲線下面積均高于Braden評分。

1．3支持向量機（SVM）

SVM由Vapnik提出，在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上發(fā)展而來［13］。SVM融合了結(jié)構(gòu)風(fēng)險最小原理和VC維理論等統(tǒng)計學(xué)習(xí)理論，成為其最大的技術(shù)特色，具有更良好的執(zhí)行推廣能力［14］。SVM旨在小樣本數(shù)據(jù)的有限空間內(nèi)尋找具有最大間隔的決策面，使決策風(fēng)險達到最小，模型泛化能力達到最優(yōu)［15］。SVM可很好地解決數(shù)據(jù)非線性問題及高維問題，解決了神經(jīng)網(wǎng)絡(luò)模型的局部極小點問題，提高了泛化性能［16］。EHRENTRAUT等［17］采用SVM和梯度樹增強構(gòu)建醫(yī)院內(nèi)感染監(jiān)測模型。梯度樹增強具有良好的分類能力，且能測量每個功能的重要程度，評估分類器所使用的特征是否為醫(yī)院內(nèi)感染的合理指標(biāo)。該研究將重點研究有關(guān)預(yù)處理方法或參數(shù)調(diào)整是否有助于提高模型性能的問題，盡可能高地使回憶精度接近于100％，而具有高召回率的算法尤其適用于對感染的篩查。SILVA等［18］采用跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程方法將SVM和樸素貝葉斯分類技術(shù)用于波爾圖市中心醫(yī)院的醫(yī)院內(nèi)感染數(shù)據(jù)分析，根據(jù)不同場景創(chuàng)建預(yù)測模型，以發(fā)現(xiàn)新知識并獲得解決問題的最佳模型（靈敏度高于91．90％）。該研究通過對現(xiàn)有臨床數(shù)據(jù)進行分析，提供了以臨床問題為導(dǎo)向的科研思路，旨在減少患者發(fā)生并發(fā)癥的風(fēng)險，改善其安全和健康，從而預(yù)防和減少醫(yī)療機構(gòu)的醫(yī)院內(nèi)感染的發(fā)生。醫(yī)院內(nèi)感染數(shù)據(jù)存在嚴(yán)重的不均衡性，陽性患者所占比重較小，針對這一現(xiàn)象，COHEN等［19］提出了非對稱SVM，提高了SVM模型對罕見陽性病例的識別能力，以極低的成本實現(xiàn)了92．00％的召回率，且與之前研究通過新穎的重采樣策略獲得的最高靈敏度（87．00％）又有所提升。

1．4粗糙集

粗糙集理論是由PWLAK［20］教授于1982年提出的一種研究不完整、不確定知識和數(shù)據(jù)的學(xué)習(xí)歸納法，在處理大數(shù)據(jù)庫和消除冗雜信息方面具有明顯優(yōu)勢，現(xiàn)在已成為數(shù)據(jù)挖掘／知識發(fā)現(xiàn)研究中強有力的工具。粗糙集的基本思想是對決策表（數(shù)據(jù)集）進行屬性約簡和值約簡后得出決策規(guī)則，然后采用判別規(guī)則進行分類。粗糙集理論的特點是不用預(yù)先給定特征或?qū)傩缘臄?shù)量描述，而直接從給定問題出發(fā)，通過不可分辨關(guān)系（類）找出問題的近似域，從而發(fā)現(xiàn)其內(nèi)在規(guī)律［21－22］。王向陽等［23］首次將粗糙集算法用于醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究，通過對患者信息數(shù)據(jù)進行預(yù)處理，將病情信息看作條件屬性，將是否發(fā)生醫(yī)院內(nèi)感染看作決策屬性，對數(shù)據(jù)集進行屬性約簡和值約簡，通過約簡后的數(shù)據(jù)集得出決策規(guī)則，再使用得到的決策規(guī)則進行判別分類，得到的決策規(guī)則少而精，非常直觀。洪晶等［24］將粗糙集與經(jīng)典ID3決策樹算法結(jié)合起來，建立了基于粗糙集的決策樹算法，通過粗糙集屬性約簡后數(shù)據(jù)再使用決策樹進行分類，2種算法優(yōu)勢互補，為診斷醫(yī)院內(nèi)感染提供了新的思路與方法。

1．5時間序列

時間序列數(shù)據(jù)具有高維性、海量性、噪聲性、幅度上的拉伸和平移、時間軸上的伸縮性、線性漂移和不連續(xù)點等特征。傳統(tǒng)的數(shù)據(jù)挖掘算法無法對時間序列數(shù)據(jù)進行有效的處理分析，因此，時間序列數(shù)據(jù)挖掘應(yīng)運而生［25］。典型的時間序列模型包括自回歸滑動平均模型、Markov模型和人工神經(jīng)網(wǎng)絡(luò)模型等［26］。耐甲氧西林金黃色葡萄球菌（MRSA）造成的醫(yī)院內(nèi)感染或社區(qū)感染不斷攀升，對環(huán)境物表清潔消毒的要求也不斷提高。單歡等［27］考慮到MRSA流行的時間趨勢及周期變化，使用求和自回歸滑動平均模型（ARIMA）對2010－2014年浙江醫(yī)院MRSA監(jiān)測數(shù)據(jù)進行擬合分析，建立了MRSA的ARIMA預(yù)測模型，對MRSA的流行趨勢進行預(yù)測，得出模型的平均相對誤差為20．19％，預(yù)測出的MR－SA動態(tài)趨勢與實際檢出情況基本符合，可為MRSA的防控提供參考依據(jù)。NGO等［28］將指數(shù)平滑法用于加利福尼亞州舊金山退伍軍人醫(yī)學(xué)中心在1991－1992年銅綠假單胞菌細菌感染疑似慶大霉素耐藥情況分析，研究了慶大霉素抗性銅綠假單胞菌年累計發(fā)病率與流行發(fā)生的關(guān)系。由于兒童各器官系統(tǒng)發(fā)育尚未成熟，免疫機制尚不健全，對病原體尤其是呼吸道病原體抵抗力較弱，是醫(yī)院內(nèi)感染的易感人群。劉海鵬等［29］收集匯總了2011－2015年安徽省兒童醫(yī)院住院患兒醫(yī)院內(nèi)感染數(shù)據(jù)，使用ARIMA時間序列分析方法進行模型的構(gòu)建，并對數(shù)據(jù)進行一階差分來平穩(wěn)序列的方差，根據(jù)信息量準(zhǔn)則選擇最優(yōu)模型，預(yù)測效果良好，對住院患兒醫(yī)院內(nèi)感染的發(fā)生率具有一定的預(yù)測價值。監(jiān)測抗生素耐藥性導(dǎo)致的醫(yī)院內(nèi)感染暴發(fā)是醫(yī)院內(nèi)感染控制不可或缺的重要部分。

1．6關(guān)聯(lián)規(guī)則

對事務(wù)數(shù)據(jù)庫進行關(guān)聯(lián)規(guī)則挖掘，就是通過用戶指定的最小支持度（Support）和最小置信度（Confidence）尋找強關(guān)聯(lián)規(guī)則的過程［30］。關(guān)聯(lián)規(guī)則挖掘問題包括尋找所有頻繁項目集和在頻繁項目集中尋找關(guān)聯(lián)規(guī)則兩部分。關(guān)聯(lián)模式中最著名的就是AGRAWAL等提出來的Apriori算法［31］，其算法思想是首先找出頻繁性至少和預(yù)定義的最小支持度一樣的所有頻集，然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則。通過減少對數(shù)據(jù)庫的掃描次數(shù)和不必要的頻繁項目集的生成方法可提高Apriori算法的效率。由于Apriori算法在尋找頻繁項目集時產(chǎn)生大量的候選項，占用了大量的內(nèi)存，不適用于大規(guī)模數(shù)據(jù)集，由此衍生出CLOSE算法和FP－GROWTH算法［32］。FP－GROWTH算法對原始數(shù)據(jù)庫進行2次掃描，將原始庫映射成一棵頻繁模式樹，并保留關(guān)聯(lián)信息，然后再將頻繁模式樹分化成條件庫，再對條件庫進行挖掘，在內(nèi)存中即可完成頻繁項目集的發(fā)現(xiàn)工作。對醫(yī)院內(nèi)感染數(shù)據(jù)進行關(guān)聯(lián)分析可發(fā)現(xiàn)數(shù)據(jù)屬性間的關(guān)系，為醫(yī)院內(nèi)感染的防治提供參考依據(jù)。BROSSETTE等［33］利用阿拉巴馬大學(xué)伯明翰分校醫(yī)院的銅綠假單胞菌感染控制數(shù)據(jù)探索了一個基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘流程，期望用于醫(yī)院內(nèi)感染事件的自動識別與監(jiān)測，模型實現(xiàn)結(jié)果良好。目前，醫(yī)療數(shù)據(jù)分析主要采用Apriori算法進行關(guān)聯(lián)規(guī)則的數(shù)據(jù)分析，但Apriori算法候選頻繁集較多，生成許多無趣的規(guī)則。有研究采用FP－GROWTH算法對解放軍總醫(yī)院第一附屬醫(yī)院的400例患者進行了關(guān)聯(lián)分析，提取患者性別、年齡、抗生素使用情況等7個屬性建立了13條關(guān)聯(lián)規(guī)則，揭示了年齡、介入性操作、抗生素使用、住院時間等因素與醫(yī)院內(nèi)感染間的關(guān)聯(lián)性［34］。醫(yī)院內(nèi)感染的影響因素多且彼此間及與醫(yī)院內(nèi)感染發(fā)生的聯(lián)系尚未明確，具有灰色特性。劉姣英［35］運用灰色關(guān)聯(lián)分析理論將醫(yī)院內(nèi)感染的數(shù)據(jù)資料進行量化分析，研究各因素間的關(guān)聯(lián)程度及優(yōu)勢程度，結(jié)果顯示，外科是醫(yī)院內(nèi)感染控制的重點科室，外科感染以泌尿系統(tǒng)感染最為突出，下呼吸道感染是醫(yī)院內(nèi)感染監(jiān)控的重要部位，是造成其他部位感染的重要潛在因素。

2小結(jié)與展望

醫(yī)院內(nèi)感染因素復(fù)雜，種類龐多，對不同類型、不同部位的醫(yī)院內(nèi)感染進行預(yù)測，沒有哪一種模型是絕對最優(yōu)的，因此，需進一步進行大量的針對不同類型、途徑、人群等具體屬性的醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究。隨著醫(yī)院內(nèi)感染數(shù)據(jù)挖掘研究的越來越深入，單一模型已無法滿足研究需求，組合模型研究成為新的研究方向。模型的優(yōu)劣取決于現(xiàn)有數(shù)據(jù)的擬合程度及對新數(shù)據(jù)的預(yù)測準(zhǔn)確程度及實用性。模型預(yù)測的結(jié)果可集成到智能平臺中，用于醫(yī)院內(nèi)感染發(fā)生的監(jiān)測及預(yù)警，為醫(yī)療衛(wèi)生決策提供重要參考依據(jù)。

作者：楊文偉蔣良芝李春燕汪可可單位：上海市楊浦區(qū)中心醫(yī)院同濟大學(xué)附屬楊浦醫(yī)院醫(yī)院感染管理科

數(shù)據(jù)挖掘算法及在醫(yī)院內(nèi)感染的應(yīng)用

免责声明

AI写作，高效原创

相關(guān)熱門標(biāo)簽

相關(guān)文章閱讀

相關(guān)期刊推薦

數(shù)據(jù)

大數(shù)據(jù)

中國科學(xué)數(shù)據(jù)

大數(shù)據(jù)時代

數(shù)據(jù)法學(xué)

精選范文推薦