公務員期刊網 論文中心 正文

人工智能下的電子病歷數據質量控制

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了人工智能下的電子病歷數據質量控制范文,希望能給你帶來靈感和參考,敬請閱讀。

人工智能下的電子病歷數據質量控制

[摘要]目的探索科學、有效的電子病歷數據質控方法,提高數據質量。方法針對國內對電子病歷數據質量控制的定量研究較薄弱的現(xiàn)狀,聯(lián)合利用人工智能技術及統(tǒng)計學方法,對結構化及非結構化診療數據分別建立相應的質控方法與技術。結果通過多維數據質量定量評估、醫(yī)療文本數據后結構化,結合自然語言處理技術、規(guī)范化模型進行數據清理,并結合病歷內涵質控系統(tǒng)的應用,可有效提高電子病歷數據質量。結論完善的數據質控方法與技術,不僅能使數據問題早評估、早發(fā)現(xiàn),也能為醫(yī)療健康大數據的后續(xù)分析利用提供支撐。

[關鍵詞]人工智能;統(tǒng)計學方法;醫(yī)療數據;質控;數據清洗

隨著我國醫(yī)院信息化建設的不斷發(fā)展和完善,醫(yī)療衛(wèi)生數據進入大數據時代。電子病歷作為醫(yī)療信息的主要載體,在醫(yī)療數據中占據著重要地位。其記錄患者從入院到出院的疾病發(fā)生、發(fā)展和轉歸的全過程,為醫(yī)療管理及臨床研究等提供豐富的信息[1]。2018年,國家衛(wèi)健委《關于進一步推進以電子病歷為核心的醫(yī)療機構信息化建設工作的通知》[2],指出要充分發(fā)揮電子病歷信息化作用,促進醫(yī)療管理水平提高和智慧醫(yī)院發(fā)展,對電子病歷數據質量提出更高的要求。而實際工作中,電子病歷數據卻因各種原因存在著錯誤、無效、不完整、不一致、異構等問題[3],相應的質量定量評估及治理措施又相對匱乏,嚴重影響其在醫(yī)療管理和臨床科研中的二次利用和有效挖掘。本研究聯(lián)合人工智能技術(ArtificialIntelligence,AI)和統(tǒng)計學方法(statisticalmethods),針對電子病歷中兩種主要的數據類型,即結構化數據和非結構化數據,分別探索不同的質控方法和技術,以期為建立符合循證決策或科學研究要求的高質量數據庫提供參考。

1結構化電子病歷數據質控方法

結構化數據往往在采集時設置一定的質控條件,如病案首頁數據、檢查檢驗數據等,質量相對較好,可以采用評估數據質量、查找定位問題數據來進行數據清洗的思路,從而獲得可用數據。

1.1多維數據質量評估方法

針對結構化數據,筆者已在前期研究中從數據的完整性、規(guī)范性、邏輯性及準確性等方面,構建多維數據質量評價指標體系[4]。其中,完整性是指關鍵指標的數據是否填全,評估內容包括個人信息核心字段缺失情況、首次病程記錄重要字段采集情況等。如果某項必填指標,如性別,未填寫則被認為缺失,數據不完整。規(guī)范性是指數據是否按規(guī)定的賦值字典填寫,如病案首頁的賦值字典中規(guī)定“入院時情況”為“1.危、2.急、3.一般”,但實際填寫中出現(xiàn)除了1~3以外的阿拉伯數字,或者其他文字、字符,則為填寫不規(guī)范。邏輯性是指關聯(lián)數據間的邏輯關系是否正確,包括邏輯缺失與邏輯錯誤等,如主訴與現(xiàn)病史中對同一癥狀的時間描述不一致。準確性是指數據是否真實可靠,需溯源核查,但可通過指標的極端值輔助判斷,例如人口學指標、生活習慣描述等應在合理取值范圍,根據不同指標的實際意義進行判斷,如身高過高或過低、妊娠年齡過小、日吸煙支數、日飲酒量過高等均被作為疑似值識別出來,進行后續(xù)核查、清洗。

1.2數據清洗

根據質量評估結果,定位問題數據后,可針對不同的數據問題制定不同的清洗策略,以控制數據質量。如數據缺失、異?;蜻壿嬅艿?,可采用自然語言處理(NaturalLanguageProcessing,NLP)技術,對電子病歷中的醫(yī)療文本數據進行語義分析及提取,從中獲取缺失數據可能的填補值,核對變量的邏輯性與準確性,并對關鍵變量進行標準化處理,如入院時情況、輸血標志等信息;對無法填補與校正的數據,予以標記。如果是多次記錄的檢查檢驗縱向數據中某次記錄值缺失,也可以根據缺失機制和比例,采用統(tǒng)計學方法進行填補[5],如多重填補法(MultipleImputation,MI)。

1.3應用案例

針對結構化數據的多維數據質量評價方法已用于某三甲醫(yī)院23萬余名出院患者的病案首頁結構化數據質量評估,發(fā)現(xiàn)該院病案首頁數據的完整性與邏輯性較好,完整率與邏輯吻合率均在99%以上;規(guī)范性有待提高,符合規(guī)范率在86%左右。且通過自動化程序,可準確識別與定位問題數據,為數據清洗奠定基礎。通過這一前期應用,反映出多維數據質量評估方法可以快速、高效地發(fā)現(xiàn)病案首頁數據的質量問題,便于數據質量的定量監(jiān)測[4]。

2非結構化電子病歷數據質控方法

電子病歷中超過80%的數據都是非結構化數據,給數據的處理、利用帶來一定障礙。因此,針對這部分數據,須先通過自然語言處理技術進行后結構化處理,在此基礎上再進行數據清洗,控制數據質量。

2.1利用多層級自然語言處理技術進行文本數據后結構化

自然語言處理是實現(xiàn)電子病歷文本數據后結構化的最佳途徑。通過將文本信息進行分詞、整合、提取、標準化等,將其轉化成計算機可理解、分析的信息,實現(xiàn)數據的機器可讀性。為得到更加準確、豐富的后結構化數據結果,采用一種多層級自然語言處理技術,即根據不同的文書類型(主訴、現(xiàn)病史等)分別建立符合其內容特點及上下文語義關聯(lián)的數據抽取模型,避免數據遺漏和信息抽取錯誤。通過對原始數據的解析,識別出文本中實體、屬性和關系等信息,最終轉換成極細顆粒度的后結構化數據[6]。

2.2數據清洗

針對醫(yī)學術語與臨床癥狀表述的多樣性,以及不同信息系統(tǒng)中疾病、指標、治療等術語表達不一致的問題[6],通過分類回歸樹(ClassificationRe-gressionTree,CRT)、支持向量機(SupportVectorMa-chine,SVM)等分類算法,以ICD-10、ICD-9-CM3等行業(yè)標準及權威教材用詞為基礎,通過標準化的數據清洗流程將日常診療過程中的醫(yī)學自然語言進行規(guī)范化及標準化,完成多樣化數據向標準化、規(guī)范化數據的轉換,以便對醫(yī)學用語的規(guī)范性進行評價,并對關鍵信息進行匹配、對比、分析。

2.3數據質控系統(tǒng)構建

上述步驟在流程上都屬于對已采集數據的事后處理,為了在采集源頭進行質量控制,建立內涵質控體系,通過病歷生成過程中對其內容的自動核查與控制,實現(xiàn)在數據采集源頭對質量進行把控的目標。主要功能包括醫(yī)療文本結構化、病案質量評價、病案質量分析。

2.3.1醫(yī)療文本結構化對電子病歷文本數據進行結構化提取,包括有效信息之間的關聯(lián)等。首先,根據病歷書寫基本規(guī)范和專業(yè)醫(yī)學知識,對病歷各節(jié)點內容進行建模,如“入院記錄-主訴”,模型框架為癥狀、體征、疾病、檢查、手術等。根據建好的模型,結合自然語言分詞和語義分析技術,完成對病歷文本的后結構化處理[7]。

2.3.2病案質量評價針對每份住院病案進行質量評價,詳細報告缺陷內容,幫助醫(yī)務人員快速定位病案書寫錯誤并修正,從而保證病案質控的可追溯性及精細化管理。系統(tǒng)在對病歷文本內容進行后結構化的基礎上,根據國家統(tǒng)一標準規(guī)范對質控問題進行分類,如病歷是否完整、前后數據是否一致、是否依據患者診治過程書寫等,形成智能質控規(guī)則庫,并通過在醫(yī)生端、環(huán)節(jié)質控及終末質控環(huán)節(jié),設置對病歷文書的自動監(jiān)控、提醒和實時反饋功能,實現(xiàn)對病歷質量的有效監(jiān)控。

2.3.3病案質量分析針對科室及全院的病案質量問題,通過橫向、縱向對比分析,以及可視化的統(tǒng)計圖加以展現(xiàn),為病歷質量管理部門提供及時正確的決策依據,輔助其準確定位問題、制定改進措施,提高對病歷質量管理的水平及效力。

2.4應用案例

非結構化電子病歷數據質控方法目前正在某三甲醫(yī)院進行測試評價,內容包含入院記錄、出院記錄、病程記錄、手術記錄、護理記錄等。質控前,該院病歷能夠按照時限、頻次、完整度的規(guī)范要求書寫,但存在病歷無內涵、書寫自由、病歷反映患者病情變化、診療過程等核心價值有待提高等問題。而通過前置在病歷書寫界面的自動化質控程序,能夠準確識別雷同病歷、內容前后不符、時間不符合邏輯順序等問題。借助醫(yī)學知識圖譜,根據病歷所記錄的患者體征、癥狀、檢查、檢驗等文本信息,還可以進一步發(fā)現(xiàn)記錄的體征與診斷有沖突,疾病無對應的檢查結果,疾病對應的診療方案未記錄等問題。測試結果顯示,質控技術的應用可以有效改進常見的病歷質量問題,提升病歷內涵質量;后續(xù)將通過更為豐富的質控規(guī)則設置,擴大病歷內涵質量控制的范圍。

3展望

目前,國家正在大力推進醫(yī)療大數據的發(fā)展與應用,很多醫(yī)院已將醫(yī)療大數據治理及其效果評價作為醫(yī)院建設與發(fā)展的主要工作之一[8-9]。電子病歷數據作為醫(yī)療大數據的重要組成部分,其建設質量不僅影響到醫(yī)療大數據治理的整體效果,還可能影響到醫(yī)療質量管理、開展真實世界醫(yī)學研究的可行性與科學性。缺乏高質量的醫(yī)療數據,再先進的人工智能和數據挖掘算法也會無的放矢。本文提出可用于電子病歷質控的人工智能和統(tǒng)計學聯(lián)合方法與技術,有助于提高電子病歷數據質量控制的效率和水平,對于其他醫(yī)療信息數據的質控也具有一定參考價值。在“以數為證、循數決策”的數據文明時代,各級醫(yī)療機構和醫(yī)療管理部門都應建立起有效的數據質控體系,開展醫(yī)療數據質量評估與治理,方能促進醫(yī)療大數據發(fā)揮其應有的價值。

【參考文獻】

[1]國家衛(wèi)生健康委員會.關于進一步推進以電子病歷為核心的醫(yī)療機構信息化建設工作的通知[EB/OL].

[3]李萍.醫(yī)療數據質量的問題探索和解決模式[J].計算機應用與軟件,2013(8):217-219.

[4]吳騁,秦嬰逸,肖翔,等.病案首頁數據質量的量化評估方法研究及應用[J].中國病案,2016,17(3):10-13.

[5]孫振球,徐勇勇.醫(yī)學統(tǒng)計學(第4版)[M].北京:人民衛(wèi)生出版社,2015:610-612.

[6]杜小勇,陳躍國,范舉,等.數據整理:大數據治理的關鍵技術[J].大數據,2019,5(3):13-22.

[7]林琳,王韜,鄧超穎.智能化病歷內涵質控平臺設計及應用[J].中國數字醫(yī)學,2019,14(11):48-50,112.

[8]傅昊陽,徐飛龍,范美玉.論醫(yī)院健康醫(yī)療大數據治理及體系構建[J].中國中醫(yī)藥圖書情報雜志,2019,43(3):1-5.

[9]謝剛,李月云,孫玉軍.多科性醫(yī)院大數據治理能力評價指標體系研究[J].衛(wèi)生經濟研究,2020,37(2):56-58.

作者:吳騁 王志勇 徐蕾 周全 單位:海軍軍醫(yī)大學衛(wèi)生勤務學系