公務員期刊網 論文中心 正文

關聯(lián)分析下的房產檔案信息管理

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了關聯(lián)分析下的房產檔案信息管理范文,希望能給你帶來靈感和參考,敬請閱讀。

關聯(lián)分析下的房產檔案信息管理

關鍵詞:高校房產檔案;關聯(lián)分析;Apriori算法

高校房產檔案種類繁多,時間跨度長,載體多樣,在立卷和著錄階段忽視了案卷之間隱含的業(yè)務聯(lián)系,使得數(shù)據信息呈孤立狀態(tài),難以挖掘出檔案之間潛在的信息,不利于用戶查詢使用。本文將檔案信息關聯(lián)分析技術應用于高校房產檔案管理,嘗試解決檔案信息孤立分散的問題,充分挖掘檔案之間的隱含聯(lián)系,對檔案進行深層次的二次開發(fā)利用。

一、關聯(lián)規(guī)則分析和Apriori算法

關聯(lián)分析又稱為關聯(lián)規(guī)則挖掘,是在信息載體中查找存在于項目集合之間的頻繁模式、相關性或因果結構。Apriori算法是最具影響力的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法之一。該算法的基本思想是利用迭代的方法找出數(shù)據值中頻繁出現(xiàn)的集合,從這些集合中發(fā)現(xiàn)它們之間的關聯(lián)規(guī)則。一般而言Apriori算法使用支持度作為判斷頻繁項集的標準。如果將Arpriori算法用到房產檔案管理中,檔案中有教職工購買房改房資料、申請貨幣補貼資料、基建資料、權籍資料等,這些資料都可以看成一個個的項目集合,可以用關聯(lián)分析找出所有集合中頻繁出現(xiàn)的集合,設定一個支持度閾值α,出現(xiàn)頻率高于閾值α的集合即是我們要找的頻繁集合。算法用逐層迭代的方法實現(xiàn)。第一步,根據算法對整個數(shù)據集進行掃描,獲取所有數(shù)據集,此時還未計算頻繁項集。第二步,計算各數(shù)據集的支持度,減除支持度低于閾值α的項集,所保留的項集為頻繁k項集。如果得到的k項集為空,則返回頻繁k-1項集的集合作為算法結果。如果得到的k項集只有一項,則直接返回頻繁k項集的集合作為算法結果。否則,令k項集為k+1項集,返回第二步,如此往復。最終得到所有頻繁項集,也就是在所歸檔的房產檔案中出現(xiàn)最頻繁的文檔資料。第三步,找出k項頻繁集各項之間的關聯(lián)。例如,教職工購買公有住房審批表的出現(xiàn)極有可能伴隨著購房買賣契約的出現(xiàn),購房票據也應該隨之一起出現(xiàn);或者學?;椖抠Y料的出現(xiàn)肯定會伴隨著項目審批資料等等。各頻繁項集彼此之間同時發(fā)生的概率就是它們的置信度。下面通過一個虛擬的例子來分析Apriori算法在高校房產檔案中應用的實際意義。

二、Apriori算法在房產檔案中的應用

高校教職工住房改革與福利分房的資料是高校房產檔案中重要的組成部分,也是最能體現(xiàn)房產檔案復雜性的一部分,在日常管理工作中具有較高的查詢利用率。利用Apriori算法在模擬的房產檔案數(shù)據中進行關聯(lián)分析實驗。實驗數(shù)據集采用50條教職工房改信息,Apriori算法是基于《機器學習實戰(zhàn)》中python代碼,最小支持度閾值設為0.6,置信度參數(shù)設置為0.85。測試數(shù)據集中事務ID為數(shù)據條目,如01條事務數(shù)據表示教職工A同時有購房申請表、購房審批表、購房買賣契約、購房票據、貨幣補貼審批表和退款票據這6種資料。而02條事務數(shù)據表示教職工B沒有這些資料,只有貨幣補貼審批表、退房協(xié)議和會議記錄上討論的關于住房問題的解決方案,以此類推。數(shù)據集如表1所示。運行代碼,實驗結果顯示在測試數(shù)據中。當支持度閾值α設置為0.6的情況下,共有10個頻繁項集。見表2、表3。它意味著如果用戶來查詢相關檔案,85%的教職工可以查詢到申領過的住房貨幣補貼記錄,70%的教職工有學校分配住房的記錄或者職稱和定級文件,65%的教職工提交過購房申請表,70%的教職工提交過貨幣補貼審批表,70%的教職工提交過購房審批表并簽署過購房買賣契約。退房協(xié)議和會議記錄上提及到住房解決方案的資料歸檔的數(shù)量不太多,支持度沒有達到閾值0.6。將支持度閾值α調整為0.5查看結果,發(fā)現(xiàn)頻繁項集增加了許多,從表2所示結果可知55%的查詢者可以檢索到自己的購房票據。多次調整支持度閾值可準確定量地知曉數(shù)據集中各類案卷的分布情況。另外,從表2中可以看出,購房申請表和購房審批表及購房買賣契約同時出現(xiàn)的概率為60%,表示提交過購房申請的教職工中60%的人最后都購買了公房。購房申請表和購房買賣契約同時出現(xiàn)的概率為70%,說明大部分教職工這兩樣材料都齊全。根據這些結論,檔案管理人員可以快速知悉數(shù)據庫中各類資料的數(shù)量比例,做到心中有數(shù),查詢有的放矢。實驗第二部分計算了各頻繁項集的置信度,置信度定量地估算出所分析得到的關聯(lián)規(guī)則的準確度,也即可信度。見表4。由表4所示的實驗結果可知,上一步得出的購房審批表和購房買賣契約的共現(xiàn)概率70%(支持度),其置信度為100%,可信度非常高。購房申請表和購房審批表共現(xiàn)概率60%的置信度為92.3%。置信度的計算可以提供使用關聯(lián)規(guī)則的依據,首先使用置信度高的關聯(lián)規(guī)則,提高檔案查詢效率。

在實際房產檔案管理工作中,檔案管理人員可以利用關聯(lián)分析規(guī)則提高檔案檢索效率和查全率。例如,需要查詢教職工A十幾年前的住房記錄,但是在分房記錄的數(shù)據里沒有找到該資料,是否就意味著這份資料遺失或沒有歸檔呢?依據規(guī)則,貨幣補貼審批表對分房記錄的支持度為0.65,意味著檢索到A的貨幣補貼審批表就有65%的概率可以查詢到A的分房記錄材料,這一推測的置信度為92.9%,可信程度很高,因此可以從貨幣補貼審批表作為突破口做新的嘗試。查詢A的貨幣補貼審批表發(fā)現(xiàn)當年所填寫的房屋地址與現(xiàn)在所用的地址名稱不一致,是變更前的地址,因為時間間隔久遠不少人已經不知道原來的地址名稱。檢索舊地址最后找到A的分房記錄,問題迎刃而解??梢婈P聯(lián)分析規(guī)則的應用能為某些檢索難題提供思路和捷徑。同樣,對于很多歷史悠久的高校來說,不少建筑經歷過更名、改造、擴建等變動,在查閱老舊圖紙或資料時常常遇到困難,輸入的關鍵字與當時著錄的關鍵字不匹配,檢索不到想要的檔案。利用關聯(lián)分析找到關聯(lián)緊密的材料,很大程度上可以提高檔案檢索的查全性。最后,檔案檔案管理人員可以依據實驗結果發(fā)現(xiàn)管理中的疏漏。購房票據的支持度明顯小于購房審批表和購房買賣契約,說明不少購房者的購房票據沒有檢索到,這就需要檔案管理人員查驗是否由于票據遺失,或是著錄過程中重要信息沒有提取導致沒有檢索到,找到問題所在,完善檔案管理。綜上所述,關聯(lián)分析算法的應用可以提高高校房產檔案信息化建設的效益。但是,現(xiàn)階段高校房產檔案管理信息化亟待解決的一個困難是將多源異構的數(shù)據信息化,以便能從不同的數(shù)據庫信息中挖掘潛在信息,提高檔案的利用價值。

參考文獻:

[1](美)PeterHarrington.機器學習實戰(zhàn)[M].李銳,李鵬,曲亞東,王斌,譯.人民郵電出版社,2013.

[2]郭雪薇,董晶.基于特征關聯(lián)分析的檔案信息關聯(lián)分析模型[J].電子設計工程,2019(27):47-52.

[3]呂元智.數(shù)字檔案資源知識“關聯(lián)”組織研究[J].檔案學研究,2012(6):44-48.

[4]梁麗燕.關聯(lián)規(guī)則挖掘Apriori算法在數(shù)字檔案系統(tǒng)中的應用研究[J].現(xiàn)代計算機,2011(13):7-10.

[5]許惠瑋.基于數(shù)據挖掘的數(shù)字檔案信息管理研究[J].北京檔案,2012(9):29-30.

[6]左娜,張衛(wèi)東,賈瓊.基于關聯(lián)數(shù)據的檔案文化資源整合研究[J].蘭臺世界,2018(2):21-25.

[7]陳源.數(shù)據挖掘在高校檔案管理中的應用研究[J].辦公室業(yè)務,2012(22):144-145.

作者:曹晨 單位:蘇州大學檔案館