网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

關(guān)聯(lián)分析下的房產(chǎn)檔案信息管理

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了關(guān)聯(lián)分析下的房產(chǎn)檔案信息管理范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

關(guān)聯(lián)分析下的房產(chǎn)檔案信息管理

關(guān)鍵詞:高校房產(chǎn)檔案;關(guān)聯(lián)分析;Apriori算法

高校房產(chǎn)檔案種類(lèi)繁多,時(shí)間跨度長(zhǎng),載體多樣,在立卷和著錄階段忽視了案卷之間隱含的業(yè)務(wù)聯(lián)系,使得數(shù)據(jù)信息呈孤立狀態(tài),難以挖掘出檔案之間潛在的信息,不利于用戶查詢使用。本文將檔案信息關(guān)聯(lián)分析技術(shù)應(yīng)用于高校房產(chǎn)檔案管理,嘗試解決檔案信息孤立分散的問(wèn)題,充分挖掘檔案之間的隱含聯(lián)系,對(duì)檔案進(jìn)行深層次的二次開(kāi)發(fā)利用。

一、關(guān)聯(lián)規(guī)則分析和Apriori算法

關(guān)聯(lián)分析又稱為關(guān)聯(lián)規(guī)則挖掘,是在信息載體中查找存在于項(xiàng)目集合之間的頻繁模式、相關(guān)性或因果結(jié)構(gòu)。Apriori算法是最具影響力的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法之一。該算法的基本思想是利用迭代的方法找出數(shù)據(jù)值中頻繁出現(xiàn)的集合,從這些集合中發(fā)現(xiàn)它們之間的關(guān)聯(lián)規(guī)則。一般而言Apriori算法使用支持度作為判斷頻繁項(xiàng)集的標(biāo)準(zhǔn)。如果將Arpriori算法用到房產(chǎn)檔案管理中,檔案中有教職工購(gòu)買(mǎi)房改房資料、申請(qǐng)貨幣補(bǔ)貼資料、基建資料、權(quán)籍資料等,這些資料都可以看成一個(gè)個(gè)的項(xiàng)目集合,可以用關(guān)聯(lián)分析找出所有集合中頻繁出現(xiàn)的集合,設(shè)定一個(gè)支持度閾值α,出現(xiàn)頻率高于閾值α的集合即是我們要找的頻繁集合。算法用逐層迭代的方法實(shí)現(xiàn)。第一步,根據(jù)算法對(duì)整個(gè)數(shù)據(jù)集進(jìn)行掃描,獲取所有數(shù)據(jù)集,此時(shí)還未計(jì)算頻繁項(xiàng)集。第二步,計(jì)算各數(shù)據(jù)集的支持度,減除支持度低于閾值α的項(xiàng)集,所保留的項(xiàng)集為頻繁k項(xiàng)集。如果得到的k項(xiàng)集為空,則返回頻繁k-1項(xiàng)集的集合作為算法結(jié)果。如果得到的k項(xiàng)集只有一項(xiàng),則直接返回頻繁k項(xiàng)集的集合作為算法結(jié)果。否則,令k項(xiàng)集為k+1項(xiàng)集,返回第二步,如此往復(fù)。最終得到所有頻繁項(xiàng)集,也就是在所歸檔的房產(chǎn)檔案中出現(xiàn)最頻繁的文檔資料。第三步,找出k項(xiàng)頻繁集各項(xiàng)之間的關(guān)聯(lián)。例如,教職工購(gòu)買(mǎi)公有住房審批表的出現(xiàn)極有可能伴隨著購(gòu)房買(mǎi)賣(mài)契約的出現(xiàn),購(gòu)房票據(jù)也應(yīng)該隨之一起出現(xiàn);或者學(xué)校基建項(xiàng)目資料的出現(xiàn)肯定會(huì)伴隨著項(xiàng)目審批資料等等。各頻繁項(xiàng)集彼此之間同時(shí)發(fā)生的概率就是它們的置信度。下面通過(guò)一個(gè)虛擬的例子來(lái)分析Apriori算法在高校房產(chǎn)檔案中應(yīng)用的實(shí)際意義。

二、Apriori算法在房產(chǎn)檔案中的應(yīng)用

高校教職工住房改革與福利分房的資料是高校房產(chǎn)檔案中重要的組成部分,也是最能體現(xiàn)房產(chǎn)檔案復(fù)雜性的一部分,在日常管理工作中具有較高的查詢利用率。利用Apriori算法在模擬的房產(chǎn)檔案數(shù)據(jù)中進(jìn)行關(guān)聯(lián)分析實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集采用50條教職工房改信息,Apriori算法是基于《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》中python代碼,最小支持度閾值設(shè)為0.6,置信度參數(shù)設(shè)置為0.85。測(cè)試數(shù)據(jù)集中事務(wù)ID為數(shù)據(jù)條目,如01條事務(wù)數(shù)據(jù)表示教職工A同時(shí)有購(gòu)房申請(qǐng)表、購(gòu)房審批表、購(gòu)房買(mǎi)賣(mài)契約、購(gòu)房票據(jù)、貨幣補(bǔ)貼審批表和退款票據(jù)這6種資料。而02條事務(wù)數(shù)據(jù)表示教職工B沒(méi)有這些資料,只有貨幣補(bǔ)貼審批表、退房協(xié)議和會(huì)議記錄上討論的關(guān)于住房問(wèn)題的解決方案,以此類(lèi)推。數(shù)據(jù)集如表1所示。運(yùn)行代碼,實(shí)驗(yàn)結(jié)果顯示在測(cè)試數(shù)據(jù)中。當(dāng)支持度閾值α設(shè)置為0.6的情況下,共有10個(gè)頻繁項(xiàng)集。見(jiàn)表2、表3。它意味著如果用戶來(lái)查詢相關(guān)檔案,85%的教職工可以查詢到申領(lǐng)過(guò)的住房貨幣補(bǔ)貼記錄,70%的教職工有學(xué)校分配住房的記錄或者職稱和定級(jí)文件,65%的教職工提交過(guò)購(gòu)房申請(qǐng)表,70%的教職工提交過(guò)貨幣補(bǔ)貼審批表,70%的教職工提交過(guò)購(gòu)房審批表并簽署過(guò)購(gòu)房買(mǎi)賣(mài)契約。退房協(xié)議和會(huì)議記錄上提及到住房解決方案的資料歸檔的數(shù)量不太多,支持度沒(méi)有達(dá)到閾值0.6。將支持度閾值α調(diào)整為0.5查看結(jié)果,發(fā)現(xiàn)頻繁項(xiàng)集增加了許多,從表2所示結(jié)果可知55%的查詢者可以檢索到自己的購(gòu)房票據(jù)。多次調(diào)整支持度閾值可準(zhǔn)確定量地知曉數(shù)據(jù)集中各類(lèi)案卷的分布情況。另外,從表2中可以看出,購(gòu)房申請(qǐng)表和購(gòu)房審批表及購(gòu)房買(mǎi)賣(mài)契約同時(shí)出現(xiàn)的概率為60%,表示提交過(guò)購(gòu)房申請(qǐng)的教職工中60%的人最后都購(gòu)買(mǎi)了公房。購(gòu)房申請(qǐng)表和購(gòu)房買(mǎi)賣(mài)契約同時(shí)出現(xiàn)的概率為70%,說(shuō)明大部分教職工這兩樣材料都齊全。根據(jù)這些結(jié)論,檔案管理人員可以快速知悉數(shù)據(jù)庫(kù)中各類(lèi)資料的數(shù)量比例,做到心中有數(shù),查詢有的放矢。實(shí)驗(yàn)第二部分計(jì)算了各頻繁項(xiàng)集的置信度,置信度定量地估算出所分析得到的關(guān)聯(lián)規(guī)則的準(zhǔn)確度,也即可信度。見(jiàn)表4。由表4所示的實(shí)驗(yàn)結(jié)果可知,上一步得出的購(gòu)房審批表和購(gòu)房買(mǎi)賣(mài)契約的共現(xiàn)概率70%(支持度),其置信度為100%,可信度非常高。購(gòu)房申請(qǐng)表和購(gòu)房審批表共現(xiàn)概率60%的置信度為92.3%。置信度的計(jì)算可以提供使用關(guān)聯(lián)規(guī)則的依據(jù),首先使用置信度高的關(guān)聯(lián)規(guī)則,提高檔案查詢效率。

在實(shí)際房產(chǎn)檔案管理工作中,檔案管理人員可以利用關(guān)聯(lián)分析規(guī)則提高檔案檢索效率和查全率。例如,需要查詢教職工A十幾年前的住房記錄,但是在分房記錄的數(shù)據(jù)里沒(méi)有找到該資料,是否就意味著這份資料遺失或沒(méi)有歸檔呢?依據(jù)規(guī)則,貨幣補(bǔ)貼審批表對(duì)分房記錄的支持度為0.65,意味著檢索到A的貨幣補(bǔ)貼審批表就有65%的概率可以查詢到A的分房記錄材料,這一推測(cè)的置信度為92.9%,可信程度很高,因此可以從貨幣補(bǔ)貼審批表作為突破口做新的嘗試。查詢A的貨幣補(bǔ)貼審批表發(fā)現(xiàn)當(dāng)年所填寫(xiě)的房屋地址與現(xiàn)在所用的地址名稱不一致,是變更前的地址,因?yàn)闀r(shí)間間隔久遠(yuǎn)不少人已經(jīng)不知道原來(lái)的地址名稱。檢索舊地址最后找到A的分房記錄,問(wèn)題迎刃而解??梢?jiàn)關(guān)聯(lián)分析規(guī)則的應(yīng)用能為某些檢索難題提供思路和捷徑。同樣,對(duì)于很多歷史悠久的高校來(lái)說(shuō),不少建筑經(jīng)歷過(guò)更名、改造、擴(kuò)建等變動(dòng),在查閱老舊圖紙或資料時(shí)常常遇到困難,輸入的關(guān)鍵字與當(dāng)時(shí)著錄的關(guān)鍵字不匹配,檢索不到想要的檔案。利用關(guān)聯(lián)分析找到關(guān)聯(lián)緊密的材料,很大程度上可以提高檔案檢索的查全性。最后,檔案檔案管理人員可以依據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)管理中的疏漏。購(gòu)房票據(jù)的支持度明顯小于購(gòu)房審批表和購(gòu)房買(mǎi)賣(mài)契約,說(shuō)明不少購(gòu)房者的購(gòu)房票據(jù)沒(méi)有檢索到,這就需要檔案管理人員查驗(yàn)是否由于票據(jù)遺失,或是著錄過(guò)程中重要信息沒(méi)有提取導(dǎo)致沒(méi)有檢索到,找到問(wèn)題所在,完善檔案管理。綜上所述,關(guān)聯(lián)分析算法的應(yīng)用可以提高高校房產(chǎn)檔案信息化建設(shè)的效益。但是,現(xiàn)階段高校房產(chǎn)檔案管理信息化亟待解決的一個(gè)困難是將多源異構(gòu)的數(shù)據(jù)信息化,以便能從不同的數(shù)據(jù)庫(kù)信息中挖掘潛在信息,提高檔案的利用價(jià)值。

參考文獻(xiàn):

[1](美)PeterHarrington.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].李銳,李鵬,曲亞?wèn)|,王斌,譯.人民郵電出版社,2013.

[2]郭雪薇,董晶.基于特征關(guān)聯(lián)分析的檔案信息關(guān)聯(lián)分析模型[J].電子設(shè)計(jì)工程,2019(27):47-52.

[3]呂元智.數(shù)字檔案資源知識(shí)“關(guān)聯(lián)”組織研究[J].檔案學(xué)研究,2012(6):44-48.

[4]梁麗燕.關(guān)聯(lián)規(guī)則挖掘Apriori算法在數(shù)字檔案系統(tǒng)中的應(yīng)用研究[J].現(xiàn)代計(jì)算機(jī),2011(13):7-10.

[5]許惠瑋.基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究[J].北京檔案,2012(9):29-30.

[6]左娜,張衛(wèi)東,賈瓊.基于關(guān)聯(lián)數(shù)據(jù)的檔案文化資源整合研究[J].蘭臺(tái)世界,2018(2):21-25.

[7]陳源.數(shù)據(jù)挖掘在高校檔案管理中的應(yīng)用研究[J].辦公室業(yè)務(wù),2012(22):144-145.

作者:曹晨 單位:蘇州大學(xué)檔案館

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表