前言:想要寫出一篇引人入勝的文章?我們特意為您整理了信息知識組織智能檢索系統(tǒng)設(shè)計(jì)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:【目的/意義】采用當(dāng)前方法檢索信息知識時(shí),存在檢索效率低和查全率低的問題。為用戶提供全面的檢索,需設(shè)計(jì)效率更好的知識檢索系統(tǒng)?!痉椒?過程】提出了基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法,利用Agent實(shí)現(xiàn)人機(jī)交互層、信息處理層和信息收集層在檢索系統(tǒng)中的交互,分析了存儲(chǔ)管理模塊、用戶接口模塊、搜索引擎和索引模塊、通信管理模塊、特征提取模塊的主要功能,通過自適應(yīng)路由機(jī)制、查詢機(jī)制和自配置機(jī)制實(shí)現(xiàn)信息知識的檢索,完成信息知識組織智能檢索系統(tǒng)的設(shè)計(jì)?!窘Y(jié)果/結(jié)論】實(shí)驗(yàn)結(jié)果表明,本文方法具有信息知識檢索效率高和查全率高的優(yōu)點(diǎn)。
關(guān)鍵詞:元數(shù)據(jù);信息知識;信息檢索;系統(tǒng)設(shè)計(jì)
1信息知識組織智能檢索系統(tǒng)
1..1總體設(shè)計(jì)思想
依據(jù)元數(shù)據(jù)的設(shè)計(jì)思想,為形態(tài)不同的資源集合和數(shù)字化信息單元做規(guī)范的保存、描述、保護(hù)、確認(rèn)、管理、檢索和選擇適當(dāng)?shù)脑獢?shù)據(jù)標(biāo)準(zhǔn)構(gòu)建數(shù)據(jù)庫,通過對數(shù)據(jù)庫的控制,達(dá)到數(shù)據(jù)庫系統(tǒng)互通的目的,實(shí)現(xiàn)信息知識組織智能檢索系統(tǒng)的設(shè)計(jì)。依據(jù)設(shè)計(jì)思想將檢索系統(tǒng)框架分為人機(jī)交互層、信息處理層和信息收集層,分析系統(tǒng)層次的交互過程,并闡述存儲(chǔ)管理模塊、用戶接口模塊、搜索引擎和索引模塊、通信管理模塊和特征提取模塊的主要功能。
11.2檢索系統(tǒng)設(shè)計(jì)
(1)人機(jī)交互層:該層是信息知識組織智能檢索系統(tǒng)中用戶可見的部分。信息知識組織檢索系統(tǒng)和用戶之間的唯一連接是人機(jī)交互層,用戶通過該層接收檢索系統(tǒng)的服務(wù),檢索系統(tǒng)通過人機(jī)交互層傳送請求。交互Agent的主要功能是與用戶交互,在系統(tǒng)中為用戶提供交互界面,幫助用戶收集信息,通過檢索系統(tǒng)中存在的內(nèi)部模型生成查詢?nèi)蝿?wù),獲取查詢結(jié)果。將人機(jī)交互層作為獨(dú)立的一層,可以根據(jù)用戶各自的愛好設(shè)計(jì)檢索系統(tǒng)中的查詢界面。該層主要由用戶接口模塊、通信管理模塊構(gòu)成,其主要功能分別為:①用戶接口模塊。通過模糊描述和示例查詢等形式為用戶提供查詢信息知識的接口。用戶接口可以讓用戶向數(shù)據(jù)庫中提交查詢結(jié)果、輸入查詢以及插入信息。信息知識查詢有時(shí)是模糊的、有時(shí)也是多樣的,用戶可以通過不同類型的信息和多種方式查詢,存在多樣性;但用戶有時(shí)無法準(zhǔn)確地描述需要檢索的信息,因此存在模糊性。為滿足上述要求,需要提供查詢、瀏覽和搜索優(yōu)化的工具【8】。②通信管理模塊。由客戶端和服務(wù)器端構(gòu)成,包括QoS服務(wù)和傳輸協(xié)議服務(wù)。(2)信息處理層:檢索系統(tǒng)的主體部分是信息處理層,各任務(wù)Agent在信息處理層中都是協(xié)同工作的。通過信息處理層將信息傳送給Agent執(zhí)行信息查詢?nèi)蝿?wù)。在信息處理層中存在的Agent具有問題求解、信息分類的知識,還具有信息收集層中Agent具有的知識。信息處理層的主要任務(wù)如下:①接收上一層中發(fā)送的請求任務(wù)。②分析接收的請求任務(wù)并對其包裝,傳送到信息收集層中。③過濾處理返回的信息,并抽取返回信息中存在的重要信息,在半結(jié)構(gòu)化數(shù)據(jù)庫中存入重要的相關(guān)信息。該層主要由特征提取模塊構(gòu)成,其主要功能可對全局或者是目標(biāo)對象進(jìn)行特征提取。(3)信息收集層:信息知識組織智能檢索系統(tǒng)的基礎(chǔ)是信息收集層。通過用戶收集層可以連接網(wǎng)絡(luò)服務(wù)器,收集信息空間中存在的信息資源。在信息收集層中存在信息資源,可以選擇需要的信息資源,實(shí)現(xiàn)信息資源的收集。信息收集層的主要功能是連接網(wǎng)絡(luò)中的服務(wù)器,負(fù)責(zé)與網(wǎng)絡(luò)中的服務(wù)器和搜索引擎之間的交互,采集相關(guān)信息。該層主要由索引引擎和檢索模塊、存儲(chǔ)管理模塊共同構(gòu)成,其主要功能分別為:①索引引擎和檢索模塊。檢索是通過特征之間存在的距離函數(shù)實(shí)現(xiàn)相似性匹配。類型不同的數(shù)據(jù)對應(yīng)的相似性測度選法也不同,在檢索引擎中存在相似性測度函數(shù)集。通過索引機(jī)制檢索引擎可以實(shí)現(xiàn)信息檢索的目標(biāo)。②存儲(chǔ)管理模塊。包括數(shù)據(jù)存儲(chǔ)和壓縮。由媒體庫、特征庫和知識庫構(gòu)成。在媒體庫中存在類型不同的多種媒體,特征庫中存在提取的信息特征和用戶輸入檢索系統(tǒng)的注釋內(nèi)容,在知識庫中存在各個(gè)領(lǐng)域中的知識以及通用知識。
11.3檢索系統(tǒng)過程
(1)數(shù)據(jù)輸入過程:用戶可以利用用戶接口定義、標(biāo)記、說明新輸入的信息知識。利用特征提取器提取信息知識的特征和內(nèi)容。根據(jù)系統(tǒng)的相關(guān)程序?qū)⒉杉男畔⒑蛯?yīng)的特征傳送到服務(wù)器中。(2)信息獲取過程:用戶可以通過用戶接口定義查詢,通過查詢系統(tǒng)數(shù)據(jù)庫中存在的內(nèi)容,將獲取的信息當(dāng)作查詢條件。利用特征提取器在數(shù)據(jù)庫中提取查詢信息的特征。通過通信程序?qū)⑻崛〉玫降奶卣鱾魉偷椒?wù)器中,在數(shù)據(jù)庫中利用搜索引擎或索引特征獲取相似度最高的信息。
2實(shí)現(xiàn)技術(shù)
22.1自配置機(jī)制
通過語義類別在本地文件中定義節(jié)點(diǎn)的興趣偏好,利用文本分類法確定語義類別,通過向量模型表示出來,節(jié)點(diǎn)之間的興趣相似度越高,成為重要節(jié)點(diǎn)的優(yōu)先權(quán)越高。設(shè)S(Pi,Pj)代表的是節(jié)點(diǎn)Pi和節(jié)點(diǎn)Pj之間的優(yōu)先權(quán),其計(jì)算公式如下:S(Pi,Pj)=C(Pi)⋅C(Pj)|C(Pi)|×|C(Pj)|=∑s=1tws,i×ws,j∑s=1tw2s,i×∑s=1tw2s,j(1)式中:S(Pi,Pj)用來描述節(jié)點(diǎn)Pi和節(jié)點(diǎn)Pj之間的興趣相似度;C(Pi)、C(Pj)分別代表的是兩個(gè)節(jié)點(diǎn)對應(yīng)的興趣特征向量;C(Pi)|、|C(Pj)|分別代表的是興趣特征向量對應(yīng)的模;ws,i、ws,j分別代表第s個(gè)特征詞在節(jié)點(diǎn)Pi和節(jié)點(diǎn)Pj中的權(quán)值。確定重要節(jié)點(diǎn)優(yōu)先權(quán)過程中較為重要的因素之一是行為相似性。如果兩個(gè)節(jié)點(diǎn)沒有同時(shí)在線,但之間存在相似的興趣偏好,則兩個(gè)節(jié)點(diǎn)之間在網(wǎng)絡(luò)中成為鄰居節(jié)點(diǎn)不存在任何意義。設(shè)Si(Pi,Pj)代表的是兩個(gè)節(jié)點(diǎn)之間的行為相似性,其表達(dá)式如下:Si(Pi,Pj)=Con(Pi)⋂Con(Pj)24N×3600(2)式中:Si(Pi,Pj)用來描述兩個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中的行為相似度;Con(Pi)⋂Con(Pj)代表的是兩個(gè)節(jié)點(diǎn)在N天中同時(shí)在線的總時(shí)長。在行為相似性和興趣的基礎(chǔ)上實(shí)現(xiàn)信息知識組織智能檢索系統(tǒng)的動(dòng)態(tài)自配置機(jī)制,結(jié)合網(wǎng)絡(luò)因子、時(shí)間因素和節(jié)點(diǎn)之間在網(wǎng)絡(luò)中交互的歷史信息數(shù)據(jù)。設(shè)AP(Pi,Pj)代表的是節(jié)點(diǎn)Pj在動(dòng)態(tài)自配置過程中成為節(jié)點(diǎn)Pi的重要節(jié)點(diǎn)對應(yīng)的優(yōu)先權(quán),其計(jì)算公式如下:P(Pi,Pj)=ω∗[α∗∑tHit(Pj)Hop(Pj)+β∗∑t-1Hit(Pj)Hop(Pj)](3)式中:∑tHit(Pj)Hop(Pj)代表的是在節(jié)點(diǎn)Pi提供的答案在當(dāng)前配置周期中與邏輯距離之間商的和;∑t-1Hit(Pj)Hop(Pj)代表的是節(jié)點(diǎn)Pi提供的答案在上一個(gè)配置周期中與邏輯距離之間商的和;α、β代表的是遞進(jìn)系數(shù);ω代表的是網(wǎng)絡(luò)因子。在行為相似性和興趣相似性的基礎(chǔ)上檢索系統(tǒng)中存在的節(jié)點(diǎn)會(huì)構(gòu)成不同的簇,在相同簇內(nèi),兩個(gè)節(jié)點(diǎn)的行為和偏好越相似,則兩個(gè)節(jié)點(diǎn)之間的邏輯距離越小【9】。
22..2查詢機(jī)制
為了實(shí)現(xiàn)信息知識的共享和檢索,用向量空間表示每個(gè)節(jié)點(diǎn)在檢索系統(tǒng)中維護(hù)用戶提交的查詢和文件。節(jié)點(diǎn)維護(hù)用戶提交的查詢和文件的索引項(xiàng)在向量空間模型中用權(quán)重表示,上述權(quán)重可以用來確定查詢和文件的相似度,可以通過權(quán)重計(jì)算文件在檢索過程中的排序。設(shè)權(quán)重ωij代表的是在文件dj中索引項(xiàng)ki(ki,q)的重要程度(ki,dj);權(quán)重ωiq代表的是在用戶提交查詢q中索引項(xiàng)ki的重要程度。設(shè)dj代表文件dj的向量,其表達(dá)式如下:dj=(w1f,w2f,⋯,wtf)(4)式中:t代表的是索引項(xiàng)在文件中的總數(shù)。設(shè)q代表的是用戶提交查詢對應(yīng)的向量,其表達(dá)式如下:q=(w1q,w2q,⋯,wtq)(5)設(shè)sim(dj,q)代表的是節(jié)點(diǎn)維護(hù)文件dj和查詢q之間的相似度,其計(jì)算公式如下:sim(dj,q)=dj⋅q|dj|×|q|=∑i=1twij×wiq∑i=1tw2ij×∑i=1tw2iq(6)式中:||q、||||dj分別代表文件和查詢向量對應(yīng)的模。首先采用本地節(jié)點(diǎn)Pi解析用戶提交的查詢,并以并行方式處理:如果本地有存在答案的可能,則對本地?cái)?shù)據(jù)庫進(jìn)行搜索,并將查詢傳送到重要節(jié)點(diǎn)中,在重要節(jié)點(diǎn)中進(jìn)行上述處理【10】。
22.3自適應(yīng)路由機(jī)制
當(dāng)前大部分信息知識組織檢索系統(tǒng)存在查全率低的問題,為了解決上述問題,基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法基于系統(tǒng)的拓?fù)涮匦裕褂米赃m應(yīng)的查詢路由策略,將節(jié)點(diǎn)在網(wǎng)絡(luò)中的興趣偏好作為依據(jù),將查詢傳送到目標(biāo)節(jié)點(diǎn)簇中,具體步驟如下:(1)查詢-提交,利用本地節(jié)點(diǎn)對查詢作解析處理,然后通過重要節(jié)點(diǎn)和本地節(jié)點(diǎn)之間的興趣統(tǒng)計(jì)信息判斷節(jié)點(diǎn)是否落在目標(biāo)節(jié)點(diǎn)簇中,再根據(jù)判斷結(jié)果進(jìn)行下一步處理。(2)如果目標(biāo)節(jié)點(diǎn)簇中不存在該查詢,則根據(jù)鄰居節(jié)點(diǎn)在網(wǎng)絡(luò)中的偏好完成信息的統(tǒng)計(jì),并向目標(biāo)節(jié)點(diǎn)簇中轉(zhuǎn)發(fā)查詢,接收到查詢信息的鄰居節(jié)點(diǎn)進(jìn)行相同決策,直到目標(biāo)節(jié)點(diǎn)中存在查詢?yōu)橹?。?)當(dāng)目標(biāo)節(jié)點(diǎn)簇中存在查詢,且不能在第一時(shí)間內(nèi)獲取合格答案時(shí),將路由歷史記錄作為依據(jù),當(dāng)前節(jié)點(diǎn)可以將查詢傳送到最有可能存在合格答案的節(jié)點(diǎn)中;如果查詢經(jīng)過上述節(jié)點(diǎn),且處理節(jié)點(diǎn)中不存在符合要求的答案,查詢終止。
3實(shí)驗(yàn)結(jié)果與分析
Ma=AbM×100%(7)式中:Ma代表查全率,Ab代表檢索出的相關(guān)信息量,M代表檢索出的信息總量。利用Mulan平臺(tái),設(shè)置定向檢索內(nèi)容,并設(shè)定檢索系統(tǒng)每隔0.2s自動(dòng)進(jìn)行一次檢索,共進(jìn)行6次迭代。分別記錄應(yīng)用本文方法、文獻(xiàn)【5】方法和文獻(xiàn)【6】方法系統(tǒng)的所需檢索時(shí)間及數(shù)據(jù)查全率。通過上述步驟驗(yàn)證基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法、文獻(xiàn)【5】方法和文獻(xiàn)【6】方法的有效性。采用基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法檢索信息時(shí)所用的時(shí)間均少于文獻(xiàn)【5】方法和文獻(xiàn)【6】方法檢索信息所用的時(shí)間,主要因?yàn)槭撬岱椒ㄍㄟ^查詢統(tǒng)計(jì)數(shù)據(jù)、信息行為和信息偏好確定并調(diào)整重要節(jié)點(diǎn)對應(yīng)的機(jī)制,縮短了檢索信息所用的時(shí)間,提高了所提方法的檢索效率?;谠獢?shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法、文獻(xiàn)【5】方法和文獻(xiàn)【6】方法的查全率。在多次迭代中基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法的查全率遠(yuǎn)遠(yuǎn)高于文獻(xiàn)【5】方法和文獻(xiàn)【6】方法的查全率,因?yàn)樵摲椒ǜ鶕?jù)信息知識組織檢索系統(tǒng)的拓?fù)涮匦裕ㄟ^自適應(yīng)查詢路由策略實(shí)現(xiàn)信息知識的檢索,提高了基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法的查全率。
4結(jié)語
針對當(dāng)前信息知識組織檢索系統(tǒng)設(shè)計(jì)方法存在檢索效率低和查全率低的問題,為了高效、準(zhǔn)確地實(shí)現(xiàn)信息的檢索,本文提出了基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法,實(shí)驗(yàn)結(jié)果表明,本文方法解決并優(yōu)化了當(dāng)前信息知識組織檢索系統(tǒng)設(shè)計(jì)方法中存在的問題,并可在較短的時(shí)間內(nèi)準(zhǔn)確的實(shí)現(xiàn)信息知識的檢索。
參考文獻(xiàn)
1何泰伯.基于大數(shù)據(jù)分析的多媒體信息檢索系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2018,41(3):111-114.
2鮑玉來,白淑霞,飛龍,等.漢蒙跨語言檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)理論與實(shí)踐,2017,40(4):128-132.
作者:王丹 張祥合 趙浩宇 單位:吉林大學(xué)《仿生工程學(xué)報(bào)》編輯部