网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

信息知識組織智能檢索系統(tǒng)設(shè)計(jì)

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了信息知識組織智能檢索系統(tǒng)設(shè)計(jì)范文,希望能給你帶來靈感和參考,敬請閱讀。

信息知識組織智能檢索系統(tǒng)設(shè)計(jì)

摘要:【目的/意義】采用當(dāng)前方法檢索信息知識時(shí),存在檢索效率低和查全率低的問題。為用戶提供全面的檢索,需設(shè)計(jì)效率更好的知識檢索系統(tǒng)?!痉椒?過程】提出了基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法,利用Agent實(shí)現(xiàn)人機(jī)交互層、信息處理層和信息收集層在檢索系統(tǒng)中的交互,分析了存儲管理模塊、用戶接口模塊、搜索引擎和索引模塊、通信管理模塊、特征提取模塊的主要功能,通過自適應(yīng)路由機(jī)制、查詢機(jī)制和自配置機(jī)制實(shí)現(xiàn)信息知識的檢索,完成信息知識組織智能檢索系統(tǒng)的設(shè)計(jì)。【結(jié)果/結(jié)論】實(shí)驗(yàn)結(jié)果表明,本文方法具有信息知識檢索效率高和查全率高的優(yōu)點(diǎn)。

關(guān)鍵詞:元數(shù)據(jù);信息知識;信息檢索;系統(tǒng)設(shè)計(jì)

1信息知識組織智能檢索系統(tǒng)

1..1總體設(shè)計(jì)思想

依據(jù)元數(shù)據(jù)的設(shè)計(jì)思想,為形態(tài)不同的資源集合和數(shù)字化信息單元做規(guī)范的保存、描述、保護(hù)、確認(rèn)、管理、檢索和選擇適當(dāng)?shù)脑獢?shù)據(jù)標(biāo)準(zhǔn)構(gòu)建數(shù)據(jù)庫,通過對數(shù)據(jù)庫的控制,達(dá)到數(shù)據(jù)庫系統(tǒng)互通的目的,實(shí)現(xiàn)信息知識組織智能檢索系統(tǒng)的設(shè)計(jì)。依據(jù)設(shè)計(jì)思想將檢索系統(tǒng)框架分為人機(jī)交互層、信息處理層和信息收集層,分析系統(tǒng)層次的交互過程,并闡述存儲管理模塊、用戶接口模塊、搜索引擎和索引模塊、通信管理模塊和特征提取模塊的主要功能。

11.2檢索系統(tǒng)設(shè)計(jì)

(1)人機(jī)交互層:該層是信息知識組織智能檢索系統(tǒng)中用戶可見的部分。信息知識組織檢索系統(tǒng)和用戶之間的唯一連接是人機(jī)交互層,用戶通過該層接收檢索系統(tǒng)的服務(wù),檢索系統(tǒng)通過人機(jī)交互層傳送請求。交互Agent的主要功能是與用戶交互,在系統(tǒng)中為用戶提供交互界面,幫助用戶收集信息,通過檢索系統(tǒng)中存在的內(nèi)部模型生成查詢?nèi)蝿?wù),獲取查詢結(jié)果。將人機(jī)交互層作為獨(dú)立的一層,可以根據(jù)用戶各自的愛好設(shè)計(jì)檢索系統(tǒng)中的查詢界面。該層主要由用戶接口模塊、通信管理模塊構(gòu)成,其主要功能分別為:①用戶接口模塊。通過模糊描述和示例查詢等形式為用戶提供查詢信息知識的接口。用戶接口可以讓用戶向數(shù)據(jù)庫中提交查詢結(jié)果、輸入查詢以及插入信息。信息知識查詢有時(shí)是模糊的、有時(shí)也是多樣的,用戶可以通過不同類型的信息和多種方式查詢,存在多樣性;但用戶有時(shí)無法準(zhǔn)確地描述需要檢索的信息,因此存在模糊性。為滿足上述要求,需要提供查詢、瀏覽和搜索優(yōu)化的工具【8】。②通信管理模塊。由客戶端和服務(wù)器端構(gòu)成,包括QoS服務(wù)和傳輸協(xié)議服務(wù)。(2)信息處理層:檢索系統(tǒng)的主體部分是信息處理層,各任務(wù)Agent在信息處理層中都是協(xié)同工作的。通過信息處理層將信息傳送給Agent執(zhí)行信息查詢?nèi)蝿?wù)。在信息處理層中存在的Agent具有問題求解、信息分類的知識,還具有信息收集層中Agent具有的知識。信息處理層的主要任務(wù)如下:①接收上一層中發(fā)送的請求任務(wù)。②分析接收的請求任務(wù)并對其包裝,傳送到信息收集層中。③過濾處理返回的信息,并抽取返回信息中存在的重要信息,在半結(jié)構(gòu)化數(shù)據(jù)庫中存入重要的相關(guān)信息。該層主要由特征提取模塊構(gòu)成,其主要功能可對全局或者是目標(biāo)對象進(jìn)行特征提取。(3)信息收集層:信息知識組織智能檢索系統(tǒng)的基礎(chǔ)是信息收集層。通過用戶收集層可以連接網(wǎng)絡(luò)服務(wù)器,收集信息空間中存在的信息資源。在信息收集層中存在信息資源,可以選擇需要的信息資源,實(shí)現(xiàn)信息資源的收集。信息收集層的主要功能是連接網(wǎng)絡(luò)中的服務(wù)器,負(fù)責(zé)與網(wǎng)絡(luò)中的服務(wù)器和搜索引擎之間的交互,采集相關(guān)信息。該層主要由索引引擎和檢索模塊、存儲管理模塊共同構(gòu)成,其主要功能分別為:①索引引擎和檢索模塊。檢索是通過特征之間存在的距離函數(shù)實(shí)現(xiàn)相似性匹配。類型不同的數(shù)據(jù)對應(yīng)的相似性測度選法也不同,在檢索引擎中存在相似性測度函數(shù)集。通過索引機(jī)制檢索引擎可以實(shí)現(xiàn)信息檢索的目標(biāo)。②存儲管理模塊。包括數(shù)據(jù)存儲和壓縮。由媒體庫、特征庫和知識庫構(gòu)成。在媒體庫中存在類型不同的多種媒體,特征庫中存在提取的信息特征和用戶輸入檢索系統(tǒng)的注釋內(nèi)容,在知識庫中存在各個(gè)領(lǐng)域中的知識以及通用知識。

11.3檢索系統(tǒng)過程

(1)數(shù)據(jù)輸入過程:用戶可以利用用戶接口定義、標(biāo)記、說明新輸入的信息知識。利用特征提取器提取信息知識的特征和內(nèi)容。根據(jù)系統(tǒng)的相關(guān)程序?qū)⒉杉男畔⒑蛯?yīng)的特征傳送到服務(wù)器中。(2)信息獲取過程:用戶可以通過用戶接口定義查詢,通過查詢系統(tǒng)數(shù)據(jù)庫中存在的內(nèi)容,將獲取的信息當(dāng)作查詢條件。利用特征提取器在數(shù)據(jù)庫中提取查詢信息的特征。通過通信程序?qū)⑻崛〉玫降奶卣鱾魉偷椒?wù)器中,在數(shù)據(jù)庫中利用搜索引擎或索引特征獲取相似度最高的信息。

2實(shí)現(xiàn)技術(shù)

22.1自配置機(jī)制

通過語義類別在本地文件中定義節(jié)點(diǎn)的興趣偏好,利用文本分類法確定語義類別,通過向量模型表示出來,節(jié)點(diǎn)之間的興趣相似度越高,成為重要節(jié)點(diǎn)的優(yōu)先權(quán)越高。設(shè)S(Pi,Pj)代表的是節(jié)點(diǎn)Pi和節(jié)點(diǎn)Pj之間的優(yōu)先權(quán),其計(jì)算公式如下:S(Pi,Pj)=C(Pi)⋅C(Pj)|C(Pi)|×|C(Pj)|=∑s=1tws,i×ws,j∑s=1tw2s,i×∑s=1tw2s,j(1)式中:S(Pi,Pj)用來描述節(jié)點(diǎn)Pi和節(jié)點(diǎn)Pj之間的興趣相似度;C(Pi)、C(Pj)分別代表的是兩個(gè)節(jié)點(diǎn)對應(yīng)的興趣特征向量;C(Pi)|、|C(Pj)|分別代表的是興趣特征向量對應(yīng)的模;ws,i、ws,j分別代表第s個(gè)特征詞在節(jié)點(diǎn)Pi和節(jié)點(diǎn)Pj中的權(quán)值。確定重要節(jié)點(diǎn)優(yōu)先權(quán)過程中較為重要的因素之一是行為相似性。如果兩個(gè)節(jié)點(diǎn)沒有同時(shí)在線,但之間存在相似的興趣偏好,則兩個(gè)節(jié)點(diǎn)之間在網(wǎng)絡(luò)中成為鄰居節(jié)點(diǎn)不存在任何意義。設(shè)Si(Pi,Pj)代表的是兩個(gè)節(jié)點(diǎn)之間的行為相似性,其表達(dá)式如下:Si(Pi,Pj)=Con(Pi)⋂Con(Pj)24N×3600(2)式中:Si(Pi,Pj)用來描述兩個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中的行為相似度;Con(Pi)⋂Con(Pj)代表的是兩個(gè)節(jié)點(diǎn)在N天中同時(shí)在線的總時(shí)長。在行為相似性和興趣的基礎(chǔ)上實(shí)現(xiàn)信息知識組織智能檢索系統(tǒng)的動(dòng)態(tài)自配置機(jī)制,結(jié)合網(wǎng)絡(luò)因子、時(shí)間因素和節(jié)點(diǎn)之間在網(wǎng)絡(luò)中交互的歷史信息數(shù)據(jù)。設(shè)AP(Pi,Pj)代表的是節(jié)點(diǎn)Pj在動(dòng)態(tài)自配置過程中成為節(jié)點(diǎn)Pi的重要節(jié)點(diǎn)對應(yīng)的優(yōu)先權(quán),其計(jì)算公式如下:P(Pi,Pj)=ω∗[α∗∑tHit(Pj)Hop(Pj)+β∗∑t-1Hit(Pj)Hop(Pj)](3)式中:∑tHit(Pj)Hop(Pj)代表的是在節(jié)點(diǎn)Pi提供的答案在當(dāng)前配置周期中與邏輯距離之間商的和;∑t-1Hit(Pj)Hop(Pj)代表的是節(jié)點(diǎn)Pi提供的答案在上一個(gè)配置周期中與邏輯距離之間商的和;α、β代表的是遞進(jìn)系數(shù);ω代表的是網(wǎng)絡(luò)因子。在行為相似性和興趣相似性的基礎(chǔ)上檢索系統(tǒng)中存在的節(jié)點(diǎn)會構(gòu)成不同的簇,在相同簇內(nèi),兩個(gè)節(jié)點(diǎn)的行為和偏好越相似,則兩個(gè)節(jié)點(diǎn)之間的邏輯距離越小【9】。

22..2查詢機(jī)制

為了實(shí)現(xiàn)信息知識的共享和檢索,用向量空間表示每個(gè)節(jié)點(diǎn)在檢索系統(tǒng)中維護(hù)用戶提交的查詢和文件。節(jié)點(diǎn)維護(hù)用戶提交的查詢和文件的索引項(xiàng)在向量空間模型中用權(quán)重表示,上述權(quán)重可以用來確定查詢和文件的相似度,可以通過權(quán)重計(jì)算文件在檢索過程中的排序。設(shè)權(quán)重ωij代表的是在文件dj中索引項(xiàng)ki(ki,q)的重要程度(ki,dj);權(quán)重ωiq代表的是在用戶提交查詢q中索引項(xiàng)ki的重要程度。設(shè)dj代表文件dj的向量,其表達(dá)式如下:dj=(w1f,w2f,⋯,wtf)(4)式中:t代表的是索引項(xiàng)在文件中的總數(shù)。設(shè)q代表的是用戶提交查詢對應(yīng)的向量,其表達(dá)式如下:q=(w1q,w2q,⋯,wtq)(5)設(shè)sim(dj,q)代表的是節(jié)點(diǎn)維護(hù)文件dj和查詢q之間的相似度,其計(jì)算公式如下:sim(dj,q)=dj⋅q|dj|×|q|=∑i=1twij×wiq∑i=1tw2ij×∑i=1tw2iq(6)式中:||q、||||dj分別代表文件和查詢向量對應(yīng)的模。首先采用本地節(jié)點(diǎn)Pi解析用戶提交的查詢,并以并行方式處理:如果本地有存在答案的可能,則對本地?cái)?shù)據(jù)庫進(jìn)行搜索,并將查詢傳送到重要節(jié)點(diǎn)中,在重要節(jié)點(diǎn)中進(jìn)行上述處理【10】。

22.3自適應(yīng)路由機(jī)制

當(dāng)前大部分信息知識組織檢索系統(tǒng)存在查全率低的問題,為了解決上述問題,基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法基于系統(tǒng)的拓?fù)涮匦裕褂米赃m應(yīng)的查詢路由策略,將節(jié)點(diǎn)在網(wǎng)絡(luò)中的興趣偏好作為依據(jù),將查詢傳送到目標(biāo)節(jié)點(diǎn)簇中,具體步驟如下:(1)查詢-提交,利用本地節(jié)點(diǎn)對查詢作解析處理,然后通過重要節(jié)點(diǎn)和本地節(jié)點(diǎn)之間的興趣統(tǒng)計(jì)信息判斷節(jié)點(diǎn)是否落在目標(biāo)節(jié)點(diǎn)簇中,再根據(jù)判斷結(jié)果進(jìn)行下一步處理。(2)如果目標(biāo)節(jié)點(diǎn)簇中不存在該查詢,則根據(jù)鄰居節(jié)點(diǎn)在網(wǎng)絡(luò)中的偏好完成信息的統(tǒng)計(jì),并向目標(biāo)節(jié)點(diǎn)簇中轉(zhuǎn)發(fā)查詢,接收到查詢信息的鄰居節(jié)點(diǎn)進(jìn)行相同決策,直到目標(biāo)節(jié)點(diǎn)中存在查詢?yōu)橹?。?)當(dāng)目標(biāo)節(jié)點(diǎn)簇中存在查詢,且不能在第一時(shí)間內(nèi)獲取合格答案時(shí),將路由歷史記錄作為依據(jù),當(dāng)前節(jié)點(diǎn)可以將查詢傳送到最有可能存在合格答案的節(jié)點(diǎn)中;如果查詢經(jīng)過上述節(jié)點(diǎn),且處理節(jié)點(diǎn)中不存在符合要求的答案,查詢終止。

3實(shí)驗(yàn)結(jié)果與分析

Ma=AbM×100%(7)式中:Ma代表查全率,Ab代表檢索出的相關(guān)信息量,M代表檢索出的信息總量。利用Mulan平臺,設(shè)置定向檢索內(nèi)容,并設(shè)定檢索系統(tǒng)每隔0.2s自動(dòng)進(jìn)行一次檢索,共進(jìn)行6次迭代。分別記錄應(yīng)用本文方法、文獻(xiàn)【5】方法和文獻(xiàn)【6】方法系統(tǒng)的所需檢索時(shí)間及數(shù)據(jù)查全率。通過上述步驟驗(yàn)證基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法、文獻(xiàn)【5】方法和文獻(xiàn)【6】方法的有效性。采用基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法檢索信息時(shí)所用的時(shí)間均少于文獻(xiàn)【5】方法和文獻(xiàn)【6】方法檢索信息所用的時(shí)間,主要因?yàn)槭撬岱椒ㄍㄟ^查詢統(tǒng)計(jì)數(shù)據(jù)、信息行為和信息偏好確定并調(diào)整重要節(jié)點(diǎn)對應(yīng)的機(jī)制,縮短了檢索信息所用的時(shí)間,提高了所提方法的檢索效率。基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法、文獻(xiàn)【5】方法和文獻(xiàn)【6】方法的查全率。在多次迭代中基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法的查全率遠(yuǎn)遠(yuǎn)高于文獻(xiàn)【5】方法和文獻(xiàn)【6】方法的查全率,因?yàn)樵摲椒ǜ鶕?jù)信息知識組織檢索系統(tǒng)的拓?fù)涮匦?,通過自適應(yīng)查詢路由策略實(shí)現(xiàn)信息知識的檢索,提高了基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法的查全率。

4結(jié)語

針對當(dāng)前信息知識組織檢索系統(tǒng)設(shè)計(jì)方法存在檢索效率低和查全率低的問題,為了高效、準(zhǔn)確地實(shí)現(xiàn)信息的檢索,本文提出了基于元數(shù)據(jù)的信息知識組織智能檢索系統(tǒng)設(shè)計(jì)方法,實(shí)驗(yàn)結(jié)果表明,本文方法解決并優(yōu)化了當(dāng)前信息知識組織檢索系統(tǒng)設(shè)計(jì)方法中存在的問題,并可在較短的時(shí)間內(nèi)準(zhǔn)確的實(shí)現(xiàn)信息知識的檢索。

參考文獻(xiàn)

1何泰伯.基于大數(shù)據(jù)分析的多媒體信息檢索系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2018,41(3):111-114.

2鮑玉來,白淑霞,飛龍,等.漢蒙跨語言檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)理論與實(shí)踐,2017,40(4):128-132.

作者:王丹 張祥合 趙浩宇 單位:吉林大學(xué)《仿生工程學(xué)報(bào)》編輯部

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表