公務(wù)員期刊網(wǎng) 論文中心 正文

核心期刊多源信息深度聚合模式應(yīng)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了核心期刊多源信息深度聚合模式應(yīng)用范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

核心期刊多源信息深度聚合模式應(yīng)用

摘要:針對(duì)核心期刊相關(guān)信息的分散異構(gòu),探索其在管理與服務(wù)中的創(chuàng)新應(yīng)用。從3個(gè)層次聚合期刊相關(guān)信息,即數(shù)據(jù)層收集和整理各來(lái)源的核心期刊相關(guān)數(shù)據(jù),信息層采用元數(shù)據(jù)和本體詞匯對(duì)期刊相關(guān)數(shù)據(jù)及其特征進(jìn)行語(yǔ)義規(guī)范描述,知識(shí)層基于本體和關(guān)聯(lián)數(shù)據(jù)技術(shù),從語(yǔ)義上揭示期刊信息各概念之間的關(guān)系,實(shí)現(xiàn)了中外文核心期刊信息的多維展示、關(guān)聯(lián)發(fā)現(xiàn)和多維統(tǒng)計(jì)分析,并進(jìn)一步分析其在采訪決策和個(gè)性化服務(wù)中的應(yīng)用前景。

關(guān)鍵詞:核心期刊;多源信息;深度聚合;知識(shí)組織

1引言

期刊是高校圖書館館藏文獻(xiàn)資源建設(shè)和服務(wù)的重點(diǎn)。在期刊采訪、管理和服務(wù)等過(guò)程中,其相關(guān)信息(如收錄情況、影響力、分區(qū)、開(kāi)放性、館藏和利用情況等)多而雜,且來(lái)源廣泛,具有無(wú)序性、獨(dú)立性、多源性和分散性,給讀者的發(fā)現(xiàn)和利用帶來(lái)困難,也不便于對(duì)利用情況進(jìn)行分析。為方便讀者利用,進(jìn)而指導(dǎo)高校圖書館館藏期刊資源的建設(shè),有必要對(duì)期刊的相關(guān)信息進(jìn)行整合。邱均平等[1]認(rèn)為隨著讀者需求的提升,對(duì)數(shù)字資源進(jìn)行深度聚合是數(shù)字資源建設(shè)發(fā)展到一定階段的必然要求。童旺宇[2]研究了圖書相關(guān)信息的聚合,并指出其可為用戶提供決策支持服務(wù)。對(duì)多源期刊信息進(jìn)行聚合能夠使期刊相關(guān)信息更為集中、有序,從而更好地為讀者提供期刊信息服務(wù),對(duì)其特征和利用行為的分析可為進(jìn)一步優(yōu)化館藏期刊資源的配置提供決策支持。

2相關(guān)概念

2.1核心期刊及其信息的多源性

核心期刊是指學(xué)術(shù)水平較高的期刊,或某一學(xué)科中高水平、高影響力的期刊。英國(guó)文獻(xiàn)學(xué)家布拉德福在1931年首先揭示了文獻(xiàn)集中與分散規(guī)律,發(fā)現(xiàn)某時(shí)期某學(xué)科1/3的論文刊登在3.2%的期刊上[3];1971年,SCI創(chuàng)始人加菲爾德統(tǒng)計(jì)了參考文獻(xiàn)在期刊上的分布情況,發(fā)現(xiàn)24%的引文出現(xiàn)在1.25%的期刊上[4]。這些研究均表明期刊存在“核心效應(yīng)”,進(jìn)而衍生出“核心期刊”的概念,同時(shí)在國(guó)內(nèi)外產(chǎn)生了多種核心期刊遴選體系。國(guó)內(nèi)核心期刊遴選體系有中文核心期刊要目總覽(北京大學(xué))、中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)核心庫(kù)(中國(guó)科學(xué)院)、中文社會(huì)科學(xué)引文索引(南京大學(xué))、中國(guó)科技期刊引證報(bào)告(中國(guó)科學(xué)技術(shù)信息研究所)。國(guó)際核心期刊遴選體系主要有SCIE(收錄理科工科類)、SSCI(收錄經(jīng)濟(jì)管理人文類)、A&HCI(收錄藝術(shù)與人文科學(xué)類)、EI(收錄工科及少量管理類)等。期刊多源信息是指期刊的相關(guān)信息來(lái)源于不同的信息平臺(tái),其相關(guān)信息包括期刊刊名元數(shù)據(jù)、收錄信息、分區(qū)信息、影響因子、開(kāi)放性等(如圖1所示),針對(duì)具體的高校機(jī)構(gòu)還包括館藏和機(jī)構(gòu)成果等,這些信息分散于不同的信息環(huán)境中。

2.2信息聚合

聚合原意為將分散的個(gè)體聚集在一起。在互聯(lián)網(wǎng)領(lǐng)域,信息聚合是指挑選、分析互聯(lián)網(wǎng)上的海量信息并根據(jù)內(nèi)容進(jìn)行歸類,進(jìn)而為用戶提供優(yōu)質(zhì)有用的更具針對(duì)性的信息[5]。本研究中的核心期刊信息聚合是指針對(duì)高校的教學(xué)和科研需求,聚合各來(lái)源多維度的期刊相關(guān)數(shù)據(jù),展示期刊的整體概貌,方便讀者發(fā)現(xiàn)和甄別自己感興趣的期刊,同時(shí)為圖書館期刊采訪提供決策支持。

3核心期刊多源信息聚合模式

核心期刊相關(guān)信息類型多樣、來(lái)源廣泛且關(guān)聯(lián)性強(qiáng)。對(duì)核心期刊相關(guān)信息的聚合不僅要收集期刊各個(gè)維度的數(shù)據(jù),而且要對(duì)數(shù)據(jù)特征進(jìn)行語(yǔ)義描述,反映其知識(shí)關(guān)聯(lián),以對(duì)期刊相關(guān)信息進(jìn)行有效揭示。因此,根據(jù)數(shù)據(jù)來(lái)源和信息組織形式,期刊相關(guān)信息可從數(shù)據(jù)層、信息層和知識(shí)層3個(gè)層次進(jìn)行聚合,在此基礎(chǔ)上提供創(chuàng)新應(yīng)用服務(wù)。聚合模式如圖2所示:數(shù)據(jù)層聚合是對(duì)多來(lái)源的期刊相關(guān)數(shù)據(jù)進(jìn)行收集和整理。數(shù)據(jù)收集是依據(jù)核心期刊收錄標(biāo)準(zhǔn)收集期刊的描述性元數(shù)據(jù),以及與期刊相關(guān)的影響因子、分區(qū)、收錄情況、開(kāi)放特征、館藏特征、機(jī)構(gòu)成果、評(píng)價(jià)等數(shù)據(jù);數(shù)據(jù)整理是對(duì)所收集的期刊數(shù)據(jù)進(jìn)行去重、歸并、規(guī)范化和數(shù)據(jù)增強(qiáng)等數(shù)據(jù)清洗工作,如期刊分類整理、重復(fù)數(shù)據(jù)合并、字段格式規(guī)范、缺失數(shù)據(jù)補(bǔ)充等,以保證期刊相關(guān)數(shù)據(jù)的完整性和準(zhǔn)確性。信息層聚合是對(duì)期刊相關(guān)數(shù)據(jù)及其特征進(jìn)行語(yǔ)義規(guī)范描述,以實(shí)現(xiàn)機(jī)器可理解。圖書館領(lǐng)域常用的語(yǔ)義元數(shù)據(jù)描述規(guī)范有DC、MARC、BIBO、FRBR和PRISM等本體詞匯。知識(shí)層聚合是對(duì)事物的本質(zhì)及事物間的關(guān)系進(jìn)行揭示和控制。對(duì)期刊信息進(jìn)行知識(shí)層聚合是對(duì)期刊所涉及的相關(guān)概念及其關(guān)系進(jìn)行有效關(guān)聯(lián),并進(jìn)行語(yǔ)義描述。知識(shí)層聚合涉及的相關(guān)技術(shù)有語(yǔ)義網(wǎng)、本體、關(guān)聯(lián)數(shù)據(jù)和敘詞(SKOS)等[6-7],可從多角度揭示期刊信息的知識(shí)內(nèi)容和相互關(guān)系。基于以上3個(gè)層次的期刊相關(guān)信息聚合所提供的創(chuàng)新應(yīng)用服務(wù)有多視角期刊信息的分面導(dǎo)航、關(guān)聯(lián)發(fā)現(xiàn)、多維統(tǒng)計(jì)分析、定制與推薦,以及為期刊采訪提供決策支持等。

4核心期刊多源信息聚合關(guān)鍵技術(shù)分析

核心期刊多源信息聚合涉及的關(guān)鍵技術(shù)主要包括多源信息的ETL(Extract-Trans-form-Load,抽?。D(zhuǎn)換-加載)、期刊信息知識(shí)組織的本體概念模型,以及期刊相關(guān)概念屬性元數(shù)據(jù)語(yǔ)義描述。

4.1期刊多源信息的ETL

期刊多源信息的ETL是指從各數(shù)據(jù)源抽取所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按預(yù)定的數(shù)據(jù)格式加載到系統(tǒng)中。需要抽取的期刊信息數(shù)據(jù)類型、來(lái)源和收集數(shù)據(jù)要求如下表所示:表中各種類型的期刊相關(guān)信息可從相應(yīng)的來(lái)源網(wǎng)站下載或要求數(shù)據(jù)庫(kù)廠商提供,由于不同來(lái)源的數(shù)據(jù)格式不一致,需要對(duì)數(shù)據(jù)進(jìn)行清洗。期刊相關(guān)信息的清洗工作主要包括數(shù)據(jù)歸并、數(shù)據(jù)規(guī)范化和數(shù)據(jù)增強(qiáng)。①期刊數(shù)據(jù)歸并,即對(duì)各來(lái)源的期刊相關(guān)數(shù)據(jù)與期刊總庫(kù)做唯一性匹配。由于各種來(lái)源期刊的ISSN號(hào)和刊名可能與總庫(kù)中的信息不一致(如刊名和ISSN號(hào)變更、書寫方式差異等)而無(wú)法匹配,需要通過(guò)程序?qū)Ω鱽?lái)源相關(guān)信息進(jìn)行唯一性檢測(cè)或人工整理,使其與總庫(kù)的期刊相匹配。這是一項(xiàng)基礎(chǔ)性工作。②期刊數(shù)據(jù)規(guī)范化,即對(duì)各個(gè)字段的格式進(jìn)行規(guī)范統(tǒng)一,如ISSN號(hào)統(tǒng)一為XXXX-XXXX格式,年份統(tǒng)一為4位等。③期刊數(shù)據(jù)增強(qiáng),即當(dāng)有些信息不全時(shí),需從不同的來(lái)源進(jìn)行元數(shù)據(jù)補(bǔ)充,甚至人工錄入。

4.2期刊信息知識(shí)組織的本體概念模型

期刊信息知識(shí)組織的目標(biāo)是對(duì)期刊相關(guān)信息進(jìn)行整序,使知識(shí)存儲(chǔ)有序化、易獲取。本研究對(duì)期刊相關(guān)信息的知識(shí)組織是基于概念層次而非知識(shí)內(nèi)容層次,采取語(yǔ)義網(wǎng)和本體(Ontology)技術(shù)相結(jié)合的方式建模。期刊相關(guān)信息知識(shí)組織的核心是建立本體概念模型,模型主要涉及期刊相關(guān)概念、概念的屬性及概念之間的相互關(guān)系。根據(jù)上表中期刊相關(guān)信息所包含的內(nèi)容,其可定義的概念類有期刊母體、期刊文章、科研機(jī)構(gòu)、科研人物,以及期刊母體的屬性概念子類:影響因子、期刊分區(qū)、收錄來(lái)源、開(kāi)放期刊、館藏特征和利用情況。期刊相關(guān)信息本體概念模型如圖3所示,概念和子概念以節(jié)點(diǎn)表示,各概念之間的關(guān)系以邊表示,概念之間定義了關(guān)系,如科研人物是科研機(jī)構(gòu)的成員(memberOf),卷期是期刊母體的部分(isPartOf),收錄來(lái)源是期刊母體的子屬性(subPropertyOf)等,同時(shí)這些關(guān)系也是互逆的,各概念彼此之間構(gòu)成網(wǎng)狀關(guān)聯(lián)結(jié)構(gòu),一個(gè)概念可以關(guān)聯(lián)到其他各個(gè)概念。

4.3期刊相關(guān)概念屬性元數(shù)據(jù)語(yǔ)義描述

期刊相關(guān)信息本體概念模型建立了期刊各概念之間的相互關(guān)聯(lián),其概念、關(guān)系和屬性要使機(jī)器可理解,需借鑒本體詞匯(如bibo、fa-bio、foaf、dcterms、rdfs、owl等)進(jìn)行語(yǔ)義規(guī)范。對(duì)于擴(kuò)展的詞匯,本研究自定義擴(kuò)展詞匯的命名空間為journal。概念和關(guān)系的語(yǔ)義規(guī)范描述詞匯已定義(如圖3所示),下面對(duì)各概念的屬性元數(shù)據(jù)進(jìn)行語(yǔ)義規(guī)范描述。期刊母體類可用bibo:Journal本體詞匯描述,其數(shù)據(jù)屬性為刊名(dc:title)、歷史刊名(dcterms:alternative)、ISSN(bibo:issn)、語(yǔ)種(dc:language)、出版頻次(dcterms:accrualPe-riodicity)、創(chuàng)刊年(prism:creationDate)、簡(jiǎn)介(dc:description)、主題分類(dc:subject);對(duì)象屬性有官網(wǎng)地址(prism:url)。機(jī)構(gòu)成果為機(jī)構(gòu)科研人物所發(fā)表的期刊文章,概念類有科研人物(foaf:Person)、科研機(jī)構(gòu)(foaf:Organization)、卷期(bibo:Issue)和期刊文章(fabio:JournalArticle),其數(shù)據(jù)屬性主要有題名(dc:title、dcterms:alternative)、年(prism:year)、卷(prism:volume)、期(prism:issue)、頁(yè)碼(prism:page)、關(guān)鍵詞(prism:key-word)、摘要(dcterms:abstract),對(duì)象屬性有DOI(bibo:doi)。卷期類與期刊母體為屬于與被屬于的關(guān)系(isPartOf/hasPart),期刊文章類與卷期類也是屬于與被屬于的關(guān)系,期刊文章由科研人物創(chuàng)建(creator),科研人物為科研機(jī)構(gòu)的成員(memberOf)。期刊母體相關(guān)屬性類的概念采用自定義詞匯集(journal),其具有的子屬性關(guān)系(rdfs:sub-PropertyOf)的類有收錄來(lái)源(journal:Source)、影響力(journal:Impact)、分區(qū)(journal:Zone)、開(kāi)放特征(journal:Open)、館藏特征(journal:Collec-tion)和期刊利用(journal:Utilization)。子屬性類的數(shù)據(jù)屬性有年份(prism:year)、月份(prism:month)、主題分類(dc:subject)、收錄類型(jour-nal:CollectionType)、分區(qū)類型(journal:Zone-Type)、Top期刊(journal:Top)、被引次數(shù)(jour-nal:TotalCites)、影響因子(journal:ImpactFac-tor)、特征因子(journal:Eigenfactor)、請(qǐng)求量(journal:NumberOfRequests)、來(lái)源數(shù)據(jù)庫(kù)(jour-nal:DataBase)、網(wǎng)址(prism:url)、OA期刊類型(journal:OpenType)。以上從語(yǔ)義上定義了期刊相關(guān)信息的概念類、屬性及其關(guān)系,通過(guò)各概念之間的語(yǔ)義關(guān)聯(lián)使期刊相關(guān)信息的各概念構(gòu)成了一種網(wǎng)狀關(guān)聯(lián)結(jié)構(gòu),從而便于進(jìn)行知識(shí)推理,從任意維度出發(fā)發(fā)現(xiàn)更多有價(jià)值的信息,便于期刊信息的深度發(fā)掘。

5核心期刊多源信息聚合的應(yīng)用

基于上述核心期刊相關(guān)信息聚合模式,本研究收集整理了核心期刊的7類相關(guān)信息:最新收錄、影響因子、分區(qū)、開(kāi)放特征,以及某單位圖書館的期刊館藏、機(jī)構(gòu)成果和期刊利用數(shù)據(jù),實(shí)現(xiàn)核心期刊信息導(dǎo)航展示與多維分類統(tǒng)計(jì)、期刊多維信息展示與關(guān)聯(lián)發(fā)現(xiàn),并對(duì)其在期刊采訪決策和個(gè)性化服務(wù)中的應(yīng)用前景進(jìn)行分析。

5.1核心期刊信息導(dǎo)航展示與多維分類統(tǒng)計(jì)

用戶可以從收錄來(lái)源、分區(qū)類型和年份等多個(gè)維度統(tǒng)計(jì)和展示各個(gè)學(xué)科類別或分區(qū)的核心期刊數(shù)量、OA刊數(shù)量、館藏刊數(shù)量、友好刊數(shù)量(本機(jī)構(gòu)成員發(fā)文的期刊),然后再導(dǎo)航到各類期刊的列表。一方面,可方便用戶找到自己感興趣的各種特征的期刊;另一方面可方便采訪人員了解各學(xué)科的核心期刊分布情況。

5.2核心期刊多維信息展示與關(guān)聯(lián)發(fā)現(xiàn)

期刊相關(guān)信息各概念之間的語(yǔ)義關(guān)聯(lián)使具體期刊的相關(guān)信息發(fā)現(xiàn)更為便捷。一方面可以從多個(gè)維度聚合期刊相關(guān)信息,將期刊各維度的信息展示出來(lái),如對(duì)于某一具體期刊可聚合期刊元數(shù)據(jù),各種類型各年份的收錄、分區(qū)、影響因子信息、期刊的機(jī)構(gòu)發(fā)文、電子及紙本館藏信息、期刊利用情況等;另一方面,期刊各概念關(guān)聯(lián)層次的多級(jí)性使用戶可以發(fā)現(xiàn)更多有價(jià)值的信息,同時(shí)可關(guān)聯(lián)到同學(xué)科、同分區(qū)或相同收錄來(lái)源的相關(guān)期刊等。

5.3期刊采訪決策

期刊相關(guān)信息聚合后便可從多個(gè)角度對(duì)期刊進(jìn)行統(tǒng)計(jì)和分析,為圖書館期刊采訪提供決策支持。高校圖書館在做期刊采訪決策時(shí),需要對(duì)期刊的影響力、利用情況、學(xué)科分區(qū)、館藏特征、友好性和開(kāi)放性等進(jìn)行分析[8]。從聚合的核心期刊相關(guān)信息中可統(tǒng)計(jì)出本館已訂購(gòu)各學(xué)科哪些核心電子刊、紙本刊;已訂購(gòu)的每種核心期刊在本校的利用情況、使用成本;各數(shù)據(jù)庫(kù)中的期刊利用率情況;各學(xué)科中哪些核心期刊未訂購(gòu);各學(xué)科未訂購(gòu)的核心期刊的影響力、開(kāi)放性、友好性、來(lái)源數(shù)據(jù)庫(kù)情況。這些都是期刊采訪需要了解的信息,其統(tǒng)計(jì)和分析結(jié)果可為期刊采訪提供決策支持。

5.4期刊信息定制、推薦與服務(wù)融合

在數(shù)字圖書館個(gè)性化服務(wù)中,期刊相關(guān)信息的定制是指用戶自定義期刊相關(guān)主題、刊名、作者、收錄來(lái)源和分區(qū)等組合的檢索條件,系統(tǒng)自動(dòng)把檢索到的期刊或文章最新結(jié)果集提供給用戶,使用戶更加及時(shí)便捷地獲取自己感興趣的期刊相關(guān)信息。期刊信息的推薦是指根據(jù)用戶的發(fā)文、借閱或檢索行為等,把與讀者行為相關(guān)的期刊信息、期刊目次或期刊文章推薦給用戶。期刊相關(guān)信息服務(wù)融合是指將期刊數(shù)據(jù)服務(wù)融入其他平臺(tái),便于用戶發(fā)現(xiàn)和利用。如融入圖書館學(xué)科信息服務(wù)系統(tǒng),提供學(xué)科期刊信息服務(wù);融入微信、圖書館個(gè)性化服務(wù)平臺(tái),便于讀者了解期刊相關(guān)信息和投稿,也可開(kāi)放的關(guān)聯(lián)數(shù)據(jù),方便第三方利用期刊信息。

結(jié)語(yǔ)

期刊相關(guān)信息的聚合使分散異構(gòu)的期刊信息有序化。數(shù)據(jù)層從各來(lái)源采集期刊相關(guān)信息,對(duì)其進(jìn)行數(shù)據(jù)清洗后載入系統(tǒng),其中大部分工作可通過(guò)程序自動(dòng)完成。信息層和知識(shí)層對(duì)期刊相關(guān)信息概念化、語(yǔ)義化和關(guān)聯(lián)化。期刊相關(guān)信息深度聚合使讀者發(fā)現(xiàn)和利用期刊更為便捷,在對(duì)期刊進(jìn)行多維統(tǒng)計(jì)分析的基礎(chǔ)上,可為高校圖書館期刊采訪提供決策支持。

參考文獻(xiàn):

[1]邱均平,方國(guó)平.高校圖書館語(yǔ)義化館藏資源深度聚合模式及其應(yīng)用研究[J].圖書館學(xué)研究,2014(21):64-71.

[2]童旺宇.OPAC系統(tǒng)中面向用戶決策的圖書信息多源融合[J].圖書館工作與研究,2017(6):93-100.

[3]陳勤.布拉德福定律在期刊計(jì)量管理中的若干應(yīng)用[J].圖書情報(bào)工作,1997(12):12-14,23.

[4]賴茂生,屈鵬,趙康.論期刊評(píng)價(jià)的起源和核心要素[J].重慶大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2009(3):67-72.

[5]網(wǎng)絡(luò)聚合[EB/OL].[2019-07-01].

[6]張建紅.基于語(yǔ)義關(guān)聯(lián)的海量數(shù)字資源知識(shí)聚合與服務(wù)研究[J].圖書館工作與研究,2016(8):44-47.

[7]鮮國(guó)建,趙瑞雪,孟憲學(xué),等.基于知識(shí)組織體系的多維語(yǔ)義關(guān)聯(lián)數(shù)據(jù)構(gòu)建研究[J].?dāng)?shù)字圖書館論壇,2014(3):11-18.

[8]周理盛,尚永紅,李永鋒,等.中南林業(yè)科技大學(xué)高水平科研論文引文分析———基于SCI/SSCI/A&HCI[J].中南林業(yè)科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014(4):182-185.

作者:周理盛 熊擁軍 單位:中南林業(yè)科技大學(xué)圖書館

相關(guān)熱門標(biāo)簽