公務員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)架構下的文獻資源管理應用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)架構下的文獻資源管理應用范文,希望能給你帶來靈感和參考,敬請閱讀。

大數(shù)據(jù)架構下的文獻資源管理應用

摘要:本文介紹了在圖書館情報領域數(shù)據(jù)管理中存在的信息孤島、數(shù)據(jù)類型缺乏統(tǒng)一架構等問題,通過對實際應用中數(shù)據(jù)類型的分析,利用大數(shù)據(jù)存儲的系統(tǒng)架構,使用關系型數(shù)據(jù)庫與非關系型數(shù)據(jù)庫結合,同時輔以內存數(shù)據(jù)庫和分布式文件系統(tǒng),對內部用戶提供統(tǒng)一元數(shù)據(jù)管理,對外部提供統(tǒng)一數(shù)據(jù)訪問平臺和統(tǒng)一數(shù)據(jù)搜索引擎,從而實現(xiàn)對多種結構數(shù)據(jù)資源的管理和應用.

關鍵詞:圖書館;大數(shù)據(jù);數(shù)據(jù)存儲;異構數(shù)據(jù);非關系型數(shù)據(jù)庫

作為以圖書館為基礎的情報研究機構,隨著近年數(shù)據(jù)資源量的不斷增加,各類文獻、圖書、期刊、基礎數(shù)據(jù)等都需要進行穩(wěn)定的存儲與高效率的分析。同時,基于這些數(shù)據(jù)的知識庫、咨詢服務智庫等系統(tǒng)的建設也都迫在眉睫。為了能充分管理眾多數(shù)據(jù),為各類系統(tǒng)提供數(shù)據(jù)基礎,有必要建設一個結構統(tǒng)一、技術先進、可重復利用的數(shù)據(jù)資源平臺,統(tǒng)一管理各類數(shù)字化資源。

1存在問題

面對大量的數(shù)據(jù)資源,在信息化過程中通常會碰到以下問題:1.1信息孤島現(xiàn)象這種現(xiàn)象是指需求建設的應用系統(tǒng)存在相互之間在功能上不關聯(lián)互助、信息無法共享互換以及信息與業(yè)務流程和應用相互脫節(jié)等問題,缺乏統(tǒng)一元數(shù)據(jù)管理。1.2多種類型數(shù)據(jù)缺乏統(tǒng)一數(shù)據(jù)架構每個業(yè)務環(huán)節(jié)都會有大量非結構化、結構化、半結構化數(shù)據(jù),如何對這類數(shù)據(jù)進行統(tǒng)一分析管理。在這些多種結構的數(shù)據(jù)中存在大量內在關聯(lián),只有統(tǒng)一數(shù)據(jù)存儲,才能進一步挖掘出數(shù)據(jù)中存在的深層價值。1.3軟硬件環(huán)境重復購買現(xiàn)象在信息化建設過程中,新建應用系統(tǒng)都會根據(jù)自身需求重新搭建軟件、硬件環(huán)境,大部分系統(tǒng)運行所需軟硬件并沒有達到資源的滿負荷利用。1.4缺乏統(tǒng)一數(shù)據(jù)標準由于多年系統(tǒng)建設過程中由不同團隊開發(fā),造成相同數(shù)據(jù)內容格式不統(tǒng)一,存在大量冗余數(shù)據(jù),彼此數(shù)據(jù)更新不暢通。1.5缺乏統(tǒng)一數(shù)據(jù)安全管理方案在日常工作過程中需要進行大量數(shù)據(jù)交互與實時操作,缺乏統(tǒng)一的信息化安全手段對數(shù)據(jù)分配權限進行管理,并實現(xiàn)定期的資源備份。

2建設目標

基于以上狀況,考慮基于大數(shù)據(jù)架構的文獻資源管理方案應可達到以下目標:(1)實現(xiàn)基于統(tǒng)一元數(shù)據(jù)定義的信息集中管理和信息共享,為數(shù)字出版、數(shù)據(jù)加工、咨詢服務、日常管理等各項工作提供統(tǒng)一數(shù)據(jù)資源平臺。(2)實現(xiàn)統(tǒng)一大數(shù)據(jù)環(huán)境,滿足各個應用對于文檔數(shù)據(jù)、關系型數(shù)據(jù)、非關系型數(shù)據(jù)和內存型數(shù)據(jù)的統(tǒng)一存儲需求。(3)構建基于SOA架構的應用系統(tǒng),保證在應用對于數(shù)據(jù)訪問權限的統(tǒng)一管理。(4)建設統(tǒng)一搜索環(huán)境,滿足于各種數(shù)據(jù)資源能夠統(tǒng)一搜索查詢訪問。(5)建設必須具備高度的先進性、可靠性、可用性、安全性并具備良好的擴展性和靈活性。

3建設方案

3.1資源建設方案

圖書館中常見資源主要包括文獻、圖書、期刊、數(shù)值型數(shù)據(jù)、動態(tài)信息等。依據(jù)數(shù)據(jù)結構的不同,可主要分為基礎數(shù)據(jù)、結構化數(shù)值型數(shù)據(jù)、非結構化數(shù)據(jù)、動態(tài)信息、其他文字類信息等幾類。其特點如下:(1)基礎數(shù)據(jù):主要如書目、期刊文獻等數(shù)據(jù);(2)動態(tài)信息:主要包括各類網(wǎng)站、媒體的信息,時效性比較強;(3)非結構化數(shù)據(jù):主要包括格式不夠統(tǒng)一的數(shù)值型數(shù)據(jù);(4)結構化數(shù)值型數(shù)據(jù):可以定期獲取的格式相對規(guī)范的數(shù)據(jù),如海關進出口數(shù)據(jù)、圖書期刊銷售數(shù)據(jù);(5)其他文字類信息:更新頻度較慢的文字類數(shù)據(jù),如各類法律庫、研究報告等;針對不同類型的數(shù)據(jù)資源,應對其采用特定的方式進行處理、保存及利用。3.1.1基礎數(shù)據(jù)包括如數(shù)據(jù)、期刊文獻等基礎數(shù)據(jù)都應經(jīng)過數(shù)字化加工、元數(shù)據(jù)定義、自動標引、關鍵數(shù)據(jù)提取等多個步驟,分別保存至相應數(shù)據(jù)庫。3.1.2動態(tài)信息動態(tài)信息的來源主要是各個網(wǎng)站,包括網(wǎng)站文章及各類輿情信息。可以由技術手段完成從信息采集、分類整理到分發(fā)的所有過程。整個流程由三個規(guī)則來體現(xiàn):分別是采集規(guī)則、分類規(guī)則、分發(fā)規(guī)則。采集規(guī)則:采集規(guī)則由編輯確定,包括來源網(wǎng)站、欄目等。利用爬蟲技術,可對所有網(wǎng)站的資源進行自動增量采集,并裝入“待分類庫”。分類規(guī)則:分類規(guī)則利用到詞表、詞庫以及自動標引技術。由專家及編輯對所有資源進行多維度分類,并提供相應的語料,經(jīng)過學習,對之前進入“待分類庫”中的所有數(shù)據(jù)進行自動標引。之后,所有的數(shù)據(jù)將被從多個維度被分類。保存后即可方便準確的提取。分發(fā)規(guī)則:在完成上述兩項工作之后,所有的動態(tài)信息已經(jīng)被分門別類的整理好。通過分類、關鍵詞即可快速提取相關的信息。對于已經(jīng)經(jīng)過規(guī)范化處理的動態(tài)信息,也可以直接利用形成產品,同樣依據(jù)自有的多維分類,即可把相關的動態(tài)信息直接推送給用戶。3.1.3結構化數(shù)值型數(shù)據(jù)結構化數(shù)值型數(shù)據(jù)包括海關進出口數(shù)據(jù)、統(tǒng)計局數(shù)據(jù)、產品庫等眾多格式相對規(guī)范資源。由于數(shù)據(jù)量的不斷增大,需要考慮使用數(shù)據(jù)倉庫技術對所有的結構化數(shù)據(jù)進行規(guī)范保存,利用建模的方式保存數(shù)據(jù)。這類數(shù)據(jù)的主要用途分為兩部分對內提供數(shù)據(jù)的查詢,對外提供報告的自動生成。(1)數(shù)據(jù)查詢。規(guī)范化存儲之后的數(shù)據(jù)可以方便的通過多個維度進行查詢、鉆取,內容的研究人員可以直接通過輸入查詢條件進行數(shù)據(jù)的查詢,同時生成各類圖表。(2)自動報告。對外可以以產品的形式提供多種數(shù)據(jù)報告,利用預先準備的模板,在用戶選擇所需報告之后,利用已有數(shù)據(jù),套用不同模板形成一份自動的報告。3.1.4非結構化數(shù)據(jù)對于非結構化數(shù)據(jù),將主要通過兩種方式來處理。(1)非結構化數(shù)據(jù)的結構化。部分非結構化數(shù)據(jù)本質是結構化數(shù)據(jù),因為某些原因才造成了數(shù)據(jù)的不完整,對于這類數(shù)據(jù),需要整理結構的最大集并將相應的數(shù)據(jù)填入對應字段。在完成此步驟之后,可采用類似對于結構化處理的方式對這些資源進行處理。(2)非結構化數(shù)據(jù)的標引分類。除上述的數(shù)據(jù)之外,還有一部分非結構化數(shù)據(jù)過于零散,只能采用標引的方法實現(xiàn)這些數(shù)據(jù)的歸檔利用。方法和動態(tài)信息的處理方式類似。3.1.5文字類信息文字類信息的特點是實效性不強,每次后都會長期使用。比如法律法規(guī)、咨詢報告等。這類資源應主要采用自動標引的技術進行處理。首先也需有多個維度的分類、詞庫、詞表以及語料,經(jīng)過學習后將每篇文章進行標引分類,之后再將文章內的段落進行二次標引。這樣,所有的資源都可以通過關鍵詞、多個維度的分類進行提取,即可獲取具體段落資源、也可以獲取完整的文章報告。這類規(guī)整后的信息可提供給內部科研人員作為資料進行調用,同時可以為結構化數(shù)據(jù)的自動生成報告提供文字資源。

3.2技術建設架構

針對資源建設的方案,考慮采用關系型數(shù)據(jù)庫與非關系型數(shù)據(jù)庫結合的方式建立存儲架構。3.2.1數(shù)據(jù)存儲技術一個完整的數(shù)據(jù)環(huán)境,需要面對來自于各個方面的數(shù)據(jù)存儲需求挑戰(zhàn),主要存在的數(shù)據(jù)存儲需求為:(1)文檔型數(shù)據(jù)存儲需求(2)關系型數(shù)據(jù)庫數(shù)據(jù)存儲需求(3)實時型數(shù)據(jù)存儲需求(4)非關系型數(shù)據(jù)關系型數(shù)據(jù)庫的優(yōu)勢在于保持數(shù)據(jù)的一致性,由于以數(shù)據(jù)標準化為前提,數(shù)據(jù)更新的系統(tǒng)開銷很小,同時可以方便的進行Join等復雜查詢。MySQL是目前最流行的關系型數(shù)據(jù)庫管理系統(tǒng)。尤其在WEB應用方面,它與PHP語言的結合是目前最為成熟、穩(wěn)定、安全的技術之一。針對現(xiàn)有數(shù)據(jù),絕大多數(shù)的結構化數(shù)據(jù)都可以保存在該類數(shù)據(jù)庫中,從而實現(xiàn)復雜條件下的檢索操作。同時,關系型數(shù)據(jù)庫擔任保存整個系統(tǒng)元數(shù)據(jù)架構與基本數(shù)據(jù)的任務,是其他結構數(shù)據(jù)庫存儲及導入導出的基礎。NoSQL泛指非關系型的數(shù)據(jù)庫。它的優(yōu)勢在于性能,由于NoSQL是基于鍵值對的,可以想象成表中的主鍵和值的對應關系,而且不需要經(jīng)過SQL層的解析,所以性能非常高。另外可擴展性同樣也是因為基于鍵值對,數(shù)據(jù)之間沒有耦合性,所以非常容易水平擴展。它可以最大程度的解決關系型數(shù)據(jù)庫所不擅長的大量數(shù)據(jù)的寫入處理和為有數(shù)據(jù)更新的表做索引或表結構變更等問題。用NoSQL可以方便的保存系統(tǒng)中的非結構化數(shù)據(jù),并根據(jù)實際需求隨時調整其結構。分布式文件系統(tǒng)(DistributedFileSystem)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡與節(jié)點相連。由于系統(tǒng)中數(shù)據(jù)資源過于龐大,為提高其使用訪問效率,利用HDFS的一次寫入、多次讀寫的特性。數(shù)據(jù)集一旦由數(shù)據(jù)源生成,就會被復制分發(fā)到不同的存儲節(jié)點中,從而響應各種各樣的數(shù)據(jù)分析任務請求。以Redis為代表的內存數(shù)據(jù)庫,是基于全部數(shù)據(jù)都存在內存中的技術體系,拋棄了磁盤數(shù)據(jù)管理的方式,它在采用半持久化模式運行時所有數(shù)據(jù)都是保存在內存中,然后不定期的通過異步方式保存到磁盤上。通過這種方式,內存數(shù)據(jù)庫在保證讀寫速度遠超過傳統(tǒng)數(shù)據(jù)庫的基礎上,又可對其數(shù)據(jù)進行分布式存儲且具有可恢復性。針對以上需求內容,結合各種軟件的特性:(1)MySQL滿足關系型數(shù)據(jù)庫需求;(2)NoSQL滿足對數(shù)據(jù)結構要求靈活需求;(3)HDFS滿足文檔類型數(shù)據(jù)存儲需求;(4)Redis內存型數(shù)據(jù)庫,滿足高速存取需求;提供統(tǒng)一數(shù)據(jù)存儲環(huán)境,為后續(xù)數(shù)據(jù)統(tǒng)一元數(shù)據(jù)管理、數(shù)據(jù)統(tǒng)一權限管理、數(shù)據(jù)統(tǒng)一搜索等建設提供了充分必要條件。3.2.2數(shù)據(jù)訪問平臺統(tǒng)一數(shù)據(jù)存儲提供大容量數(shù)據(jù)存儲環(huán)境,滿足數(shù)據(jù)存儲的大量、高速、多樣的需求。在這個基礎上,還需要有統(tǒng)一元數(shù)據(jù)對存儲的數(shù)據(jù)結構進行定義,統(tǒng)一數(shù)據(jù)訪問安全控制對數(shù)據(jù)訪問者進行權限控制,用數(shù)據(jù)統(tǒng)一搜索打通各種類型數(shù)據(jù),為后續(xù)數(shù)據(jù)挖掘分析提供數(shù)據(jù)高速訪問接口。3.2.3統(tǒng)一元數(shù)據(jù)管理元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata),主要是描述數(shù)據(jù)屬性(property)的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)算是一種電子式目錄,為了達到編制目錄的目的,必須在描述并收藏數(shù)據(jù)的內容或特色,進而達成協(xié)助數(shù)據(jù)檢索的目的。將所有資源的元數(shù)據(jù)統(tǒng)一管理,是進一步應用的前提。3.2.4數(shù)據(jù)統(tǒng)一搜索在具備數(shù)據(jù)存儲與數(shù)據(jù)訪問平臺基礎上,構建滿足于融合關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫、文件數(shù)據(jù)庫以及內存數(shù)據(jù)庫的統(tǒng)一搜索引擎,并在構建搜索索引過程中融入專業(yè)詞庫詞表。以Web服務方式提供搜索引擎服務,對用戶所輸入的文字進行分詞,并結合搜索引擎索引,進行詞關系匹配,并按用戶所需排序格式提供數(shù)據(jù)排序給用戶。搜索服務提供web服務方式給應用系統(tǒng)使用,應用系統(tǒng)需根據(jù)自身權限范圍進行數(shù)據(jù)搜索范圍設置。通過上述平臺的組合,可以為圖書館中文獻、圖書、期刊、數(shù)值型數(shù)據(jù)、動態(tài)信息等為主的各類型數(shù)據(jù)提供完整的管理解決方案,并通過具有詞表技術的搜索引擎提供對外接口。

4結束語

雖然關系型數(shù)據(jù)庫有著技術成熟、易維護、支持SQL方式的復雜查詢、豐富的完整性約束等諸多優(yōu)勢,且在圖書館情報領域被廣泛應用。但隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)類型的不斷增多以及應用模式的不斷變化,嘗試傳統(tǒng)數(shù)據(jù)架構+大數(shù)據(jù)架構的存儲、管理和應用將是圖情領域未來的技術架構發(fā)展方向。

參考文獻

[1]朱潔,羅華霖.大數(shù)據(jù)架構詳解:從數(shù)據(jù)獲取到深度學習[M].電子工業(yè)出版社,2012.

[2][美]湯姆,懷特(TomWhite)著.王海,華東,劉喻,呂粵海譯.Hadoop權威指南:大數(shù)據(jù)的存儲與分析(第4版)[M].清華大學出版社,2011.

[3]栗蔚,魏凱.大數(shù)據(jù)的技術、應用和價值變革[J].電信網(wǎng)技術,2013(07).

[4]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(01).

[5]申德榮,于戈,王習特,聶鐵錚,寇月.支持大數(shù)據(jù)管理的nosql系統(tǒng)研究綜述[J].軟件學報,2013(08).

作者:解飛 單位:機械工業(yè)信息研究院