公務(wù)員期刊網(wǎng) 論文中心 正文

網(wǎng)絡(luò)信息資源電子技術(shù)論文

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了網(wǎng)絡(luò)信息資源電子技術(shù)論文范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

網(wǎng)絡(luò)信息資源電子技術(shù)論文

一、網(wǎng)絡(luò)信息資源存儲(chǔ)發(fā)展歷程

1996年InternetArchive的成立拉開(kāi)了網(wǎng)絡(luò)信息資源存儲(chǔ)的研究和實(shí)踐的序幕。雖只有十幾年的發(fā)展歷程,但是其技術(shù)卻有了長(zhǎng)足的發(fā)展。規(guī)模從最初的百萬(wàn)數(shù)據(jù)到現(xiàn)在的數(shù)十億的URL采集,項(xiàng)目的自己投入越來(lái)越多,項(xiàng)目的難度也越來(lái)越高。從1996年到1999年間,首先InternetArchive的成立,然后歐美各國(guó)紛紛開(kāi)始網(wǎng)絡(luò)信息資源存儲(chǔ)項(xiàng)目的實(shí)驗(yàn)。在1996年,澳大利亞國(guó)家圖書(shū)館發(fā)起PANDORA項(xiàng)目,其目的在于保存澳大利亞的在線出版物,包括社會(huì)科學(xué)、政治、經(jīng)濟(jì)、宗教、自然科學(xué)、文化等重要文獻(xiàn)資產(chǎn)。同時(shí)澳大利亞國(guó)家圖書(shū)館還領(lǐng)導(dǎo)了另一個(gè)重要的項(xiàng)目——是關(guān)于數(shù)字資源保存主題的門(mén)戶(hù)網(wǎng)站PADI,其目的是為了提供一種機(jī)制,幫助確保數(shù)據(jù)格式信息能夠被有效管理、保存和提供未來(lái)訪問(wèn)。1997年北歐圖書(shū)館了開(kāi)啟了NWA項(xiàng)目,該項(xiàng)目借鑒了Kulturarw3的Web信息資源采集項(xiàng)目的經(jīng)驗(yàn),其目的是根據(jù)在網(wǎng)絡(luò)中進(jìn)行保存、訪問(wèn)等操作的要求而制定出相關(guān)的技術(shù)規(guī)格,協(xié)助國(guó)家項(xiàng)目的協(xié)調(diào)發(fā)展,聯(lián)合北歐各國(guó)圖書(shū)館建立歐洲網(wǎng)絡(luò)資源長(zhǎng)期保存的合作機(jī)制。1997年在美國(guó)還開(kāi)展了項(xiàng)目,該項(xiàng)目是美國(guó)國(guó)會(huì)圖書(shū)館負(fù)責(zé)的。其目的是為有關(guān)Web信息的數(shù)字化、元數(shù)據(jù)、選擇和采集、長(zhǎng)期保存與獲取方面的實(shí)際問(wèn)題提供試驗(yàn),從而為美國(guó)國(guó)會(huì)圖書(shū)館運(yùn)行一個(gè)大規(guī)模的Web信息保存項(xiàng)目提供指導(dǎo)和經(jīng)驗(yàn)。以上介紹的屬于網(wǎng)絡(luò)信息資源存儲(chǔ)的初始起步的實(shí)驗(yàn)階段,主要目的都是為以后的項(xiàng)目提供各種借鑒經(jīng)驗(yàn)。從2000開(kāi)始到2005年時(shí)網(wǎng)絡(luò)信息資源存儲(chǔ)的實(shí)際應(yīng)用部署階段。該階段歐美各主要國(guó)家已經(jīng)開(kāi)始對(duì)網(wǎng)絡(luò)信息資源存儲(chǔ)高度重視,并已經(jīng)開(kāi)設(shè)從國(guó)家層面進(jìn)行思考和作戰(zhàn)略計(jì)劃。因此該階段具有以下幾個(gè)特點(diǎn):

(1)以國(guó)家或區(qū)域?yàn)閱挝坏膽?zhàn)略合作保存體系發(fā)展迅速

(2)網(wǎng)絡(luò)信息資源存儲(chǔ)項(xiàng)目研究的內(nèi)容和深度得到極大的擴(kuò)展

(3)國(guó)際機(jī)構(gòu)與會(huì)議更加關(guān)注網(wǎng)絡(luò)信息資源存儲(chǔ)

(4)網(wǎng)絡(luò)信息資源存儲(chǔ)系統(tǒng)越來(lái)越受到重視,其發(fā)展和應(yīng)用也越來(lái)越廣泛

2000年年美國(guó)國(guó)會(huì)圖書(shū)館提出了“國(guó)家數(shù)字信息基礎(chǔ)設(shè)施及保存計(jì)劃”,其中包括立即收集和保存可能瞬間即逝的Web數(shù)字信息。2001年挪威國(guó)家圖書(shū)館開(kāi)始實(shí)施Paradigma項(xiàng)目,英國(guó)國(guó)家圖書(shū)館啟動(dòng)試驗(yàn)性項(xiàng)目DomainUK。2002年第68屆IFLA理事會(huì)對(duì)以往國(guó)家層面網(wǎng)絡(luò)信息資源采集(如NWA)的經(jīng)驗(yàn)予以總結(jié),探討網(wǎng)絡(luò)信息資源保存的法律問(wèn)題。2003年六月,由來(lái)自多個(gè)國(guó)家的12個(gè)成員機(jī)構(gòu)組成的國(guó)家網(wǎng)絡(luò)保存聯(lián)盟正式成立。自2005年以后,網(wǎng)絡(luò)信息資源存儲(chǔ)技術(shù)進(jìn)入了長(zhǎng)遠(yuǎn)發(fā)展階段。在網(wǎng)絡(luò)信息資源存儲(chǔ)相關(guān)項(xiàng)目的實(shí)驗(yàn)研究、應(yīng)用部署發(fā)展的基礎(chǔ)上,相關(guān)的組織機(jī)構(gòu)相關(guān)的組織機(jī)構(gòu)、項(xiàng)目對(duì)如何更好的將Web資源呈現(xiàn)給用戶(hù),提供檢索服務(wù),并進(jìn)行相應(yīng)的數(shù)據(jù)挖掘以用于學(xué)術(shù)研究、追蹤動(dòng)態(tài)等網(wǎng)絡(luò)信息資源存儲(chǔ)長(zhǎng)遠(yuǎn)發(fā)展問(wèn)題更為關(guān)注。

二、網(wǎng)絡(luò)信息資源存儲(chǔ)發(fā)展現(xiàn)狀

(一)網(wǎng)絡(luò)信息資源存儲(chǔ)國(guó)際現(xiàn)狀

越來(lái)越多的國(guó)家和人力參與并投入到網(wǎng)絡(luò)信息資源存儲(chǔ)的活動(dòng)中來(lái)。關(guān)于網(wǎng)絡(luò)信息資源存儲(chǔ)的項(xiàng)目也越來(lái)越多,項(xiàng)目數(shù)量呈穩(wěn)定增長(zhǎng)趨勢(shì)。國(guó)際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)的機(jī)構(gòu)成員在2003年成立的時(shí)候只有12個(gè),到2009年3月已經(jīng)發(fā)展到38個(gè),它們主要分布在歐洲、北美洲、亞洲。2008年IIPC對(duì)其成員進(jìn)行問(wèn)卷調(diào)查顯示:該組織的成員50%是國(guó)家圖書(shū)館,10%是高校圖書(shū)館,8%是其他類(lèi)型圖書(shū)館,3%是國(guó)家檔案館,3%是內(nèi)容提供商,26%是研究機(jī)構(gòu)、政府組織等。由此可見(jiàn),圖書(shū)館特別是國(guó)家圖書(shū)館已經(jīng)成為WA活動(dòng)參與的主力,并擔(dān)任了重要的角色。網(wǎng)絡(luò)信息資源存儲(chǔ)仍然以實(shí)驗(yàn)和項(xiàng)目形式為主。在其發(fā)展初期,項(xiàng)目都是以小規(guī)模的Web資源采集的探索性實(shí)驗(yàn)為主,在積累了一定的經(jīng)驗(yàn)后開(kāi)始進(jìn)行實(shí)際的可行的部署和應(yīng)用,而目前很多國(guó)家和區(qū)域已經(jīng)建立戰(zhàn)略合成關(guān)系投資網(wǎng)絡(luò)信息資源保存體系。IIPC對(duì)38家成員館2008年的網(wǎng)絡(luò)信息資源存儲(chǔ)研究狀態(tài)分析顯示:以項(xiàng)目形式開(kāi)展研究的有6家(15%)、以實(shí)驗(yàn)形式開(kāi)展研究的有7家(18%)、可運(yùn)作但仍處于實(shí)驗(yàn)階段的有11家(29%)、完全投入應(yīng)用的有5家(15%)、商業(yè)應(yīng)用的有4家(10%)、其他形式的有5家(13%)。網(wǎng)絡(luò)信息資源的采集方式和策略呈多樣化發(fā)展,采集的內(nèi)容也越來(lái)越廣泛?,F(xiàn)有的Web資源的采集方式已經(jīng)有了很大的改變,已經(jīng)擺脫了曾經(jīng)的單一Web資源一次采集。現(xiàn)在的主要采集方式有Web資源二次采集、數(shù)據(jù)庫(kù)采集(深層網(wǎng)采集)和事務(wù)型采集等多種方式。采集策略也有了很大程度的豐富,現(xiàn)在的采集策略主要有混合策略、復(fù)雜域、大規(guī)模采集。采集內(nèi)容也覆蓋了人類(lèi)社會(huì)的方方面面,例如政治、經(jīng)濟(jì)、健康、藝術(shù)、人文等方面。網(wǎng)絡(luò)信息資源存儲(chǔ)的系統(tǒng)技術(shù)和標(biāo)準(zhǔn)框架已日趨成熟。

網(wǎng)絡(luò)信息資源存儲(chǔ)的系統(tǒng)技術(shù)中包括了攝取(Ingest)、存儲(chǔ)(Storage)、訪問(wèn)(Access)和索引與檢索(Index&Search)四大部分,并IIPC也圍繞其核心功能為其開(kāi)發(fā)了一套完整的工具。IIPC技術(shù)委員會(huì)下設(shè)的四個(gè)子委員會(huì)負(fù)責(zé)對(duì)WA的攝取、保存、訪問(wèn)、索引與檢索進(jìn)行深入的研究和實(shí)踐工作。除了技術(shù)以外,對(duì)WA其相關(guān)的標(biāo)準(zhǔn)規(guī)范也投入了許多的研究。目前所涉及的標(biāo)準(zhǔn)規(guī)范主要有:獲取階段的存檔資源標(biāo)識(shí)、統(tǒng)一資源命名等數(shù)據(jù)唯一標(biāo)識(shí),多任務(wù)并發(fā)管理協(xié)議(HIP)、蜘蛛?yún)f(xié)議(Robertprotocol);存儲(chǔ)階段的存檔文件格式、Web存檔文件格式,保存元數(shù)據(jù)實(shí)施策略、元數(shù)據(jù)編碼與傳輸標(biāo)準(zhǔn)(簡(jiǎn)稱(chēng)METS)等。此外WA領(lǐng)域中對(duì)于協(xié)作共享也非常的注重,WA在系統(tǒng)開(kāi)發(fā)的初始階段就十分關(guān)注系統(tǒng)的互操作,通過(guò)建立一個(gè)開(kāi)放的模塊化系統(tǒng)框架和進(jìn)行功能模塊化開(kāi)發(fā),實(shí)現(xiàn)系統(tǒng)的開(kāi)放性、協(xié)作性、互操作性。IIPC提出了WA系統(tǒng)體系框架并開(kāi)發(fā)了一系列的開(kāi)源軟件。WA系統(tǒng)和工具得到不斷的開(kāi)發(fā)與更新。且目前WA領(lǐng)域的大多數(shù)軟件都是開(kāi)源的,可以免費(fèi)下載使用?,F(xiàn)在在使用的工具主要有:PANDAS,澳大利亞PANDORA項(xiàng)目開(kāi)發(fā)的基于采集的數(shù)字化存檔系統(tǒng),為國(guó)內(nèi)參與合作的各個(gè)州立圖書(shū)館構(gòu)建了合作者分布式使用的功能;WAS,美國(guó)WebAtRisk項(xiàng)目構(gòu)建的基于Web的分布式倉(cāng)儲(chǔ)構(gòu)建、存儲(chǔ)和管理工具;Heritrix、Nutch2WAX、WERA,是有IIPC資助開(kāi)發(fā)的系列軟件;Wayback是目前WA領(lǐng)域使用率最高的訪問(wèn)工具;WCT是一種由NWA與IIPC合作開(kāi)發(fā)的應(yīng)用率較高的保存工具。此外還有其他的一些比較著名的工具。WA領(lǐng)域的工具、系統(tǒng)有趨同的發(fā)展趨勢(shì)。幾家具有較強(qiáng)技術(shù)實(shí)力的機(jī)構(gòu)開(kāi)始合作開(kāi)發(fā)和完善現(xiàn)有的軟件和工具。

目前,IIPC與合作機(jī)構(gòu)正在研發(fā)新一代智能爬蟲(chóng)(SmartCrawler)以提高爬蟲(chóng)自動(dòng)采集的效率。WA相關(guān)法律體制得到加強(qiáng)和完善。雖然目前有許多國(guó)家隊(duì)圖書(shū)等出版物制定了相關(guān)的法律法規(guī),有的國(guó)家也對(duì)相關(guān)的電子出版物有了明確的法律規(guī)定,但是都沒(méi)有明確的將Web信息資源納入到呈繳法。目前許多沒(méi)有制定Web資源呈繳法律的國(guó)家,也采取了各種方式積極的完善與WA相關(guān)的法律,例如版權(quán)聲明,這時(shí)目前使用較多的方式之一。此外還有采集前征求出版者許可、允許出版者提出剔除請(qǐng)求和混合型的解決方案。由于WA項(xiàng)目的投資數(shù)額巨大,相關(guān)的成本分析與風(fēng)險(xiǎn)管理已經(jīng)越來(lái)越受到重視。WA對(duì)存儲(chǔ)設(shè)備、技術(shù)等軟硬件的要求都很高,同時(shí)其花費(fèi)的時(shí)間周期也十分的長(zhǎng)。因此需要投入的資金也越來(lái)越多,且有逐年上升的趨勢(shì)。例如荷蘭國(guó)家圖書(shū)館2005年的資金投入接近于2004年的3倍,2006-2009的預(yù)算也明顯增加。為了使WA項(xiàng)目能夠獲得穩(wěn)定的資金,許多國(guó)家已經(jīng)將WA項(xiàng)目的資金納入了國(guó)家圖書(shū)館的業(yè)務(wù)開(kāi)支。為了能夠使WA的研究項(xiàng)目能夠順利的進(jìn)行,已經(jīng)開(kāi)設(shè)對(duì)其費(fèi)用成本及風(fēng)險(xiǎn)管理進(jìn)行研究。目前主要的是采用NASA用于研究太空、地球數(shù)據(jù)保存的費(fèi)用估計(jì)工具CET,但還沒(méi)有建立其特有的成本費(fèi)用模型。合作范圍越來(lái)越廣,合作機(jī)制也逐步得到加強(qiáng)。WA項(xiàng)目是一個(gè)綜合性的、龐大的項(xiàng)目,單靠某一個(gè)組織的力量是無(wú)法完成的。目前國(guó)際上的主要的WA項(xiàng)目都是由多個(gè)機(jī)構(gòu)合作完成的,合作已成為WA發(fā)展的趨勢(shì)。合作范圍也從國(guó)家內(nèi)部、組織間的合作發(fā)展到了地區(qū)合作,再到國(guó)際合作。從其合作機(jī)制來(lái)看主要分為:高度集中機(jī)制、責(zé)任平等機(jī)制、高度分散機(jī)制和獨(dú)立工作機(jī)制。

(二)國(guó)內(nèi)發(fā)展現(xiàn)狀

我國(guó)WA的研究始于20世紀(jì)末。對(duì)于WA比較系統(tǒng)的理論研究主要集中在中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館和少數(shù)其他單位。國(guó)家科學(xué)圖書(shū)館一直以來(lái)關(guān)注數(shù)字資源長(zhǎng)期保存的宏觀支撐機(jī)制和問(wèn)題框架的研究,目前正在進(jìn)行的國(guó)家社會(huì)科學(xué)基金項(xiàng)目“網(wǎng)絡(luò)信息資源保存的理論與方法研究”,對(duì)WA的理論、技術(shù)予以探索研究。國(guó)家圖書(shū)館和高校的一些研究人員對(duì)元數(shù)據(jù)方案、服務(wù)模式、WA面臨的問(wèn)題進(jìn)行了探討。國(guó)家圖書(shū)館“網(wǎng)絡(luò)信息采集與保存”試驗(yàn)項(xiàng)目(WICP)采集保存了自2003年以來(lái)“.cn”域名下的網(wǎng)站和所有中文(編碼)網(wǎng)站,積累Web數(shù)據(jù)達(dá)150G;對(duì)政府網(wǎng)站、電子報(bào)刊、國(guó)學(xué)的Web資源進(jìn)行鏡像存檔;選擇了2008北京奧運(yùn)、中國(guó)載人航天工程等專(zhuān)題進(jìn)行專(zhuān)題存檔,并對(duì)專(zhuān)題存檔的數(shù)據(jù)進(jìn)行質(zhì)量控制、數(shù)據(jù)挖掘。國(guó)家圖書(shū)館已經(jīng)成為IIPC的成員,并積極推動(dòng)和促進(jìn)Web資源呈繳法的起草,以解決WA長(zhǎng)遠(yuǎn)發(fā)展過(guò)程中的法律障礙。我國(guó)研究人員還積極參與國(guó)際交流,國(guó)家科技圖書(shū)文獻(xiàn)中心(NSTL)與國(guó)家科學(xué)圖書(shū)館于2004年、2007年兩次承辦“數(shù)字資源長(zhǎng)期保存國(guó)際會(huì)議”(iPRESS),為國(guó)內(nèi)保存領(lǐng)域的研究人員參與國(guó)際長(zhǎng)期保存合作,促進(jìn)長(zhǎng)期保存的可持續(xù)高水平發(fā)展提供了良好的機(jī)會(huì)

三、網(wǎng)絡(luò)信息資源存儲(chǔ)發(fā)展趨勢(shì)

網(wǎng)絡(luò)信息資源存儲(chǔ)發(fā)展趨勢(shì)主要有以下幾點(diǎn)。主題和內(nèi)容更加豐富。WA項(xiàng)目所涉及的內(nèi)容已經(jīng)基本覆蓋了各個(gè)領(lǐng)域,例如政治、社會(huì)文化、健康、藝術(shù)、人文等。WA采集的形式從傳統(tǒng)的靜態(tài)網(wǎng)頁(yè)的采集向多媒體動(dòng)態(tài)內(nèi)容的采集方向轉(zhuǎn)變,目前也有將Web2.0軟件形式納入采集的意向。但Web2.0資源的保存面臨保存責(zé)任者難以界定、隱蔽網(wǎng)采集難度、存儲(chǔ)難度等多方面的挑戰(zhàn),各種Web2.0的應(yīng)用模式又各自具備自身的特點(diǎn)及保存中需要考慮的問(wèn)題。WA的內(nèi)容管理日益受到重視。系統(tǒng)建設(shè)標(biāo)準(zhǔn)化和開(kāi)源化,WA項(xiàng)目在標(biāo)準(zhǔn)規(guī)范方面不斷改進(jìn),IIPC致力于WARC標(biāo)準(zhǔn)的推廣及ARC向WARC轉(zhuǎn)換工作,完善轉(zhuǎn)化框架和工具開(kāi)發(fā)。WA項(xiàng)目中所使用的采集、索引、訪問(wèn)工具基本都是開(kāi)源的,而且在提高開(kāi)源軟件的效率、性能、規(guī)范化方面還在不斷努力和探索。項(xiàng)目工作流程標(biāo)準(zhǔn)化、規(guī)范化,隨著WA十余年的發(fā)展,項(xiàng)目在工作流程規(guī)范化、提高工作效率方面的嘗試和探索越來(lái)越多,對(duì)WA的采集、法律問(wèn)題、編目、保存、訪問(wèn)等環(huán)節(jié)制定了詳細(xì)、規(guī)范的流程。

合作范圍更為廣泛。國(guó)際WA領(lǐng)域開(kāi)始構(gòu)建更大范圍的長(zhǎng)期保存網(wǎng)絡(luò)合作模式,共享WA系統(tǒng)和資源。利用分布式的系統(tǒng)和資源構(gòu)成網(wǎng)格和協(xié)作網(wǎng)絡(luò),構(gòu)建異地分布的WA合作框架,以促進(jìn)實(shí)踐中的資源共享、職責(zé)與費(fèi)用分?jǐn)傄约敖涣鞯?。其中比較典型的合作項(xiàng)目有NWA基于訪問(wèn)的合作機(jī)制、SDSC基于大規(guī)模存儲(chǔ)網(wǎng)格合作機(jī)制、PANDORA基于采集合作機(jī)制等。WA領(lǐng)域的合作范圍不斷擴(kuò)大,合作內(nèi)容不斷深化。利用分布式的系統(tǒng)和資源構(gòu)建網(wǎng)格和協(xié)作網(wǎng)絡(luò),共享WA系統(tǒng)和資源,促進(jìn)資源共享,實(shí)行職責(zé)與費(fèi)用分?jǐn)?。利用形式越?lái)越多種多樣。例如網(wǎng)站重現(xiàn)將WA存儲(chǔ)器中存儲(chǔ)的網(wǎng)站內(nèi)容以其原有的樣貌展現(xiàn)給用戶(hù),讓用戶(hù)感覺(jué)就像是在訪問(wèn)原始網(wǎng)站一樣;保存Web文獻(xiàn)參考鏈接信息。對(duì)搜索引擎結(jié)果進(jìn)行該進(jìn);分析Web技術(shù)演進(jìn)。