前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)下的檔案管理數(shù)據(jù)化轉(zhuǎn)型范文,希望能給你帶來靈感和參考,敬請閱讀。
互聯(lián)網(wǎng)時代,大數(shù)據(jù)正在引領(lǐng)各領(lǐng)域和各行業(yè)的變革與轉(zhuǎn)型。被譽為“大數(shù)據(jù)之父”的美國數(shù)據(jù)科學家維克托•邁爾•舍恩伯格將大數(shù)據(jù)概括為“一場生活、工作與思維的大變革”。2014年3月,大數(shù)據(jù)被首次寫入政府工作報告;2015年8月,國務院《促進大數(shù)據(jù)發(fā)展行動綱要》;2015年10月,黨的十八屆五中全會正式提出“實施國家大數(shù)據(jù)戰(zhàn)略,推進數(shù)據(jù)資源開放共享”,這表明中國已將大數(shù)據(jù)視作戰(zhàn)略資源并上升為國家戰(zhàn)略。在大數(shù)據(jù)浪潮洶涌而至的時代,檔案部門應順勢而為,推進大數(shù)據(jù)時代檔案管理事業(yè)轉(zhuǎn)型升級。2019年4月,國家檔案局與財政部、國家稅務總局聯(lián)合開展電子發(fā)票電子化報銷、入賬、歸檔管理試點工作并確定了7家試點企業(yè),此次試點的成功意味著未來大量原生數(shù)據(jù)態(tài)的檔案資源將成為檔案部門的主要管理對象?!叭f物皆數(shù)”的思維潛移默化地使得過去以傳統(tǒng)載體形式存在的事物在未來將會以數(shù)據(jù)的形式存在,這也預示著未來檔案與數(shù)據(jù)之間的邊界會日益模糊。狹義來看,檔案管理數(shù)據(jù)化大致包括傳統(tǒng)紙質(zhì)檔案和電子檔案的數(shù)據(jù)化處理和原生數(shù)據(jù)態(tài)檔案管理。廣義來看,檔案管理數(shù)據(jù)化是檔案管理數(shù)字化的深化與升級,是未來檔案信息化建設(shè)的發(fā)展方向。檔案管理工作正在經(jīng)歷從數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)變,是對紙質(zhì)檔案數(shù)字化工作的推進,也是對檔案利用的深層次開發(fā),更是推動檔案服務升級的新契機。本文認為,大數(shù)據(jù)背景下檔案管理數(shù)據(jù)化的轉(zhuǎn)型主要體現(xiàn)在以下方面:
面向未來,大數(shù)據(jù)引領(lǐng)檔案管理數(shù)據(jù)化思維轉(zhuǎn)變
在檔案管理從數(shù)字化向數(shù)據(jù)化轉(zhuǎn)變的過程中,面臨管理對象變化帶來的諸多問題與挑戰(zhàn),思維創(chuàng)新是引領(lǐng)檔案管理數(shù)據(jù)化轉(zhuǎn)型的關(guān)鍵要素。檔案管理數(shù)據(jù)化思維轉(zhuǎn)變首先要理清檔案和數(shù)據(jù)的關(guān)系,大數(shù)據(jù)時代對于檔案的定義將進一步鞏固大檔案觀,檔案的內(nèi)涵和外延都將有所擴展。從大數(shù)據(jù)的視角看,檔案是蘊含豐富數(shù)據(jù)資源的寶庫,可以將檔案轉(zhuǎn)變成便于計算機處理的數(shù)據(jù),也可以將檔案變成用戶利用的數(shù)據(jù);數(shù)據(jù)也是檔案,數(shù)據(jù)承載著信息社會人類記錄的印記。面對紛繁復雜的數(shù)據(jù),檔案部門應加強數(shù)據(jù)歸檔意識,及時轉(zhuǎn)變傳統(tǒng)檔案思維,樹立以數(shù)據(jù)為導向的檔案思維,把握檔案管理數(shù)據(jù)化發(fā)展方向,并能夠積極應對檔案管理數(shù)據(jù)化帶來的一系列挑戰(zhàn)。舍恩伯格認為,大數(shù)據(jù)對人的思維變革主要體現(xiàn)在3個方面:開啟全數(shù)據(jù)模式、包容混雜性、注重相關(guān)關(guān)系。事實上,這些思維可以映射到檔案管理數(shù)據(jù)化的思維轉(zhuǎn)變。首先,樹立全數(shù)據(jù)思維有助于利用海量檔案數(shù)據(jù),這個利用是指從開發(fā)到使用檔案資源。當前,檔案數(shù)字化全文開發(fā)利用工作剛剛步入正軌。2020年6月,上海市檔案館數(shù)字檔案公共查閱平臺可實現(xiàn)在線查閱館藏開放檔案的案卷級目錄93萬余條并可以提出部分檔案原件的預約調(diào)檔申請,同時也可瀏覽2.3萬余件檔案及部分史料編研成果的數(shù)字化全文。然而,查詢數(shù)字化全文只到檔案文件級層面,尚未深入到檔案的內(nèi)容層面,因此,還未脫離將文件作為整體的管理思維。大數(shù)據(jù)技術(shù)不斷革新,海量檔案數(shù)據(jù)將形成龐大的檔案數(shù)據(jù)庫,檔案信息資源的開發(fā)利用將更加多元。其次,包容混雜性并不表明檔案數(shù)據(jù)的質(zhì)量和真實性會有所下降,而是意味著對于不同格式的檔案數(shù)據(jù)的兼容度的提高,紛繁復雜的檔案數(shù)據(jù)雖然對檔案管理工作形成了挑戰(zhàn),但不同格式的檔案數(shù)據(jù)卻能超越傳統(tǒng)檔案管理的思維局限,開啟縱觀檔案全貌的新視角。最后,注重相關(guān)關(guān)系可視為檔案管理數(shù)據(jù)822021•1化的最終目標,檔案數(shù)據(jù)化后可隨著粒度減小而變得分散,注重檔案數(shù)據(jù)間的相關(guān)關(guān)系是將零散的檔案數(shù)據(jù)通過關(guān)聯(lián)而進行聚合聯(lián)結(jié),不再僅僅以案卷和全宗為開發(fā)單位,而是在更細小的粒度層面挖掘出更廣泛的檔案利用價值。電子發(fā)票是踐行數(shù)據(jù)化思維的典型案例。電子發(fā)票應用的是類似于關(guān)系數(shù)據(jù)庫的文件結(jié)構(gòu),這類文件只需要定義其關(guān)鍵元數(shù)據(jù),定義好打印的版式,所有的發(fā)票元數(shù)據(jù)信息都以數(shù)據(jù)庫形式存儲和管理,用戶購買商品的發(fā)票數(shù)據(jù)自動寫入數(shù)據(jù)庫中,成為關(guān)系數(shù)據(jù)庫表文件中的一條數(shù)據(jù)記錄,當用戶需要下載并打印發(fā)票時,數(shù)據(jù)庫表中的這條數(shù)據(jù)記錄可以轉(zhuǎn)換為PDF或者JPG發(fā)票文檔。以京東集團為例,消費者購物后填寫單位名稱、手機號碼、郵件地址等電子發(fā)票相關(guān)信息,收貨確認后申請開具電子發(fā)票,經(jīng)過一系列上傳審核程序,電子發(fā)票服務平臺按電子發(fā)票機制和要求生成帶開票方簽章的電子發(fā)票及其版式文件,消費者可以自行下載。數(shù)據(jù)時代,很多電子文件的生成、存儲、保管、利用等生命周期內(nèi)的管理環(huán)節(jié)不適合再遵從數(shù)字時代的思維模式,而須在數(shù)據(jù)思維框架下重新構(gòu)建。數(shù)據(jù)的廣泛應用不僅改變了人們的記錄方式,更革新著人們看待世界的思維和視角。傳統(tǒng)檔案思維也需面向未來進行變革,即在重新審視檔案與數(shù)據(jù)關(guān)系的基礎(chǔ)上,樹立以數(shù)據(jù)為導向的檔案思維,站在數(shù)據(jù)管理視角思考檔案管理問題。思維先行是檔案部門應對大數(shù)據(jù)挑戰(zhàn)的首要準備。
面向發(fā)展,需求倒逼和現(xiàn)實瓶頸驅(qū)動檔案資源數(shù)據(jù)化
推動檔案管理數(shù)字化向數(shù)據(jù)化轉(zhuǎn)變的原因不僅僅是現(xiàn)代科技的迭代更新,更主要的原因是來自信息化時代檔案信息資源利用的現(xiàn)實瓶頸,即現(xiàn)有的數(shù)字化檔案資源已無法滿足檔案用戶的多元現(xiàn)實需求。我國檔案數(shù)字化工作方興未艾,雖擺脫了紙質(zhì)檔案遠程在線利用的困境,但還未實現(xiàn)計算機可讀、可理解的數(shù)據(jù)粒度(指數(shù)據(jù)倉庫中數(shù)據(jù)的細化和綜合程度。根據(jù)數(shù)據(jù)粒度細化標準,細化程度越高,粒度越??;細化程度越低,粒度越大)層級的管理與開發(fā),尤其研究型用戶全面多元的利用需求仍無法滿足。任越等學者在對黑龍江省地市級綜合檔案館進行深入調(diào)研的基礎(chǔ)上,總結(jié)出檔案信息資源開發(fā)利用過程中存在的數(shù)據(jù)化處理深度不夠、檔案機構(gòu)數(shù)據(jù)意識不強、檔案數(shù)據(jù)關(guān)聯(lián)度不高等現(xiàn)實問題。青島市檔案館副館長楊來青同樣立足于檔案工作實踐,提出針對檔案內(nèi)容的細粒度管理與開發(fā),即檔案“再信息化”戰(zhàn)略的重要內(nèi)容之一。利用需求和現(xiàn)有數(shù)字化檔案開發(fā)成果的不匹配促使檔案開發(fā)向數(shù)據(jù)層級轉(zhuǎn)向,這使得檔案管理數(shù)據(jù)化成了大數(shù)據(jù)時代檔案事業(yè)發(fā)展的新方向。檔案數(shù)據(jù)化的主要任務是檔案內(nèi)容的數(shù)據(jù)化,將檔案內(nèi)容智能地碎片化分解成計算機可讀可處理的數(shù)據(jù)形式,通過碎片化的數(shù)據(jù)與數(shù)據(jù)集合實現(xiàn)數(shù)據(jù)之間的關(guān)系建構(gòu)與重組,最后對檔案數(shù)據(jù)進行語義加工處理并進行可視化展示。檔案內(nèi)容數(shù)據(jù)化具體表現(xiàn)為:檔案管理層級的遞進、檔案開發(fā)粒度的細化、檔案內(nèi)容語義關(guān)聯(lián)的加強。首先,檔案管理從數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)變帶來最顯著的變化是檔案管理層級的遞進和檔案管理對象的轉(zhuǎn)變,即從傳統(tǒng)的管理文件到管理數(shù)據(jù),數(shù)據(jù)化處理后的檔案與原生數(shù)據(jù)態(tài)的電子檔案對傳統(tǒng)以“案卷”為管理單位的檔案管理系統(tǒng)形成了挑戰(zhàn)。其次,相比于傳統(tǒng)紙質(zhì)檔案與電子檔案的開發(fā),數(shù)據(jù)化后檔案資源的開發(fā)單位將從文件細化到內(nèi)容,將內(nèi)容語義化為數(shù)據(jù),檔案開發(fā)的顆粒度不斷細化,分散在海量文件中的檔案數(shù)據(jù)通過本體、語義分析等技術(shù),更大限度地實現(xiàn)檔案價值的深度開發(fā)。最后,檔案內(nèi)容數(shù)據(jù)化的最終目的是利用檔案數(shù)據(jù)實現(xiàn)海量檔案間跨文件、跨卷宗的相關(guān)內(nèi)容關(guān)聯(lián),利于用戶檢索并最終提供更優(yōu)更全的檔案服務。碎片化后的檔案數(shù)據(jù)需借助語義處理等技術(shù)對零散的檔案數(shù)據(jù)基于語義進行分類、合并,旨在突顯出檔案數(shù)據(jù)間的語義相關(guān)關(guān)系,進而在優(yōu)化檔案檢索結(jié)果的同時可以發(fā)掘隱含在檔案間的深層聯(lián)系。檔案內(nèi)容數(shù)據(jù)化可視為檔案管理數(shù)據(jù)化轉(zhuǎn)變的核心內(nèi)容,不僅是檔案部門在大數(shù)據(jù)時代立足實踐所作出的適應性戰(zhàn)略轉(zhuǎn)變,更是信息時代檔案用戶利用需求的倒逼和檔案部門突破工作瓶頸實現(xiàn)自我升級的完美契合點。目前,真正實現(xiàn)檔案內(nèi)容數(shù)據(jù)化的典型例子是各個國家或地區(qū)的數(shù)字人文項目,在數(shù)據(jù)化的基礎(chǔ)上,對檔案內(nèi)容文本進行分類、聚合、關(guān)聯(lián)等處理,利用GIS、VR、AR等技術(shù)展示檔案內(nèi)容。例如,1993年美國弗吉尼亞大學數(shù)字歷史研究中心啟動的以美國南北戰(zhàn)爭時期平民生活檔案為主題的“影谷項目”,將眾多平民在南北戰(zhàn)爭期間的信件、日記、報表、公告、報紙、演講稿等原始記錄進行數(shù)據(jù)化并加以展示,“影谷項目”的網(wǎng)頁所展示內(nèi)容都是檔案資源內(nèi)容數(shù)據(jù)化的成果。
面向用戶,數(shù)據(jù)賦能升級檔案服務多樣化
檔案管理數(shù)據(jù)化最終受益于檔案用戶,數(shù)據(jù)態(tài)的檔案資源、數(shù)據(jù)處理技術(shù)以及可視化技術(shù)等多方因素的碰撞都將使未來的檔案服務體驗迥然區(qū)別于傳統(tǒng)的檔案利用服務,數(shù)據(jù)是升級檔案服務的關(guān)鍵因素。第一,數(shù)據(jù)賦能檔案服務知識化。數(shù)據(jù)態(tài)的檔案資源為檔案服務知識化提供了源源不斷的原料和堅實的數(shù)據(jù)基礎(chǔ),檔案管理數(shù)據(jù)化則是推動這一發(fā)展的強大動力。近幾年,我國相關(guān)領(lǐng)域?qū)W者開始嘗試從理論層面探索歷史文獻等檔案資料的數(shù)據(jù)化工作。比如王開隊在借鑒CDBD和CHGIS技術(shù)思路的基礎(chǔ)上,將徽州族譜中人物和地理信息數(shù)據(jù)化。檔案服務知識化的實現(xiàn)需借助語義、本體、知識圖譜等技術(shù)對檔案內(nèi)容進行語義拆分、清洗、合并、可視化處理,最終呈現(xiàn)出豐富全面的檔案知識成果。隨著技術(shù)的不斷發(fā)展,檔案資源數(shù)據(jù)化程度也將不斷提升,檔案服務在滿足檔案用戶日常查閱需求的同時,必將在數(shù)據(jù)的驅(qū)動下不斷邁向知識化。第二,數(shù)據(jù)驅(qū)動檔案部門跨領(lǐng)域合作。在這個“數(shù)據(jù)為王”的時代,數(shù)據(jù)是組織間相互競爭的重要資源,但數(shù)據(jù)同樣也是實現(xiàn)不同組織機構(gòu)間戰(zhàn)略合作的基礎(chǔ)。2017年,《文化部“十三五”時期文化科技創(chuàng)新規(guī)劃》提出:“依托數(shù)字文化資源元數(shù)據(jù)倉儲建設(shè),匯集數(shù)據(jù)并進行組織與關(guān)聯(lián)。研究用戶數(shù)據(jù)采集標準,促進全國圖書館、博物館、文化館、美術(shù)館采集與共享用戶數(shù)據(jù)。與社會力量共同開發(fā)利用文化資源數(shù)據(jù),選擇優(yōu)質(zhì)社會數(shù)據(jù)與文化資源數(shù)據(jù)融合”。檔案部門保管著大量歷史文化資源,然而,此規(guī)劃并沒有明確提到檔案部門應如何參與其中,我國目前尚未有國家層面的檔案部門跨領(lǐng)域合作的戰(zhàn)略規(guī)劃,這說明我國檔案部門的跨領(lǐng)域合作還有很大的發(fā)展空間。在2020年新修訂的《中華人民共和國檔案法》中明確提出:“國家推進檔案信息資源共享服務平臺建設(shè),推動檔案數(shù)字資源跨區(qū)域、跨部門共享利用”。利用檔案數(shù)據(jù)促進檔案部門跨機構(gòu)、跨領(lǐng)域合作并通過不同領(lǐng)域海量數(shù)據(jù)的關(guān)聯(lián)聚合,積極借鑒國外圖檔博等領(lǐng)域合作聯(lián)盟的相關(guān)經(jīng)驗,持續(xù)推進與圖書館、博物館、美術(shù)館、文化館等文化遺產(chǎn)機構(gòu)間的合作并不斷擴充檔案數(shù)據(jù)資源庫,是檔案部門實現(xiàn)檔案資源信息化建設(shè)發(fā)展的必經(jīng)之路??梢灶A見的是,圖檔博等機構(gòu)間的數(shù)據(jù)共享以及數(shù)字人文項目等領(lǐng)域合作在新技術(shù)的支撐下將會給檔案用戶帶來更加立體化的利用體驗。第三,檔案用戶數(shù)據(jù)收集及利用優(yōu)化檔案服務。除了前文提到的檔案內(nèi)容數(shù)據(jù)化之外,以往不被留意的檔案用戶數(shù)據(jù)的收集與利用也是檔案管理數(shù)據(jù)化表現(xiàn)之一。在保護隱私和保障安全的前提下,借助用戶利用所產(chǎn)生的大數(shù)據(jù)可提供更個性化、更精準的檔案服務。檔案學界有學者提出,利用用戶個體所形成的“小數(shù)據(jù)”,實現(xiàn)檔案信息資源的精準化服務。換句話說,就是利用用戶個體形成的用戶習慣、資源需求等數(shù)據(jù)勾勒“用戶畫像”,實現(xiàn)檔案用戶的靶向服務,這與開發(fā)用戶利用所累積形成的大數(shù)據(jù)并不矛盾。檔案用戶個體所形成的“小數(shù)據(jù)”是形成檔案用戶大數(shù)據(jù)的數(shù)據(jù)基礎(chǔ),海量的檔案用戶數(shù)據(jù)有益于把握大多數(shù)用戶利用檔案的總體情況、檔案資源的利用率以及檔案用戶的滿意度及反饋等。對檔案用戶數(shù)據(jù)的利用,可采用“小數(shù)據(jù)”與大數(shù)據(jù)相結(jié)合的方式,在對檔案用戶利用情況有總體把握的前提下,進一步突出個性化服務??偟膩碚f,檔案管理從數(shù)字化到數(shù)據(jù)化的跨越是大數(shù)據(jù)時代檔案部門信息化發(fā)展的題中之義,檔案管理數(shù)據(jù)化也是在大數(shù)據(jù)時代檔案部門面向未來、面向自身發(fā)展以及面向用戶的重要發(fā)展戰(zhàn)略轉(zhuǎn)型。檔案管理數(shù)據(jù)化的未來不僅要實現(xiàn)檔案數(shù)字化到內(nèi)容數(shù)據(jù)化的知識組織轉(zhuǎn)型,更應實現(xiàn)數(shù)字資源從內(nèi)容數(shù)據(jù)化到數(shù)據(jù)智能化的價值開發(fā)和智慧洞見。隨著大數(shù)據(jù)的不斷發(fā)展,智能數(shù)據(jù)將會是未來影響檔案管理數(shù)據(jù)化的又一變革因素,隨著檔案管理數(shù)據(jù)化工作逐步推進,智能數(shù)據(jù)將會在海量檔案數(shù)據(jù)的基礎(chǔ)上完成原始數(shù)據(jù)積累,未來的檔案信息化建設(shè)將在數(shù)據(jù)化時代邁上新臺階。
作者:于英香 滕玉潔 單位:上海大學圖書情報檔案系