前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)時代檔案信息安全管理思路范文,希望能給你帶來靈感和參考,敬請閱讀。
大數(shù)據(jù)與上世紀(jì)九十年代的互聯(lián)網(wǎng)技術(shù)一樣,一經(jīng)產(chǎn)生就迅猛發(fā)展,目前已深入影響世界各國的國家政策制定、科學(xué)研究發(fā)展,教育資源分享和國家安全管理等領(lǐng)域。繼聯(lián)合國推出“全球脈動”項目,希望利用“大數(shù)據(jù)”促進(jìn)全球經(jīng)濟(jì)發(fā)展后,2012年3月29日,美國奧巴馬政府集合美國國防部、能源部、國家科學(xué)基金等六個聯(lián)邦部門和機(jī)構(gòu),宣布推出“大數(shù)據(jù)的研究和發(fā)展計劃”。[1]該計劃將“大數(shù)據(jù)”作為全球性發(fā)展戰(zhàn)略計劃,大力推動與大數(shù)據(jù)相關(guān)的信息采集、組織、分析,改善輔助決策的工具與技術(shù),提出“通過收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,從中獲得知識和洞見,提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐,強(qiáng)化美國國土安全,轉(zhuǎn)變教育和學(xué)習(xí)模式,”并最終確立了“大數(shù)據(jù)”作為未來信息技術(shù)發(fā)展的核心地位。值得關(guān)注的是,美國政府的大數(shù)據(jù)計劃特別提到了美國國家檔案與文件署(NARA)。我國的檔案界目前雖未提出具體規(guī)劃,但關(guān)注新技術(shù)、新方法,超前思考檔案工作的未來圖景,一直是研究者和管理者的使命,且國家檔案局2014年審批的科技項目中也有關(guān)于大數(shù)據(jù)研究的內(nèi)容。[2]大數(shù)據(jù)技術(shù)橫跨數(shù)據(jù)存儲、虛擬化、云計算、數(shù)據(jù)庫管理、并行計算和數(shù)據(jù)挖掘等多個技術(shù)領(lǐng)域,在檔案管理中引入此概念必將帶來工作和科研的多樣化發(fā)展,同時對檔案信息安全管理亦提出了新的要求。檔案安全歷來就包括實體安全和信息安全,檔案信息安全正迎來大數(shù)據(jù)時代和云計算環(huán)境下的新風(fēng)險、新挑戰(zhàn)。新環(huán)境下的信息安全盡管與以往的信息安全有著歷史的邏輯承續(xù),但形成了一些新的特點,其風(fēng)險鏈、風(fēng)險域和風(fēng)險度都有了諸多新變化,呈現(xiàn)出隱蔽的關(guān)聯(lián)性、集群的風(fēng)險性、泛在的模糊性、跨域的滲透性以及交叉的復(fù)雜性等特點,需要加強(qiáng)研究。[3]在深入研究之前,需要厘清相關(guān)概念:云計算是你在做的事,而大數(shù)據(jù)是你擁有的東西。[4]一言以蔽之,大數(shù)據(jù)是在云計算基礎(chǔ)架構(gòu)之上的應(yīng)用形式。[5]由于大數(shù)據(jù)平臺基本上由基礎(chǔ)層、管理層、分析層和應(yīng)用層架構(gòu)而成,在檔案管理的工作實踐中,對數(shù)據(jù)庫的管理勢必對應(yīng)檔案信息的收集、管理、利用等方面?!按髷?shù)據(jù)”概念的引入,使檔案工作從內(nèi)容到范圍、形式都與固有觀念有所不同。
1檔案數(shù)據(jù)采集安全
檔案數(shù)據(jù)采集包括電子文檔的收集和紙質(zhì)檔案的數(shù)字化處理兩個部分。檔案數(shù)據(jù)采集安全在強(qiáng)調(diào)數(shù)據(jù)收集的齊全完整的同時,也要考慮由于重復(fù)收集產(chǎn)生的數(shù)據(jù)冗余問題。
1.1檔案數(shù)據(jù)收集范圍擴(kuò)展
從某種意義上來說,“大數(shù)據(jù)”的一個重要理念就是掌握的數(shù)據(jù)量越大、內(nèi)容越豐富,從中推斷出的信息就越多、結(jié)論就越有參考價值。具體到檔案工作,無論是從檔案的憑證價值和情報價值,還是檔案的現(xiàn)實價值和長遠(yuǎn)價值,抑或檔案的第一價值和第二價值來考慮,就檔案數(shù)據(jù)收集而言,可能需要重新思考收集的范圍和形式。大數(shù)據(jù)往往是唯一的樣本數(shù)據(jù)集。舉例而言,那些測量交通、土壤酸堿、雨量、風(fēng)力等物理信號的監(jiān)控設(shè)備,或視頻監(jiān)控以及其他類型的器材所連續(xù)積累的時段性或?qū)崟r性數(shù)據(jù),都單獨記錄著一個唯一的活動片段,一旦數(shù)據(jù)丟失,這個片段就隨之永遠(yuǎn)消失。[6]從檔案收集的齊全、完整、真實、有效和數(shù)據(jù)安全考慮,這些數(shù)據(jù)文檔都應(yīng)該實時在線歸檔,并同時保存離線副本。具體操作規(guī)范和標(biāo)準(zhǔn)可參考《電子文件管理暫行辦法》(中辦、國辦廳字〔2009〕39號)和《電子文件歸檔與管理規(guī)范》(標(biāo)準(zhǔn)號:GB/T18894-2002)。另一個比較典型的案例是美國政府的《聯(lián)邦政府Web2.0使用情況和檔案價值報告》,該報告中提到,在社交平臺上產(chǎn)生的信息,只要具有業(yè)務(wù)價值、證據(jù)價值和背景價值,就可以認(rèn)定為歸檔的文件。我國迄今為止雖對這類內(nèi)容無具體的歸檔規(guī)定,但根據(jù)大趨勢判斷,各級各類檔案館的收集范圍需要主動擴(kuò)展。檔案大數(shù)據(jù)也可以說是檔案的“全數(shù)據(jù)”。相對于其他領(lǐng)域的數(shù)據(jù)收集,檔案大數(shù)據(jù)更強(qiáng)調(diào)的是數(shù)據(jù)的“全”:收集業(yè)務(wù)范圍內(nèi)的所有檔案數(shù)據(jù)。一個基層檔案部門,只要收集了本機(jī)關(guān)、團(tuán)體、企事業(yè)單位的全部檔案數(shù)據(jù),即使數(shù)據(jù)總量不大,也可以稱之為大數(shù)據(jù)。因為在其后對這些數(shù)據(jù)進(jìn)行的分析,將采取“樣本=總體”的方法;凡采用這種分析方式的數(shù)據(jù)分析方法,就稱為大數(shù)據(jù)分析。當(dāng)一個機(jī)構(gòu)擁有全部或者幾乎全部的檔案數(shù)據(jù),就能從不同的“相關(guān)”關(guān)系而非“因果”關(guān)系中更細(xì)致地統(tǒng)計和研究數(shù)據(jù)的方方面面。因此,檔案大數(shù)據(jù)中的“大”不是絕對意義上的,而是相對意義上的“大”。與此同時,在具體工作中我們也發(fā)現(xiàn),在大數(shù)據(jù)環(huán)境下,原來按“單位”進(jìn)行的檔案收集會有相當(dāng)程度的冗余信息產(chǎn)生。例如,各級部門下發(fā)的紅頭文件,如果每個收文單位都作了歸檔,在今后可能建立的某種級別的云檔案數(shù)據(jù)庫中就存在相當(dāng)?shù)臄?shù)據(jù)冗余。[7]這時就可能需要在歸檔的源頭與具體規(guī)定這類文件的歸檔單位,其它收到此類文件的單位不需要歸檔,但在需要時有查詢和利用的權(quán)限。
1.2紙質(zhì)檔案數(shù)字化過程和結(jié)果安全
紙質(zhì)檔案數(shù)字化的過程安全是指在檔案數(shù)字化過程中沒有發(fā)生危害檔案實體和信息安全的事件或行為。因此,一系列的規(guī)章制度和規(guī)范的操作流程是必要的。首先,要考察數(shù)字化服務(wù)提供單位的資質(zhì)和信譽(yù)。其次,要建立完善的管理制度。例如,案卷不準(zhǔn)擅自帶離加工現(xiàn)場;當(dāng)日數(shù)字化的案卷必須當(dāng)日歸庫;案卷進(jìn)出庫有嚴(yán)格的交接、檢查手續(xù)等等。最后,在數(shù)字化的過程中嚴(yán)格遵守《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(標(biāo)準(zhǔn)號:DA/T31-2005),檔案的拆卷要以不破壞檔案裝訂原貌為基礎(chǔ),在掃描過程中保證案卷整潔并確保掃描圖像與原件一致。紙質(zhì)檔案數(shù)字化的結(jié)果安全是指數(shù)字化后的檔案數(shù)據(jù)有效、可用。因此,檔案數(shù)字化后必須經(jīng)過電子檔案質(zhì)量檢查這一環(huán)節(jié)。這也是對檔案數(shù)字化結(jié)果安全監(jiān)控的重要一步。主要包括三個過程或環(huán)節(jié):一是質(zhì)量抽查,對于不合格的數(shù)據(jù)要及時返工重掃。二是數(shù)據(jù)檢測,主要內(nèi)容包括病毒檢測、運(yùn)行檢測和數(shù)據(jù)核對等三個方面。三是數(shù)據(jù)利用檢測,主要是將全部數(shù)據(jù)直接掛接到檔案管理系統(tǒng)后,對外提供利用時,是否出現(xiàn)錯誤或者使用者發(fā)現(xiàn)的一系列問題。[8]為了保證數(shù)字化后檔案信息的長期有效可用,異地的多種載體備份存儲和數(shù)字信息定期可讀性抽查、復(fù)制備份等制度的建立也是必要的。
2檔案信息管理系統(tǒng)安全
從上世紀(jì)90年代國內(nèi)最早的檔案管理軟件產(chǎn)生至今,已經(jīng)經(jīng)歷了近20年的發(fā)展。隨著計算機(jī)及網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)字化檔案管理方式在分布形式上從最初的單機(jī)版(C/S架構(gòu))、到網(wǎng)絡(luò)版(B/S架構(gòu))、直至發(fā)展到最新的面向服務(wù)的數(shù)據(jù)平臺(SOA架構(gòu));在功能上則從單一的僅實現(xiàn)簡單檔案管理的軟件、到檔案管理軟件與OA系統(tǒng)整合的數(shù)據(jù)庫、再到現(xiàn)今的將數(shù)字化檔案管理方式滲透到整個工作流(workflow)的數(shù)據(jù)庫平臺。檔案大數(shù)據(jù)是在檔案方面涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的信息。[9]因此,檔案信息管理系統(tǒng)的安全在很大程度上決定了檔案信息的安全。
2.1數(shù)據(jù)支持平臺安全
美國政府大數(shù)據(jù)計劃中的國家檔案和文件署(NARA)計劃為十億電子記錄(CI-BER)建設(shè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施,這是一個聯(lián)合機(jī)構(gòu)主辦的測試平臺。這個多機(jī)構(gòu)主辦的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,對國家檔案館87萬多樣化的數(shù)字記錄文件和信息的收集,可稱為計算研究所的“文藝復(fù)興”。這個試驗臺將評估技術(shù)和方法,進(jìn)行超大規(guī)模數(shù)據(jù)收集,以支持可持續(xù)的訪問。[10]縱覽國內(nèi)外各行業(yè)大數(shù)據(jù)建設(shè)實踐,構(gòu)建檔案大數(shù)據(jù)平臺至少要實現(xiàn)四個層次的部署:一、云服務(wù)商提供全面、可視化的服務(wù),尤其是檔案大數(shù)據(jù)服務(wù)委托方有權(quán)隨時監(jiān)管、分析基礎(chǔ)設(shè)施中發(fā)生的所有事項;二、收集海量檔案數(shù)據(jù),并解決各個數(shù)據(jù)庫的兼容問題;三、數(shù)據(jù)庫有更快識別目標(biāo)、鎖定威脅來源和敵對事件的能力和相關(guān)設(shè)置;四、基礎(chǔ)設(shè)施具有可擴(kuò)展性,可以執(zhí)行短期和長期的分析。監(jiān)控管理、風(fēng)險控制、規(guī)則遵從是檔案云數(shù)據(jù)支持平臺確保安全的最基本要求。
2.2數(shù)據(jù)計算環(huán)境安全
傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)不能有效地處理大數(shù)據(jù)的原因在于,這些系統(tǒng)的設(shè)計無法應(yīng)對現(xiàn)如今結(jié)構(gòu)化數(shù)據(jù)所占比例越來越低,數(shù)據(jù)類型日益復(fù)雜的狀況,以及傳統(tǒng)的數(shù)據(jù)庫無法既迅速又比較經(jīng)濟(jì)地對系統(tǒng)進(jìn)行拓展。不僅是硬件程序的設(shè)計環(huán)節(jié),從數(shù)據(jù)管理的角度來看,少量的數(shù)據(jù)樣本容易進(jìn)行單獨的測試和監(jiān)控,而檔案大數(shù)據(jù)計算平臺上存儲的數(shù)據(jù)首先要有詳細(xì)的類別劃分,其次才是存儲和計算。檔案數(shù)據(jù)庫的數(shù)據(jù)分析完成后,是要將結(jié)果呈現(xiàn)給不同的人群使用的。針對同一條查詢指令,應(yīng)該讓不同角色的人群看到不同的結(jié)果信息,即查詢所反饋的結(jié)果應(yīng)該是不一樣的:技術(shù)人員讀取有關(guān)系統(tǒng)和設(shè)置管理的數(shù)據(jù);檔案工作人員查看、操作與自身業(yè)務(wù)范圍相關(guān)的內(nèi)容;普通利用者可以得到經(jīng)審核公開的電子文本或目錄。大數(shù)據(jù)時代的檔案安全解決方案應(yīng)該包括足夠強(qiáng)大的、能夠針對不同層次的人群提供不同的展現(xiàn)界面和工具。同時,檔案大數(shù)據(jù)系統(tǒng)必須具有目錄整理、檔案采集、檔案審核、系統(tǒng)維護(hù)等功能,并利用現(xiàn)化代網(wǎng)絡(luò)技術(shù),實現(xiàn)多人多客戶端操作。
3檔案數(shù)據(jù)提供利用安全
正如1893年立式文件柜的出現(xiàn)最終解決了紙質(zhì)文件的存儲和檢索的困難,檔案大數(shù)據(jù)必將對檔案信息的查找利用帶來顛覆性的變革:檔案收集保管的最終目的是為了方便利用;檔案大數(shù)據(jù)的核心不是擁有數(shù)據(jù),而是拿這些檔案數(shù)據(jù)去做什么。
3.1檔案數(shù)據(jù)比對分析
檔案大數(shù)據(jù)最直觀的應(yīng)用在于數(shù)據(jù)的比對分析。例如,在經(jīng)適房的申購過程中,如何才能快速有效地鑒別申購者的資格?用申購者提供的姓名、身份證號等相關(guān)信息比對在房地產(chǎn)交易、車輛管理、金融機(jī)構(gòu)等數(shù)據(jù)庫的相關(guān)信息,可以準(zhǔn)確掌握申購者的資產(chǎn)狀況,剔除不夠格的申請者。還有一個典型例子就是我國醫(yī)療檔案大數(shù)據(jù)建設(shè)的“3521工程”。該項目融合了我國絕大部分三甲醫(yī)院和部分二甲醫(yī)院的數(shù)據(jù)庫和影像文件的數(shù)字化信息系統(tǒng)以及電子健康檔案系統(tǒng),旨在通過數(shù)據(jù)自動匯總、統(tǒng)計分析,進(jìn)行慢性病、流行病的自動篩查、趨勢分析和爆發(fā)預(yù)警;同時系統(tǒng)還可以為新藥研發(fā)、新治療方案的設(shè)計等工作提供數(shù)據(jù)支持。檔案大數(shù)據(jù)提供利用在一定程度上來說只需要知道檔案大數(shù)據(jù)“是什么”,而不需要知道“為什么”。這種變化已經(jīng)遠(yuǎn)遠(yuǎn)突破了技術(shù)層面,將對人類認(rèn)知世界的方式方法產(chǎn)生重大影響。從檔案大數(shù)據(jù)進(jìn)行的對比分析,就是用檔案數(shù)據(jù)說話的最簡單直接證明。檔案工作的核心在“用”。利用者在檔案數(shù)據(jù)比對分析時,通過軌跡研判、信息關(guān)聯(lián)等方式,由已存的較全面的檔案信息,才能得出正確、合理的結(jié)論。在這種狀況下,可提供利用的數(shù)據(jù)資源的豐富,就代表了一定程度上的利用環(huán)境安全。
3.2檔案咨詢服務(wù)
檔案咨詢服務(wù)是網(wǎng)絡(luò)社會在海量檔案數(shù)據(jù)的收集、存儲和處理技術(shù)基礎(chǔ)上產(chǎn)生的一種具有前瞻性的判斷和預(yù)測能力。眾所周知,專家的價值往往在于因果推導(dǎo),而大數(shù)據(jù)卻放棄對因果關(guān)系的追尋,強(qiáng)調(diào)關(guān)注相關(guān)關(guān)系。也就是說,大數(shù)據(jù)在很多情況下只要求關(guān)注相關(guān)關(guān)系就足以產(chǎn)生正確的預(yù)測。當(dāng)檔案數(shù)據(jù)“大”到能對整個樣本空間進(jìn)行覆蓋時,就足以減弱對理論和模型的依賴。例如,不再需要經(jīng)歷“從特殊到一般(歸納法),再從一般到特殊(演繹法)”的傳統(tǒng)認(rèn)知過程,而是利用檔案大數(shù)據(jù)去直接實現(xiàn)“從特殊到特殊”的判斷和預(yù)測(這種直接的方式也被稱為轉(zhuǎn)導(dǎo),transduce)。換言之,此時的檔案數(shù)據(jù)本身便是模型,也即大數(shù)據(jù)可實現(xiàn)全體而非抽樣調(diào)查。檔案大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些有較高價值的飽含歷史意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。[11]這種主動提供利用的檔案信息不僅僅是提供原始的檔案信息,還應(yīng)該同時具有內(nèi)容分析、結(jié)果預(yù)測、輔助決策等功能。舉例來說,我們在購物網(wǎng)站上的查詢、購買內(nèi)容被記錄后,經(jīng)??梢允盏缴碳业纳唐吠扑];在搜索網(wǎng)站上的檢索歷史被記錄后,經(jīng)常會在該網(wǎng)站的界面看到相關(guān)的內(nèi)容推送。對于這些“智能顯示”,普通人往往有這樣一種認(rèn)識:對有利于己的,會覺得大數(shù)據(jù)方便實用;對不利于己的,會質(zhì)疑是誰在后臺收集了我的隱私?;诮^大多數(shù)人的行為是可以預(yù)測的,相似的產(chǎn)品和服務(wù)被推薦給我們,這在很多情況下是對的,但這是以真正個性化為代價的。[12]所以,檔案大數(shù)據(jù)在提供咨詢利用服務(wù)時,也可以參考某些購物平臺的設(shè)計,“購買此產(chǎn)品的人還購買了……”進(jìn)行相關(guān)檔案查詢信息的推薦。再舉個實例,對上海世博會期間的交通、人流、消費、生產(chǎn)等檔案數(shù)據(jù)進(jìn)行統(tǒng)計分析,不僅可以驗證當(dāng)時的管理措施在人流聚集時效果如何,還可以找出大型活動舉辦期間城市公共設(shè)施合理布局和有序運(yùn)營的參數(shù),對城市管理和規(guī)則出臺提供參考,甚至對可能發(fā)生的災(zāi)害進(jìn)行預(yù)警。截至2011年,我國各級國家檔案館館藏已達(dá)3.3億卷;到2020年,各級國家檔案館館藏案卷將達(dá)6億多卷。[13]如此大量的檔案信息,如果檔案管理軟件在程序設(shè)計上能夠達(dá)到數(shù)據(jù)實時成功抓取,檔案利用服務(wù)的水平與今日相較必不可同日而語。大數(shù)據(jù)時代檔案信息安全管理在于提供了一個確實存在的"概念+事實+關(guān)系"環(huán)境,通過計算運(yùn)行,對數(shù)據(jù)進(jìn)行邏輯推理,從而得出正確結(jié)論。大數(shù)據(jù)時代的檔案信息安全是主動地提供檔案數(shù)據(jù)安全保障,而不是等出現(xiàn)了無法挽回的損失再行補(bǔ)救。目前所有的相關(guān)研究都是基于這一目的的超前考慮。隨著科學(xué)技術(shù)的進(jìn)步及相關(guān)技術(shù)的發(fā)展,這些研究結(jié)果必將不斷修正,以更好地為實際工作服務(wù)。
作者:崔海莉 單位:上海師范大學(xué)檔案館