前言:想要寫出一篇引人入勝的文章?我們特意為您整理了高校檔案管理的策略研究范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:人工智能技術(shù)的發(fā)展給高校檔案管理的創(chuàng)新和變革提供了契機,高校檔案館要轉(zhuǎn)變思想,注重對檔案全流程、多維度、非結(jié)構(gòu)化數(shù)據(jù)的收集,構(gòu)建檔案大數(shù)據(jù)平臺,并依靠人工智能算法對大數(shù)據(jù)進行分析挖掘,以解決檔案管理中的各種創(chuàng)新難題,如智能推薦和咨詢服務(wù)、自動回答和編研匯總、主動服務(wù)和個性化服務(wù)等,提高檔案管理水平。但另一方面,人工智能技術(shù)對用戶隱私和檔案安全等可能造成一定的侵害,需要引起高校檔案工作者的重視。
關(guān)鍵詞:人工智能;高校檔案管理;大數(shù)據(jù);RFID;隱私;檔案安全
一、人工智能技術(shù)的基本概念
人工智能是指用一種新的能以人類智能相似的方式做出反應(yīng)的智能機器,它能夠自我學(xué)習(xí)和思考、判斷并作出決策[2]。不過計算機獲得智能的方式和人類不同,它不是依靠邏輯推理,而是靠著大數(shù)據(jù)和智能算法。因此人工智能的實質(zhì)是在大數(shù)據(jù)基礎(chǔ)上,通過深度學(xué)習(xí),將數(shù)據(jù)挖掘問題轉(zhuǎn)化為可計算問題來處理的過程。比如AlphaGo把下圍棋這個難題轉(zhuǎn)化為棋盤問題空間的表達和搜索問題,在學(xué)習(xí)數(shù)以萬計棋譜的基礎(chǔ)上,利用啟發(fā)式搜索算法,求得當(dāng)前的最優(yōu)解,并不斷迭代推演,最終戰(zhàn)勝人類圍棋世界冠軍[3]??梢?,人工智能并不神秘,并非遙不可攀,關(guān)鍵就在于數(shù)據(jù)的收集和算法的使用。而高校檔案館就是一個“數(shù)據(jù)密集型”部門,有大量的學(xué)籍、文書、科研、基建、人物等檔案數(shù)據(jù),可以充分利用人工智能技術(shù)對檔案資源和用戶數(shù)據(jù)進行挖掘,發(fā)現(xiàn)關(guān)系以及分析趨勢,提供更加主動及優(yōu)質(zhì)的檔案服務(wù)[4]。
二、人工智能技術(shù)在高校檔案管理中的應(yīng)用
人工智能技術(shù)在高校檔案管理中的應(yīng)用可以從思維、數(shù)據(jù)、技術(shù)等幾個方面來進行研究。
1.思維方面
人工智能不僅僅是一種技術(shù),更是一種思維方式的轉(zhuǎn)變。工業(yè)革命以來,人們已經(jīng)習(xí)慣了機械思維,相信所有問題都有一個通用的解決辦法,并在努力尋求事物間的因果關(guān)系。進入人工智能時代,人們開始接受世界的不確定性,學(xué)會利用信息或者數(shù)據(jù)來消除這種不確定性,又逐漸利用相關(guān)關(guān)系取代因果關(guān)系,以更快地獲得問題的近似解,如預(yù)測投票選舉結(jié)果和預(yù)測股市波動。受此思維影響,高校檔案工作者在指導(dǎo)各部門檔案收整時可以不預(yù)先設(shè)定目標,而是先把所有能夠收集到的本部門相關(guān)的檔案數(shù)據(jù)收集起來,運用“全部留”的方法破解檔案價值的不確定,檔案價值認定難的問題。因為在人工智能時代,數(shù)據(jù)或信息不再是包袱,而是財富[5],然后對這些檔案數(shù)據(jù)分析挖掘,能夠得到什么結(jié)論就是什么結(jié)論,用“數(shù)據(jù)說話”,盡量減少人工主觀的干預(yù)活動。另外針對檔案收整和利用的不確定性和易變性,可以引入外部信息,如歷年數(shù)據(jù)、收整和利用的關(guān)系,利用者需求的變化等數(shù)據(jù),以便對檔案管理作出合理預(yù)測和規(guī)劃。
2.數(shù)據(jù)方面
人工智能的基礎(chǔ)是大數(shù)據(jù)。近幾年大數(shù)據(jù)一詞經(jīng)常出現(xiàn)在媒體上,它的3V特性(體量大、多樣性、及時性)也逐漸被更多人所熟知和接受,但大數(shù)據(jù)更重要的含義其實是多維度和完備性。具體到高校檔案領(lǐng)域,檔案數(shù)據(jù)多維度是指在常規(guī)檔案顯性數(shù)據(jù)以外,包含其它隱性維度的數(shù)據(jù)。比如在教學(xué)檔案中,除學(xué)生姓名、成績、學(xué)號、專業(yè)等基本信息以外,還應(yīng)該收集整合學(xué)生的籍貫、出生年月、高考分數(shù)、高中學(xué)校、報考專業(yè)、獎懲明細、畢業(yè)學(xué)位信息、工作派遣單位等數(shù)據(jù),如果有可能還可以跟蹤補錄學(xué)生就業(yè)后的一些個人數(shù)據(jù)信息,以便從多角度分析數(shù)據(jù)間的相關(guān)關(guān)系,挖掘隱含信息。檔案數(shù)據(jù)的完備性是指包含檔案管理全流程的數(shù)據(jù)。比如在文書檔案中,除文件題名、責(zé)任者、歸檔時間等基本信息以外,還應(yīng)該收集文件生成時間、地點,文件流轉(zhuǎn)過程批注、修改、查閱人,檔案整理人姓名、職務(wù),檔案移交時間,檔案利用時間、人員姓名和單位,檔案利用方式等數(shù)據(jù),這些數(shù)據(jù)有助于打通從檔案生成到檔案利用之間的關(guān)系,使檔案生成單位能更好的把握歸檔內(nèi)容,及時獲得檔案利用者的反饋,調(diào)整歸檔策略,以提供更多利用者感興趣或需要的檔案。隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的發(fā)展,檔案大數(shù)據(jù)的收集越來越方便實時,把控每一個用戶,每一卷檔案和每一次檔案利用細節(jié)也將成為現(xiàn)實。檔案數(shù)據(jù)越來越豐富全面,檔案案卷實體正在成為流通渠道、數(shù)據(jù)收集途徑,這也為人工智能時代的檔案數(shù)據(jù)收集提供了一個新的來源。
3.技術(shù)方面
人工智能技術(shù)主要包括軟件和硬件兩方面內(nèi)容。軟件主要指各種數(shù)據(jù)挖掘算法,常用的有啟發(fā)式搜索算法、蒙特卡羅樹搜索算法、神經(jīng)網(wǎng)絡(luò)算法等,這些算法可以解決在實際檔案利用中如何有針對性地給用戶推薦檔案的問題。人工智能時代,人們追求檔案利用的時效性和個性化,各種檔案利用數(shù)據(jù)能夠被即時而完整地記錄下來。如檔案查詢關(guān)鍵詞、查詢時間、查詢結(jié)果點擊數(shù)、查詢者賬號信息、查詢者滿意度等,這些數(shù)據(jù)隨時可用,以便系統(tǒng)及時做出分析。而隨著算法的改進和提高,以往同類檔案用戶歸類的推薦方式,可以進一步變?yōu)橛蓹n案直接推薦檔案,由兩類檔案到兩件具體檔案的直接關(guān)聯(lián),一件檔案被利用時,自動推薦和其相關(guān)的檔案文件。隨著檔案利用數(shù)據(jù)的積累,尤其是和每一個用戶相關(guān)的各種維度數(shù)據(jù)的積累,推薦將越來越靠譜,越來越準確,最終做到因人而異,完全個性化。硬件方面則主要采用在檔案中插入RFID芯片和在檔案閱覽室安裝各種監(jiān)控攝像頭。RFID是一種不需要電源的芯片,里面存儲的信息可以被專門的閱讀器發(fā)出的無線電波探測出來[6]。這種芯片價格便宜,將它裝到各種物品上,就可以自動識別各種物品,進而跟蹤物品。在檔案管理中,RFID不僅可以記錄檔案生成期間的各種數(shù)據(jù)信息,還可以記錄檔案利用過程中的各種數(shù)據(jù)信息,檔案的每一次查詢、提取、翻閱、借出等全流程數(shù)據(jù)都能夠被完整收集保存,RFID中的數(shù)據(jù)記錄了檔案文件全生命周期的與檔案實體相關(guān)的數(shù)據(jù),堪稱檔案的“全息影像”。這些數(shù)據(jù)有助于檔案館對館藏檔案的布局、檔案的質(zhì)量有清晰的認識,有針對性地提供利用服務(wù)。而各種監(jiān)控攝像頭可以實時記錄檔案閱覽室的人員情況,查檔等待時間,服務(wù)利用時間,查檔次數(shù)等數(shù)據(jù),這些數(shù)據(jù)有助于檔案利用部門合理安排人員,簡化辦事流程,提高工作效率。
4.其他應(yīng)用方面
除了以上一些應(yīng)用,有了通過多種途徑收集的檔案多維度全流程大數(shù)據(jù),再利用各種數(shù)據(jù)挖掘算法,還可進一步實現(xiàn)人工智能時代檔案的智能化管理利用。在此另外舉幾個例子,拋磚引玉,希望未來高校檔案工作者能發(fā)掘出更多的檔案創(chuàng)新工作模式。(1)根據(jù)檔案利用者的反饋,系統(tǒng)自動向各歸檔單位推送其歸檔檔案的利用情況,并建議其加大某類檔案的歸檔力度,或者提醒其可適當(dāng)增加某類用戶可能更感興趣更需要的檔案等。(2)根據(jù)學(xué)生成績,通過橫向同學(xué)間比較和縱向歷史成績數(shù)據(jù)對比,并結(jié)合個人實際情況,智能推薦其更合適的畢業(yè)選擇,是讀研、出國還是工作。如果數(shù)據(jù)全面準確,甚至可以具體到讀研、出國的學(xué)校信息或者工作地點、工作單位等信息,推薦更精準。(3)對電子化的檔案圖像進行全文識別讀寫,自動分析其中的關(guān)鍵字,使計算機獲得“檔案知識”,并結(jié)合已有目錄數(shù)據(jù)庫,將整理后的信息推送給用戶,如可自動回答用戶提出的“學(xué)校最年輕正教授”、“學(xué)校某專業(yè)成績績點分布”、“學(xué)校各省市招生人數(shù)變化”等問題,提高查檔利用的全面性和滿意度。另外還可以利用計算機閱讀和分析檔案匯編成果,并從已有的大量文本語料中學(xué)習(xí)寫作,最終實現(xiàn)計算機自動編研檔案和撰寫檔案文章。(4)對各種檔案利用異常行為進行預(yù)警,及時提醒檔案利用單位重點關(guān)注某些利用行為或者利用者。先從檔案數(shù)據(jù)找到普遍規(guī)律,然后再應(yīng)用于每一個具體的用戶,并且影響到每一個具體的操作,以發(fā)現(xiàn)每一個異常情況。做到從個體到全體再從全體到個體的雙向流動。
三、人工智能對高校檔案管理的挑戰(zhàn)
人工智能對檔案創(chuàng)新變革提供技術(shù)支持的同時,也對用戶隱私和數(shù)據(jù)安全方面提出了新的挑戰(zhàn)。
1.用戶隱私安全
由于大數(shù)據(jù)具有多維度和全面性的特點,它可以從很多看似支離破碎的信息中完全復(fù)原一個人或者一個組織的全貌,并且了解到這個人工作生活的細節(jié)或者組織內(nèi)部的各種信息。這樣就會引發(fā)大家對個人隱私權(quán)的擔(dān)憂。比如要想推薦精準,對學(xué)生數(shù)據(jù)的收集就要更加全面多維度,在這個過程中必然會涉及對學(xué)生隱私的干預(yù)。要想對這些檔案大數(shù)據(jù)進行隱私保護,一種辦法是從收集信息的一開始就對數(shù)據(jù)進行一些預(yù)處理,將數(shù)據(jù)“脫敏”,比如去掉姓名、學(xué)號、身份證號等這些具有明顯個人屬性的數(shù)據(jù)。預(yù)處理后的數(shù)據(jù)保留了原來的特性,能夠進行分析利用,但卻“讀不懂”數(shù)據(jù)的內(nèi)容。第二種辦法是利用一定規(guī)則在檔案數(shù)據(jù)中添加“擾動”,通過數(shù)學(xué)的方法讓大數(shù)據(jù)依然有很強的可靠性,但是卻完全找不到每條數(shù)據(jù)對應(yīng)的來源,如蘋果公司的“差別隱私”技術(shù)。第三種辦法是雙向監(jiān)視,使數(shù)據(jù)從采集到使用都在雙方知情的情況下進行,使數(shù)據(jù)使用者受到監(jiān)督,提高檔案館對數(shù)據(jù)利用的自律意識,相比前兩者,這種方式可能更有效果。
2.數(shù)據(jù)存儲和數(shù)據(jù)安全
人工智能的核心是海量全面的數(shù)據(jù),因此數(shù)據(jù)存儲和數(shù)據(jù)安全是未來所面臨的最大挑戰(zhàn)。數(shù)據(jù)存儲。由于摩爾定律導(dǎo)致各種存儲器的容量成倍增加,同時價格迅速下降,使得更多的檔案數(shù)據(jù)有條件存起來以供使用。但是隨著數(shù)據(jù)量的劇增,查找和使用檔案數(shù)據(jù)的時間也會變得很長,影響分析數(shù)據(jù)的效率。而且即使采用并行計算,受制于算法和計算機,數(shù)據(jù)分析處理的效率也存在瓶頸,這些問題還需依靠技術(shù)的進步來解決。數(shù)據(jù)安全。檔案數(shù)據(jù)安全有兩層含義,首先是保證檔案數(shù)據(jù)不損壞、不丟失;第二層含義是要保證檔案數(shù)據(jù)不會被偷走或者盜用。為避免安全問題,要盡量將學(xué)生個人情況等敏感信息放到不同的地方,以免多種敏感數(shù)據(jù)同時丟失。另一種保護數(shù)據(jù)安全的方法則可以利用大數(shù)據(jù)本身的特點,即發(fā)現(xiàn)異常操作,比如某次某個賬號使用檔案系統(tǒng)的流程和正常不符,即可斷定這是一起檔案系統(tǒng)密碼泄露、系統(tǒng)入侵事件。另外,當(dāng)數(shù)據(jù)量足夠大時,每個系統(tǒng)用戶的操作習(xí)慣也可以學(xué)習(xí),不符合某人習(xí)慣的操作就可能是來自于非法的闖入者,這些操作就會被禁止。
四、總結(jié)
“檔案+人工智能”指日可待,而其特點,則是檔案的智能化和精細化,在這些變革中,具有智能的計算機將可以幫助我們完成相當(dāng)多的工作,甚至是絕大部分工作。人工智能時代,檔案管理將全部數(shù)據(jù)化,從檔案生成到檔案利用,全流程所有數(shù)據(jù)都將被記錄;檔案服務(wù)利用將全部無人化,用戶自助遠程查詢,而查詢結(jié)果不僅限于原始檔案文件,更有可能來自于計算機的智能整合推薦;檔案系統(tǒng)會根據(jù)不同用戶,自動定期推送精準的個性化內(nèi)容,深度挖掘檔案的人文內(nèi)涵;而檔案全文的數(shù)字化將對學(xué)校沿革和未來決策提供更多輔助信息。未來的人工智能時代是一個大數(shù)據(jù)的時代,而高校檔案館的定位則應(yīng)該作為一個數(shù)據(jù)集中平臺,以數(shù)據(jù)驅(qū)動解決各種問題,以相關(guān)性取代因果關(guān)系來快速迭代結(jié)果。另外各個檔案館要注重數(shù)據(jù)的共享共建,盡量采用標準化數(shù)據(jù),以提高數(shù)據(jù)整合效率。
作者:劉洋 單位:天津大學(xué)檔案館