“大數(shù)據(jù)” 時(shí)代檔案信息安全管理新思考
繼聯(lián)合國(guó)推出“全球脈動(dòng)”項(xiàng)目,希望利用“大數(shù)據(jù)”促進(jìn)全球經(jīng)濟(jì)發(fā)展后,2012年3月,美國(guó)奧巴馬政府集合美國(guó)國(guó)防部、能源部、國(guó)家科學(xué)基金等六個(gè)聯(lián)邦部門和機(jī)構(gòu),宣布推出“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”。該計(jì)劃將“大數(shù)據(jù)”作為全球性發(fā)展戰(zhàn)略計(jì)劃,大力推動(dòng)及改善與大數(shù)據(jù)相關(guān)的采集、組織、分析、決策工具及技術(shù),并最終確立了“大數(shù)據(jù)”作為未來(lái)信息技術(shù)發(fā)展的核心地位。值得關(guān)注的是,美國(guó)政府在大數(shù)據(jù)計(jì)劃中特別提到了“國(guó)家檔案和文件署(NARA)”一項(xiàng)。我國(guó)的檔案界雖未提出具體規(guī)劃,但關(guān)注新技術(shù)、新方法,超前思考檔案工作的未來(lái)圖景一直是研究者和管理者的使命。檔案安全歷來(lái)就包括實(shí)體安全和信息安全。信息安全正迎來(lái)大數(shù)據(jù)時(shí)代和云計(jì)算環(huán)境的新風(fēng)險(xiǎn)和新挑戰(zhàn),這一新環(huán)境下的信息安全盡管與以往的信息安全有著歷史的邏輯承續(xù),但形成了一些新的特點(diǎn),其風(fēng)險(xiǎn)鏈、風(fēng)險(xiǎn)域和風(fēng)險(xiǎn)度都有了諸多新變化,呈現(xiàn)出隱蔽的關(guān)聯(lián)性、集群的風(fēng)險(xiǎn)性、泛在的模糊性、跨域的滲透性以及交叉的復(fù)雜性等特點(diǎn),需要加強(qiáng)研究。在深入研究之前區(qū)別一下相關(guān)概念:云計(jì)算是你在做的事,而大數(shù)據(jù)是你擁有的東西。大數(shù)據(jù)是在云計(jì)算基礎(chǔ)架構(gòu)之上的應(yīng)用形式。
1 檔案數(shù)據(jù)采集安全
檔案數(shù)據(jù)采集包括電子文檔的收集和紙質(zhì)檔案的數(shù)字化處理兩個(gè)部分。
1.1 電子文檔收集范圍擴(kuò)展、內(nèi)容即時(shí)
從某種意義上來(lái)說(shuō),“大數(shù)據(jù)”的一個(gè)重要理念就是掌握的數(shù)據(jù)量越大、內(nèi)容越豐富,從中推斷出的信息就越多。具體到檔案工作,無(wú)論是從檔案的憑證價(jià)值和情報(bào)價(jià)值,還是檔案的現(xiàn)實(shí)價(jià)值和長(zhǎng)遠(yuǎn)價(jià)值,抑或檔案的第一價(jià)值和第二價(jià)值來(lái)考慮,就電子文檔收集而言,可能需要重新思考?xì)w檔的范圍和形式。
大數(shù)據(jù)往往是唯一的樣本數(shù)據(jù)集。舉例而言,那些測(cè)量交通、行為、土壤酸堿、雨量、風(fēng)力等物理信號(hào)的監(jiān)控設(shè)備,或視頻監(jiān)控以及其他類型的器材所連續(xù)積累的時(shí)段性或?qū)崟r(shí)性的數(shù)據(jù),都單獨(dú)記錄著一個(gè)唯一的活動(dòng)片段,一旦數(shù)據(jù)丟失,這個(gè)片段就隨之永遠(yuǎn)消失了。從檔案收集的齊全、完整、真實(shí)、有效和數(shù)據(jù)安全考慮,這些數(shù)據(jù)文檔都應(yīng)該實(shí)時(shí)在線歸檔,并同時(shí)保存離線副本。另一個(gè)比較典型的案例就是美國(guó)政府的?聯(lián)邦政府Web2.0使用情況和檔案價(jià)值報(bào)告?。該報(bào)告中提到:在社交平臺(tái)上產(chǎn)生的信息,只要具有業(yè)務(wù)價(jià)值、證據(jù)價(jià)值和背景價(jià)值,就可以認(rèn)定為歸檔的文件。我國(guó)迄今為止雖對(duì)這類內(nèi)容無(wú)具體的歸檔規(guī)定,但根據(jù)大趨勢(shì)判斷,檔案館的收集范圍需要主動(dòng)擴(kuò)展。
1.2 紙質(zhì)檔案數(shù)字化過(guò)程和結(jié)果安全
紙質(zhì)檔案數(shù)字化的過(guò)程安全是指在檔案數(shù)字化過(guò)程中沒有發(fā)生危害檔案實(shí)體和信息安全的行為。因此,一系列的規(guī)章制度和規(guī)范的操作流程是必要的。首先,要考察數(shù)字化提供服務(wù)單位的資質(zhì)和信譽(yù)。其次,要建立完善的管理制度,例如:案卷不準(zhǔn)擅自帶離加工現(xiàn)場(chǎng),當(dāng)日數(shù)字化的案卷必須當(dāng)日歸庫(kù);案卷進(jìn)出庫(kù)有嚴(yán)格的交接、檢查手續(xù)等。最后,在數(shù)字化的過(guò)程中嚴(yán)格遵守國(guó)家標(biāo)準(zhǔn)?中華人民共和國(guó)行業(yè)標(biāo)準(zhǔn)(DA/T31-2005)紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范?,檔案的拆卷要以不破壞檔案裝訂原貌為基礎(chǔ),在掃描過(guò)程中保證案卷整潔并確保掃描圖像與原件一致。
紙質(zhì)檔案數(shù)字化的結(jié)果安全是指數(shù)字化后的檔案數(shù)據(jù)有效、可用。因此檔案數(shù)字化后必須經(jīng)過(guò)電子檔案質(zhì)量檢查這一環(huán)節(jié),這也是對(duì)檔案數(shù)字化結(jié)果安全性監(jiān)測(cè)的重要一步。主要包括三個(gè)過(guò)程或環(huán)節(jié):一是質(zhì)量抽查,對(duì)于不合格的數(shù)據(jù)要及時(shí)返工重掃;二是數(shù)據(jù)檢測(cè),主要內(nèi)容包括病毒檢測(cè)、運(yùn)行檢測(cè)和數(shù)據(jù)核對(duì)等三個(gè)方面;三是數(shù)據(jù)利用檢測(cè),主要是將全部數(shù)據(jù)直接掛接到檔案管理系統(tǒng)后,對(duì)外提供利用時(shí),是否出現(xiàn)錯(cuò)誤或者使用者發(fā)現(xiàn)的負(fù)責(zé)人進(jìn)行處理。
2 檔案信息管理系統(tǒng)安全
從上世紀(jì)90年代國(guó)內(nèi)最早的檔案管理軟件產(chǎn)生至今,已經(jīng)經(jīng)歷了近20年的發(fā)展。隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)字化檔案管理方式在分布形式上從最初的單機(jī)版(C/S 架構(gòu))、到網(wǎng)絡(luò)版(B/S架構(gòu))、直至發(fā)展到最新的面向服務(wù)的數(shù)據(jù)平臺(tái)(SOA 架構(gòu));在功能上則從單一的僅實(shí)現(xiàn)簡(jiǎn)單檔案管理的軟件、到檔案管理軟件與OA 系統(tǒng)整合的數(shù)據(jù)庫(kù)、再到現(xiàn)今的將數(shù)字化檔案管理方式滲透到整個(gè)工作流(workflow)的數(shù)據(jù)庫(kù)平臺(tái)。檔案大數(shù)據(jù)是在檔案方面涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的信息。因此,檔案信息管理系統(tǒng)的安全在很大程度上決定了檔案信息的安全。
2.1 數(shù)據(jù)支持平臺(tái)安全
前文提到的美國(guó)政府的大數(shù)據(jù)計(jì)劃中的“國(guó)家檔案和文件署(NARA)”,計(jì)劃為十億電子記錄(CI-BER)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施是一個(gè)聯(lián)合機(jī)構(gòu)主辦的測(cè)試平臺(tái),這個(gè)多機(jī)構(gòu)主辦的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,對(duì)國(guó)家檔案館87萬(wàn)多樣化的數(shù)字記錄的文件和信息的收集,可稱為計(jì)算研究所的文藝復(fù)興。這個(gè)試驗(yàn)臺(tái)將評(píng)估技術(shù)和方法,超大規(guī)模數(shù)據(jù)收集,以支持可持續(xù)的訪問(wèn)。
縱覽國(guó)內(nèi)外實(shí)踐,構(gòu)建檔案大數(shù)據(jù)平臺(tái)至少要實(shí)現(xiàn)四個(gè)層次的部署:一、云服務(wù)商提供全面、可視化的服務(wù),尤其是檔案大數(shù)據(jù)服務(wù)委托方有權(quán)分析基礎(chǔ)設(shè)施中發(fā)生的所有事項(xiàng);二、收集海量檔案數(shù)據(jù),并解決各個(gè)數(shù)據(jù)庫(kù)的兼容問(wèn)題;三、增強(qiáng)更快識(shí)別目標(biāo)、鎖定威脅來(lái)源和敵對(duì)事件的能力;四、基礎(chǔ)設(shè)施具有可擴(kuò)展性,可以執(zhí)行短期和長(zhǎng)期的分析。監(jiān)控管理、風(fēng)險(xiǎn)控制、規(guī)則遵從是對(duì)檔案云數(shù)據(jù)支持平臺(tái)的最基本要求。
2.2 數(shù)據(jù)計(jì)算環(huán)境安全
傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)不能有效地處理大數(shù)據(jù),一是因?yàn)檫@些系統(tǒng)的設(shè)計(jì)無(wú)法應(yīng)對(duì)現(xiàn)在的情況,現(xiàn)如今數(shù)據(jù)類型日益復(fù)雜,結(jié)構(gòu)化數(shù)據(jù)所占比例越來(lái)越低;二是由于它無(wú)法既迅速又比較經(jīng)濟(jì)地對(duì)系統(tǒng)進(jìn)行拓展。不僅是硬件程序設(shè)計(jì)環(huán)節(jié),從數(shù)據(jù)管理的角度看,由于少量的數(shù)據(jù)樣本容易進(jìn)行單獨(dú)的測(cè)試和監(jiān)控,檔案大數(shù)據(jù)計(jì)算平臺(tái)上存儲(chǔ)的數(shù)據(jù)首先要有詳細(xì)的類別劃分,其次才是存儲(chǔ)和計(jì)算。
檔案數(shù)據(jù)庫(kù)的數(shù)據(jù)分析完成后,是要將結(jié)果呈現(xiàn)給不同的人群使用的。針對(duì)同一條查詢指令,應(yīng)該讓不同角色的人群看到不同的結(jié)果信息,即查詢所反饋的結(jié)果是不一樣的:技術(shù)人員讀取有關(guān)系統(tǒng)和設(shè)置管理的數(shù)據(jù);檔案工作人員查看、操作與自身業(yè)務(wù)范圍相關(guān)的內(nèi)容;普通利用者可以得到經(jīng)審核公開的電子文本或目錄。大數(shù)據(jù)時(shí)代的檔案安全解決方案應(yīng)該包括足夠強(qiáng)大的、能夠針對(duì)不同層次的人群提供不同的展現(xiàn)界面和工具。
同時(shí),檔案大數(shù)據(jù)系統(tǒng)必須具有目錄整理、檔案采集、檔案審核、系統(tǒng)維護(hù)等功能,并利用現(xiàn)化代網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)多人多客戶端操作。
3 檔案提供利用安全
通常情況下,大數(shù)據(jù)實(shí)施的障礙來(lái)自文化而非技術(shù)。很多組織之所以沒能成功完成大數(shù)據(jù)項(xiàng)目,正是因?yàn)樗麄兾茨苷J(rèn)識(shí)到大數(shù)據(jù)對(duì)改進(jìn)其核心業(yè)務(wù)的作用。正如1893年立式文件柜的出現(xiàn)最終解決了紙質(zhì)文件的存儲(chǔ)和檢索的困難,檔案大數(shù)據(jù)必將對(duì)檔案信息的查找利用帶來(lái)顛覆性的變革:檔案大數(shù)據(jù)的核心不是擁有數(shù)據(jù),而是拿這些檔案數(shù)據(jù)去做了什么。
檔 案大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些有較高價(jià)值的飽含歷史意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。這種主動(dòng)提供利用的檔案信息不僅僅是提供原始的檔案信息,還應(yīng)該同時(shí)具有內(nèi)容分析、結(jié)果預(yù)測(cè)、輔助決策等功能。舉例來(lái)說(shuō),我們?cè)谫?gòu)物網(wǎng)站上的查詢、購(gòu)買內(nèi)容被記錄后,經(jīng)常可以收到商家的商品推薦;在搜索網(wǎng)站上的檢索歷史被記錄后,經(jīng)常會(huì)在該網(wǎng)站的界面看到相關(guān)的內(nèi)容推送。對(duì)于這些“智能顯示”,普通人往往有這樣一種認(rèn)識(shí):對(duì)有利于我的,會(huì)覺得大數(shù)據(jù)方便實(shí)用;對(duì)不利于我的,會(huì)疑問(wèn)是誰(shuí)在后臺(tái)收集了我的隱私。基于絕大多數(shù)人的行為是可以預(yù)測(cè)的,相似的產(chǎn)品和服務(wù)被推薦給我們,很多情況下是對(duì)的,但這是以真正個(gè)性化和“長(zhǎng)尾”喪失為代價(jià)的。截至2011年,各級(jí)國(guó)家檔案館館藏已達(dá)3.3億卷,到2020年,各級(jí)國(guó)家檔案館館藏案卷將達(dá)6億多卷。如此大量的檔案信息,如果檔案管理軟件在程序設(shè)計(jì)上能夠達(dá)到數(shù)據(jù)實(shí)時(shí)成功抓取,檔案利用服務(wù)的水平與今日相較必不可同日而語(yǔ)。
大數(shù)據(jù)時(shí)代的檔案信息安全是主動(dòng)地提供檔案數(shù)據(jù)安全保障,而不是等出現(xiàn)了無(wú)法挽回的損失再行補(bǔ)救。目前所有的相關(guān)研究都是基于這一目的的超前考慮,隨著科學(xué)技術(shù)的進(jìn)步及相關(guān)技術(shù)的發(fā)展,這些研究結(jié)果必將不斷修正才能更好地為實(shí)際工作服務(wù)。