分類號:G271
引用格式:杜曉艷. 檔案信息化的大數據問題與解決對策探析[J/OL]. 知識管理論壇, 2017, 2(3): 244-249[引用日期]. http://www.kmf.ac.cn/p/1/123/.
1 引言
隨著信息時代的快速發展,檔案的信息化建設是大勢所趨。檔案信息化是檔案管理從傳統實體服務轉向數字化信息服務模式的轉變,通過數字化檔案信息資源和網絡化檔案的管理過程實現對檔案信息資源的合理管理和有效利用[1]。在大數據時代潮流下,大數據所具有的海量(Volume)、多樣(Variety)、高速(Velocity)、可用與可信(Veracity)即4V特性,已經體現到檔案信息化建設中,出現了“檔案大數據”的概念[2]及在大數據技術支持下對數字化檔案的深度挖掘策略[3]。然而,傳統的檔案管理系統難以動態擴展,越來越吃力[4],網絡化檔案的管理過程迫在眉睫。特別是數字化檔案信息資源本身日益成為繁重、冗長而效益低下的工作,數字化后的資源仍然存在“信息孤島”現象而得不到有效利用。傳統的管理與技術體系已經逐漸不能滿足要求,如何與大數據環境和技術接軌是檔案信息化面臨的挑戰與機遇。
2 檔案信息化研究現狀
國內關于檔案信息化的研究最早開始于20世紀90年代末,檔案信息化的研究源于社會信息時代的到來。隨著時代進步和研究的不斷深入,發表論文的數量呈逐年上升趨勢,檔案信息化逐漸成為檔案學術界的研究熱點。研究初期,學者們較多地關注檔案信息化的相關理論研究,研究范圍主要集中在檔案信息化的來源,檔案信息化與相關概念、相關工作之間的關系,檔案信息化建設的相關內容研究,檔案信息化過程中存在的問題及對策等方面。史麗萍[5]認為檔案館與社會信息化緊密相關,探討了檔案信息化的形成,并對未來發展趨勢進行分析。李治金[6]分析了檔案信息化與企業信息化之間的聯系,說明信息化對企業檔案事業發展的重要性。張銳[7]對檔案信息化理論體系建設的有利時機、建設現狀與存在問題,及完善檔案信息化理論體系建設的策略和措施進行了探討。丁立新[8]在分析我國檔案信息化發展的機遇與困惑基礎上,對檔案信息化工作模式、應用系統建設及其運行維護的發展方向進行了趨勢預測。王美琴[9]則基于我國檔案信息化建設基本現狀分析,指出檔案信息化過程中存在的主要問題,提出加快實施檔案信息化的措施。
隨著物聯網的出現和云計算、大數據等信息技術的興起,社會信息化水平越來越高,同時人們對檔案信息化的要求也逐漸提高。自2011年以來,國內掀起了大數據研究熱潮,研究文獻數量呈逐年上升趨勢,大數據和檔案信息化的結合也日漸緊密。我國學者圍繞大數據背景,展開了一系列針對檔案信息化的研究。張英奎[10]等分析了大數據時代企業檔案管理所面臨的主要問題,為使檔案管理模式更好契合時代發展,提出了相關策略。劉國華等[11]建議從服務觀念、檔案信息質量、檔案資源云平臺構建三個方面融入并強化大數據技術應用。
國內學者同時還關注大數據技術背景下我國高校檔案信息化發展與應用問題。陳晨[12]分析了高校圖書館的檔案大數據及信息化現狀,從軟硬件基礎設施、管理人員構成及其業務和安保意識、管理制度等方面提出了相應改進對策。目前國內檔案信息化研究發展迅速,已經覆蓋數字檔案管理、檔案信息服務、檔案數據挖掘等內容。但總體上講,我國檔案信息化研究還處于初步發展階段,更多地關注信息技術在檔案信息化過程中的應用,理論體系尚不完善;對大數據背景下檔案信息化所面臨的理論基礎和技術問題認知尚?,缺乏對檔案信息化技術的具體說明,研究范圍和領域有待拓展,研究層次有待進一步深化。
3 檔案信息化建設面臨的大數據問題
當前大數據技術的示范應用主要包括社交媒體數據分析、互聯網廣告、地理坐標及商務智能[13],主要應用于數據挖掘與決策層面。但從長遠看,以上領域會拓展到數據長期保存、信息系統管理等方面。任何新技術的應用都與社會環境密切相關,顯示著技術的社會性,并受到各種社會條件的制約和影響[14]。在檔案的信息化建設過程中,大數據技術應用在元數據與數字化檔案信息資源的存儲、可追溯、利用的時效性、知識服務的可用性等方面面臨一些問題。
3.1 數字檔案資源存儲問題
只有對所收藏的數字檔案資源進行可信的、長久保存的系統才能稱之為數字檔案館系統[15]。檔案的特性在于持續記錄不斷發展的歷史過程。因此,數字檔案資源的存儲是個永久的量增過程,需要不斷擴充存儲載體來支持這樣的增長。此外,任何材質的載體受到自然環境及技術進步的影響,都會逐漸喪失載體的功能,從而影響到所記錄的信息。實現永久保存就意味著按照一定的時間周期,對于需要永久保存的檔案資源定期進行數據遷移,以便對數據進行載體更新、技術更新、管理更新,使得信息資源能夠不斷保存下去,這是檔案實現可靠長期保存的基本要求。
數字檔案的數據由描述檔案實體內容的數據與描述數據的數據(元數據)兩大部分構成。檔案數據一般具有只讀特性。因此,數字檔案的著錄、標引、索引、目錄等元數據相對容易進行標準化。但是其實體數據的數據類型、格式、結構等會隨著技術革新不斷發生變化,其所承載的信息完整性與可靠性受到挑戰。對于數據量的規模增加可以通過不斷增加相應的軟硬件設備來應對,但量的規模到一定程度后有可能導致對數據的控制力下降甚至系統崩潰。大數據環境下,數據遷移是最難應對的考驗。盡管可以通過傳統關系數據庫的三級模式來維持遷移過程軟件的獨立性,但遷移的數據量會越來越大;遷移數據的數據結構及附載其上的信息含義越來越復雜;遷移的周期隨著技術革新節奏的加快,周期越來越短。傳統的數據庫模式已經不能有效應付遷移的復雜性,特別是現有的系統經過技術或管理革新重組后,數據的類型、結構、約束等都存在轉型問題。維護檔案的真實性和可靠性面臨著巨大挑戰。 3.2 數字檔案資源的可追溯問題
從縱向角度通過檔案能了解其反映出的基本語義、產生的背景、來源及原來制檔機關的目的,而且也能夠發現不同檔案資料存在的相關性,即檔案具有可追溯性。雖然檔案本身一般是按照一事一案以案卷、全宗等作為關聯的單位保存的,但是一因多果或一果多因在現實的社會環境中廣泛存在。所以對檔案的可追溯性并非局限在案卷內或全宗內,往往需要利用數字檔案的特點進行復雜的關聯查詢與分析利用。而且,隨著不同行業、專業領域之間的互相滲透,互相之間的相關性會越來越多,越來越復雜。此外,數字檔案全宗及案卷內往往存在文本、圖像、視頻等異類及同類但異構的數據,用戶的追溯需求也會越來越多元化。
由此使得數字檔案的可追溯性在不遠的將來日益成為一項艱巨的任務。即使數字化的信息系統在理論與實踐方面能夠在邏輯上實現這樣的復雜關聯,但是所導致的時間與空間復雜度會使成本巨大。此外,數字檔案由于對各層次軟硬件環境及原始檔案管理制度的依賴,需要大量的元數據來描述,而元數據與檔案內容之間雖然存在邏輯關聯,但是在物理上常是獨立的,這種關聯往往隨著技術環境的變化表現為一定的脆弱性。傳統意義上的量或規模已經不再是衡量復雜性的第一要素,復雜關聯與聚集引發的數據復雜性遠遠超過規模的復雜性效應[16]。可追溯性是數字檔案長期保存的可用性基本要求,日益復雜的關聯性與高效、可用及可信是矛盾統一體,也是大數據環境下必須面對的問題。
3.3 數字檔案利用的時效性問題
在一般性事務查詢利用方面,對于以關系模型存儲的檔案元數據,標準SQL查詢的結果與響應時間(時間復雜度)受到數據量與關聯數的限制,理論與實踐上不可能無限制擴大。如果數據庫中包含了圖像、大文本、視頻等大二進制字段,檢索效率更會大打折扣。此外,為了加強對數字化檔案的利用,會在原始分類的基礎上要求有更多的邏輯分類,以便于進行關聯分析。由此,在檢索過程中,會造成數據庫之間、數據表之間復雜的、大數據量的關聯運算。另外,現有的數字檔案系統一般均要求支持全文查詢,現有技術針對全文查詢一般是建立在對相關文件窮舉式掃描基礎上的,在具體文件不確定的情況下,如果涉及到跨庫、跨文件查詢,在EB級數據量下,這幾乎是不可能實現的。
因此,一般的解決的方法就是縱向不斷增加層級及橫向采用更廣泛的分布系統,但不會解決時間復雜度越來越大、系統熵越來越大的根本問題。
3.4 數字檔案知識服務的可用性問題
在對信息資源進行分析或進行知識發現研究時,首先要求信息資源能夠按照知識發現主題的需要建立多維度分析模型,建立各種復雜關聯。現有的數字化檔案體系一般是傳統紙制檔案的數字化轉換。受制于其傳統載體及立檔單位,其數字化副本在物理與邏輯結構上都存在小集中、大分散的現象。小集中指的是檔案的保存邏輯上體現的立檔單位一般以全宗?櫚ノ唬?事由以案卷為單位,關聯方式一是通過文件物理存儲的集中性來體現,另外通過大量的元數據描述在邏輯結構上體現;大分散指的是不同地域、不同機構之間的數字檔案資料缺乏關聯,形成一定規模的信息孤島。雖然有利于保證檔案案卷的整體性及體現原來制檔機構的目的,但是不利于按照一定分類主題形成大規模的數據集市或數據倉庫。數據挖掘形成的語義關聯或知識圖譜可信程度大打折扣。檢索查詢及查詢后基于批處理的分析計算在數據量及非結構化達到一定程度后,很難保證其可用性,更不能保證其高效性。
此外,檔案信息化還面臨著元數據與數據結構問題。現有的元數據主要存在于關系數據庫中,關系結構以行記錄為單位,而大數據技術環境下的數據庫往往是以列為單位,這樣就需要對原有的元數據結構進行重新設計,也就是現有的元數據結構也需要發生相應的變化。大數據技術應用面臨著與原有系統沖突的問題。
另一方面,大數據技術應用還存在對關聯粒度及層次結構制約的問題。在實際應用中,數字檔案之間的邏輯關系相對具有較多的層次結構。除了檔案實體文件內部的相關性外,還存在案卷與案卷之間的聯系,同一案卷中 “件”與 “件”之間的聯系,不同級別的檔案管理聯系。這些關聯具有一定的“立體”特征。但在現有的大數據技術環境下,由于數據結構相對簡單,重在對異構、海量數據的“平面”關聯分析,因此,如何將數字檔案的數據結構重新組織,在不破壞其固有的立體聯系情況下,實現高效率的大數據分析將是極大的挑戰。
4 檔案信息化建設中大數據問題的解決對策
4.1 加強數字檔案資源存儲
檔案數字化是借助計算機網絡技術和多媒體技術發展而產生的一種新型檔案信息形態,將各種傳統載體的館藏檔案資源轉化為數字化檔案信息,以數字化形式存儲、網絡化形式傳輸并利用計算機系統進行管理,進而實現檔案信息的快捷利用與共享[17]。數字檔案數據在保存中需要按照時間序列或事由進行分類與關聯,追求的目標是將存儲管理由載體控制轉化為軟件控制。傳統的模式對數據的結構、操作及約束有一定的范式要求,采用轉儲方式或基于分布式數據庫系統的模式。通過中心管理服務器將分布在不同節點數據庫中的數據實現邏輯上的統一管理,存儲的方法一般是將結構化的關系模型作為元數據信息存儲的數據結構,以此來關聯實體檔案。關系型數據庫雖然能夠實現比較復雜的關聯,但對數據量非常敏感,具有較大的時間與空間復雜度。在檔案信息化建設過程中,利用大數據存儲技術加強數字檔案信息資源存儲,如通過GFS(Google Files System)、HDFS(Hadoop Files System)等分布式文件存儲系統,能夠處理非結構化數據并實現關聯,自動建立基本的索引元數據,適合半結構化數字檔案信息資源的存儲與處理。
4.2 維護檔案靜態特征及遷移過程的可靠性
原始記錄性是檔案的本質屬性之一,客觀上要求其所依賴的軟硬件環境、依附的載體及其語義能夠維護其所記錄信息的原始性、真實性、可靠性等靜態特征,同時要求隨著信息技術的發展能夠實現一致性的數據遷移,從而保證檔案信息的可追溯性。 大數據分布式文件存儲系統能夠將文件或文件夾中的對象直接轉化為二進制數據序列,忽視其中的具體格式或結構,對各種形式存在的檔案資源在底層實現智能化存儲與處理,在更高的層次上再進行利用分析;此外,大數據技術更適應對大文件的處理,如HDFS文件系統,可將要存儲的非結構化數據按照統一二進制大小(64M)進行分片、多點備份、并行處理,形成一系列的(key,value)鍵值對,然后按照鍵進行歸并,對相同鍵的值進行結果匯總與合并。這也符合檔案文件的組織特點(以“件”或“卷”組織成復合文件)。由此能夠很地維持檔案資源存儲與利用過程中的完整性、可靠性,實現檔案數據變換、整合及利用的智能化,可以針對檔案案卷的組織特性,將其以復合文件或文件類集合的模式進行多種形式的組織,然后按照全宗建立群節點,從而簡化數字檔案文件存儲管理的層次級別。
4.3 維護數字檔案的時效性和可用性
大數據技術可以通過弱化關系降低數據模型的復雜性,統一電子文件的物理與邏輯集成(集成指在文檔管理范疇內,將電子文件及其內容信息、結構信息、背景信息采用一定標準、規范和編碼進行融合[18])。分布式鍵值對的存儲系統能夠實現面向列的、可伸縮的數據存儲模式,將不同類型、不同結構的海量數據按照列簇存儲到同一文件中并實現性能良好的隨機訪問,使數字檔案按照事由進行物理封裝成為可能。相應地也可以使內容信息、結構信息、背景信息具有邏輯與物理上的統一標識與封裝。此外,存儲的結構支持多維特性,能夠在結構上實現動態改變,可以在不影響原有數字檔案內容及結構的前提下,實現行、列、時間戳的動態擴展,由此可以實現數字檔案內容的動態擴展。自動生成索引的機制可將非結構化的數字檔案實現半結構化,實現更緊密的結合,進一步維持數字檔案在長期保存過程中的完整性。如果能夠與現有系統中數字檔案的標準元數據進行關聯,共同實現對檔案內容信息的索引及描述,會極大增強數字檔案的可用性。
檔案一旦形成后在內容上就不能再修改,大數據技術對數據修改的敏感或不支持并不影響檔案的長期保存,反而成了檔案長期存儲的一種優勢。首先是大數據技術所支持的文件系統通過不斷增加硬盤數量實現容量的智能化增長,存儲采用集群架構的管理與多重備份并基于智能化容錯,讀寫模式采用基于二進制的分塊、并行處理、合并的方式,而且所使用的文件系統一般不限制文件大小及格式。因此,在構建數字檔案存儲系統時,無論從邏輯上還是物理上都能夠有效維護檔案資源的原始記錄性特征。
4.4 實現檔案信息的關聯性分析及知識發現
數字檔案的存儲在數據結構上大都具有半結構化特性。一方面由于檔案數量與種類的多元導致的海量、異構等非結構化特征;另一方面數字檔案一般都有結構化、標準化的元數據描述及電子標引等元素。因此,隨著數字檔案資源的不斷增加,完全?Y構化或完全非結構化的資源形態均不多見。將結構化元數據與非結構化的檔案實體描述數據按照一定的模式關聯成半結構化模式,日漸成為數字檔案資源組織的基本模式。大數據技術環境可以提供基于鍵值對的分布式存儲與處理,能夠在海量、異構數據中自動尋找出文字間的語義主題,有利于面向領域對本體的主題知識構建。此外,面向列的、可伸縮的半結構化數據庫存儲模式,如基于HDFS的Habse數據庫管理系統,能夠在行、列、時間維實現動態擴展,通過行關鍵字、列簇、列關鍵字、時間戳形成多維表。一方面能夠實現復雜的半結構化與非結構化數據之間的關聯,另一方面也有利于形成領域、論域、主題三個知識關聯層次。由此,為異源、異構的數字檔案進行數據挖掘與知識發現提供了基本的技術支持。
5 結束語
盡管檔案信息化工作所面臨的大數據問題突出,相關的研究重點主要聚焦在檔案所具有的大數據特征及相關的管理與利用宏觀策略方面[19],但大數據技術所具有的分布式、云計算、智能化特征,及對海量、異構數據處理所具有的優勢與數字檔案管理的現實需求具有一定的吻合度。與此同時,對大數據及其相關技術應用于數字檔案管理的深層次問題需要進一步理解與把握,例如大數據技術如何為檔案存儲、遷移及跨部門與平臺的知識發現提供支持,以及應用于數字檔案管理所需要面對的信息系統重構、信息及數據轉換層次劃分問題等。大數據技術及其生態環境是信息技術發展的必然趨勢,促進著通常的數字檔案以及包括數字圖書資源等泛化“數字檔案”相關管理理論與技術的快速發展[20]。
引用格式:杜曉艷. 檔案信息化的大數據問題與解決對策探析[J/OL]. 知識管理論壇, 2017, 2(3): 244-249[引用日期]. http://www.kmf.ac.cn/p/1/123/.
1 引言
隨著信息時代的快速發展,檔案的信息化建設是大勢所趨。檔案信息化是檔案管理從傳統實體服務轉向數字化信息服務模式的轉變,通過數字化檔案信息資源和網絡化檔案的管理過程實現對檔案信息資源的合理管理和有效利用[1]。在大數據時代潮流下,大數據所具有的海量(Volume)、多樣(Variety)、高速(Velocity)、可用與可信(Veracity)即4V特性,已經體現到檔案信息化建設中,出現了“檔案大數據”的概念[2]及在大數據技術支持下對數字化檔案的深度挖掘策略[3]。然而,傳統的檔案管理系統難以動態擴展,越來越吃力[4],網絡化檔案的管理過程迫在眉睫。特別是數字化檔案信息資源本身日益成為繁重、冗長而效益低下的工作,數字化后的資源仍然存在“信息孤島”現象而得不到有效利用。傳統的管理與技術體系已經逐漸不能滿足要求,如何與大數據環境和技術接軌是檔案信息化面臨的挑戰與機遇。
2 檔案信息化研究現狀
國內關于檔案信息化的研究最早開始于20世紀90年代末,檔案信息化的研究源于社會信息時代的到來。隨著時代進步和研究的不斷深入,發表論文的數量呈逐年上升趨勢,檔案信息化逐漸成為檔案學術界的研究熱點。研究初期,學者們較多地關注檔案信息化的相關理論研究,研究范圍主要集中在檔案信息化的來源,檔案信息化與相關概念、相關工作之間的關系,檔案信息化建設的相關內容研究,檔案信息化過程中存在的問題及對策等方面。史麗萍[5]認為檔案館與社會信息化緊密相關,探討了檔案信息化的形成,并對未來發展趨勢進行分析。李治金[6]分析了檔案信息化與企業信息化之間的聯系,說明信息化對企業檔案事業發展的重要性。張銳[7]對檔案信息化理論體系建設的有利時機、建設現狀與存在問題,及完善檔案信息化理論體系建設的策略和措施進行了探討。丁立新[8]在分析我國檔案信息化發展的機遇與困惑基礎上,對檔案信息化工作模式、應用系統建設及其運行維護的發展方向進行了趨勢預測。王美琴[9]則基于我國檔案信息化建設基本現狀分析,指出檔案信息化過程中存在的主要問題,提出加快實施檔案信息化的措施。
隨著物聯網的出現和云計算、大數據等信息技術的興起,社會信息化水平越來越高,同時人們對檔案信息化的要求也逐漸提高。自2011年以來,國內掀起了大數據研究熱潮,研究文獻數量呈逐年上升趨勢,大數據和檔案信息化的結合也日漸緊密。我國學者圍繞大數據背景,展開了一系列針對檔案信息化的研究。張英奎[10]等分析了大數據時代企業檔案管理所面臨的主要問題,為使檔案管理模式更好契合時代發展,提出了相關策略。劉國華等[11]建議從服務觀念、檔案信息質量、檔案資源云平臺構建三個方面融入并強化大數據技術應用。
國內學者同時還關注大數據技術背景下我國高校檔案信息化發展與應用問題。陳晨[12]分析了高校圖書館的檔案大數據及信息化現狀,從軟硬件基礎設施、管理人員構成及其業務和安保意識、管理制度等方面提出了相應改進對策。目前國內檔案信息化研究發展迅速,已經覆蓋數字檔案管理、檔案信息服務、檔案數據挖掘等內容。但總體上講,我國檔案信息化研究還處于初步發展階段,更多地關注信息技術在檔案信息化過程中的應用,理論體系尚不完善;對大數據背景下檔案信息化所面臨的理論基礎和技術問題認知尚?,缺乏對檔案信息化技術的具體說明,研究范圍和領域有待拓展,研究層次有待進一步深化。
3 檔案信息化建設面臨的大數據問題
當前大數據技術的示范應用主要包括社交媒體數據分析、互聯網廣告、地理坐標及商務智能[13],主要應用于數據挖掘與決策層面。但從長遠看,以上領域會拓展到數據長期保存、信息系統管理等方面。任何新技術的應用都與社會環境密切相關,顯示著技術的社會性,并受到各種社會條件的制約和影響[14]。在檔案的信息化建設過程中,大數據技術應用在元數據與數字化檔案信息資源的存儲、可追溯、利用的時效性、知識服務的可用性等方面面臨一些問題。
3.1 數字檔案資源存儲問題
只有對所收藏的數字檔案資源進行可信的、長久保存的系統才能稱之為數字檔案館系統[15]。檔案的特性在于持續記錄不斷發展的歷史過程。因此,數字檔案資源的存儲是個永久的量增過程,需要不斷擴充存儲載體來支持這樣的增長。此外,任何材質的載體受到自然環境及技術進步的影響,都會逐漸喪失載體的功能,從而影響到所記錄的信息。實現永久保存就意味著按照一定的時間周期,對于需要永久保存的檔案資源定期進行數據遷移,以便對數據進行載體更新、技術更新、管理更新,使得信息資源能夠不斷保存下去,這是檔案實現可靠長期保存的基本要求。
數字檔案的數據由描述檔案實體內容的數據與描述數據的數據(元數據)兩大部分構成。檔案數據一般具有只讀特性。因此,數字檔案的著錄、標引、索引、目錄等元數據相對容易進行標準化。但是其實體數據的數據類型、格式、結構等會隨著技術革新不斷發生變化,其所承載的信息完整性與可靠性受到挑戰。對于數據量的規模增加可以通過不斷增加相應的軟硬件設備來應對,但量的規模到一定程度后有可能導致對數據的控制力下降甚至系統崩潰。大數據環境下,數據遷移是最難應對的考驗。盡管可以通過傳統關系數據庫的三級模式來維持遷移過程軟件的獨立性,但遷移的數據量會越來越大;遷移數據的數據結構及附載其上的信息含義越來越復雜;遷移的周期隨著技術革新節奏的加快,周期越來越短。傳統的數據庫模式已經不能有效應付遷移的復雜性,特別是現有的系統經過技術或管理革新重組后,數據的類型、結構、約束等都存在轉型問題。維護檔案的真實性和可靠性面臨著巨大挑戰。 3.2 數字檔案資源的可追溯問題
從縱向角度通過檔案能了解其反映出的基本語義、產生的背景、來源及原來制檔機關的目的,而且也能夠發現不同檔案資料存在的相關性,即檔案具有可追溯性。雖然檔案本身一般是按照一事一案以案卷、全宗等作為關聯的單位保存的,但是一因多果或一果多因在現實的社會環境中廣泛存在。所以對檔案的可追溯性并非局限在案卷內或全宗內,往往需要利用數字檔案的特點進行復雜的關聯查詢與分析利用。而且,隨著不同行業、專業領域之間的互相滲透,互相之間的相關性會越來越多,越來越復雜。此外,數字檔案全宗及案卷內往往存在文本、圖像、視頻等異類及同類但異構的數據,用戶的追溯需求也會越來越多元化。
由此使得數字檔案的可追溯性在不遠的將來日益成為一項艱巨的任務。即使數字化的信息系統在理論與實踐方面能夠在邏輯上實現這樣的復雜關聯,但是所導致的時間與空間復雜度會使成本巨大。此外,數字檔案由于對各層次軟硬件環境及原始檔案管理制度的依賴,需要大量的元數據來描述,而元數據與檔案內容之間雖然存在邏輯關聯,但是在物理上常是獨立的,這種關聯往往隨著技術環境的變化表現為一定的脆弱性。傳統意義上的量或規模已經不再是衡量復雜性的第一要素,復雜關聯與聚集引發的數據復雜性遠遠超過規模的復雜性效應[16]。可追溯性是數字檔案長期保存的可用性基本要求,日益復雜的關聯性與高效、可用及可信是矛盾統一體,也是大數據環境下必須面對的問題。
3.3 數字檔案利用的時效性問題
在一般性事務查詢利用方面,對于以關系模型存儲的檔案元數據,標準SQL查詢的結果與響應時間(時間復雜度)受到數據量與關聯數的限制,理論與實踐上不可能無限制擴大。如果數據庫中包含了圖像、大文本、視頻等大二進制字段,檢索效率更會大打折扣。此外,為了加強對數字化檔案的利用,會在原始分類的基礎上要求有更多的邏輯分類,以便于進行關聯分析。由此,在檢索過程中,會造成數據庫之間、數據表之間復雜的、大數據量的關聯運算。另外,現有的數字檔案系統一般均要求支持全文查詢,現有技術針對全文查詢一般是建立在對相關文件窮舉式掃描基礎上的,在具體文件不確定的情況下,如果涉及到跨庫、跨文件查詢,在EB級數據量下,這幾乎是不可能實現的。
因此,一般的解決的方法就是縱向不斷增加層級及橫向采用更廣泛的分布系統,但不會解決時間復雜度越來越大、系統熵越來越大的根本問題。
3.4 數字檔案知識服務的可用性問題
在對信息資源進行分析或進行知識發現研究時,首先要求信息資源能夠按照知識發現主題的需要建立多維度分析模型,建立各種復雜關聯。現有的數字化檔案體系一般是傳統紙制檔案的數字化轉換。受制于其傳統載體及立檔單位,其數字化副本在物理與邏輯結構上都存在小集中、大分散的現象。小集中指的是檔案的保存邏輯上體現的立檔單位一般以全宗?櫚ノ唬?事由以案卷為單位,關聯方式一是通過文件物理存儲的集中性來體現,另外通過大量的元數據描述在邏輯結構上體現;大分散指的是不同地域、不同機構之間的數字檔案資料缺乏關聯,形成一定規模的信息孤島。雖然有利于保證檔案案卷的整體性及體現原來制檔機構的目的,但是不利于按照一定分類主題形成大規模的數據集市或數據倉庫。數據挖掘形成的語義關聯或知識圖譜可信程度大打折扣。檢索查詢及查詢后基于批處理的分析計算在數據量及非結構化達到一定程度后,很難保證其可用性,更不能保證其高效性。
此外,檔案信息化還面臨著元數據與數據結構問題。現有的元數據主要存在于關系數據庫中,關系結構以行記錄為單位,而大數據技術環境下的數據庫往往是以列為單位,這樣就需要對原有的元數據結構進行重新設計,也就是現有的元數據結構也需要發生相應的變化。大數據技術應用面臨著與原有系統沖突的問題。
另一方面,大數據技術應用還存在對關聯粒度及層次結構制約的問題。在實際應用中,數字檔案之間的邏輯關系相對具有較多的層次結構。除了檔案實體文件內部的相關性外,還存在案卷與案卷之間的聯系,同一案卷中 “件”與 “件”之間的聯系,不同級別的檔案管理聯系。這些關聯具有一定的“立體”特征。但在現有的大數據技術環境下,由于數據結構相對簡單,重在對異構、海量數據的“平面”關聯分析,因此,如何將數字檔案的數據結構重新組織,在不破壞其固有的立體聯系情況下,實現高效率的大數據分析將是極大的挑戰。
4 檔案信息化建設中大數據問題的解決對策
4.1 加強數字檔案資源存儲
檔案數字化是借助計算機網絡技術和多媒體技術發展而產生的一種新型檔案信息形態,將各種傳統載體的館藏檔案資源轉化為數字化檔案信息,以數字化形式存儲、網絡化形式傳輸并利用計算機系統進行管理,進而實現檔案信息的快捷利用與共享[17]。數字檔案數據在保存中需要按照時間序列或事由進行分類與關聯,追求的目標是將存儲管理由載體控制轉化為軟件控制。傳統的模式對數據的結構、操作及約束有一定的范式要求,采用轉儲方式或基于分布式數據庫系統的模式。通過中心管理服務器將分布在不同節點數據庫中的數據實現邏輯上的統一管理,存儲的方法一般是將結構化的關系模型作為元數據信息存儲的數據結構,以此來關聯實體檔案。關系型數據庫雖然能夠實現比較復雜的關聯,但對數據量非常敏感,具有較大的時間與空間復雜度。在檔案信息化建設過程中,利用大數據存儲技術加強數字檔案信息資源存儲,如通過GFS(Google Files System)、HDFS(Hadoop Files System)等分布式文件存儲系統,能夠處理非結構化數據并實現關聯,自動建立基本的索引元數據,適合半結構化數字檔案信息資源的存儲與處理。
4.2 維護檔案靜態特征及遷移過程的可靠性
原始記錄性是檔案的本質屬性之一,客觀上要求其所依賴的軟硬件環境、依附的載體及其語義能夠維護其所記錄信息的原始性、真實性、可靠性等靜態特征,同時要求隨著信息技術的發展能夠實現一致性的數據遷移,從而保證檔案信息的可追溯性。 大數據分布式文件存儲系統能夠將文件或文件夾中的對象直接轉化為二進制數據序列,忽視其中的具體格式或結構,對各種形式存在的檔案資源在底層實現智能化存儲與處理,在更高的層次上再進行利用分析;此外,大數據技術更適應對大文件的處理,如HDFS文件系統,可將要存儲的非結構化數據按照統一二進制大小(64M)進行分片、多點備份、并行處理,形成一系列的(key,value)鍵值對,然后按照鍵進行歸并,對相同鍵的值進行結果匯總與合并。這也符合檔案文件的組織特點(以“件”或“卷”組織成復合文件)。由此能夠很地維持檔案資源存儲與利用過程中的完整性、可靠性,實現檔案數據變換、整合及利用的智能化,可以針對檔案案卷的組織特性,將其以復合文件或文件類集合的模式進行多種形式的組織,然后按照全宗建立群節點,從而簡化數字檔案文件存儲管理的層次級別。
4.3 維護數字檔案的時效性和可用性
大數據技術可以通過弱化關系降低數據模型的復雜性,統一電子文件的物理與邏輯集成(集成指在文檔管理范疇內,將電子文件及其內容信息、結構信息、背景信息采用一定標準、規范和編碼進行融合[18])。分布式鍵值對的存儲系統能夠實現面向列的、可伸縮的數據存儲模式,將不同類型、不同結構的海量數據按照列簇存儲到同一文件中并實現性能良好的隨機訪問,使數字檔案按照事由進行物理封裝成為可能。相應地也可以使內容信息、結構信息、背景信息具有邏輯與物理上的統一標識與封裝。此外,存儲的結構支持多維特性,能夠在結構上實現動態改變,可以在不影響原有數字檔案內容及結構的前提下,實現行、列、時間戳的動態擴展,由此可以實現數字檔案內容的動態擴展。自動生成索引的機制可將非結構化的數字檔案實現半結構化,實現更緊密的結合,進一步維持數字檔案在長期保存過程中的完整性。如果能夠與現有系統中數字檔案的標準元數據進行關聯,共同實現對檔案內容信息的索引及描述,會極大增強數字檔案的可用性。
檔案一旦形成后在內容上就不能再修改,大數據技術對數據修改的敏感或不支持并不影響檔案的長期保存,反而成了檔案長期存儲的一種優勢。首先是大數據技術所支持的文件系統通過不斷增加硬盤數量實現容量的智能化增長,存儲采用集群架構的管理與多重備份并基于智能化容錯,讀寫模式采用基于二進制的分塊、并行處理、合并的方式,而且所使用的文件系統一般不限制文件大小及格式。因此,在構建數字檔案存儲系統時,無論從邏輯上還是物理上都能夠有效維護檔案資源的原始記錄性特征。
4.4 實現檔案信息的關聯性分析及知識發現
數字檔案的存儲在數據結構上大都具有半結構化特性。一方面由于檔案數量與種類的多元導致的海量、異構等非結構化特征;另一方面數字檔案一般都有結構化、標準化的元數據描述及電子標引等元素。因此,隨著數字檔案資源的不斷增加,完全?Y構化或完全非結構化的資源形態均不多見。將結構化元數據與非結構化的檔案實體描述數據按照一定的模式關聯成半結構化模式,日漸成為數字檔案資源組織的基本模式。大數據技術環境可以提供基于鍵值對的分布式存儲與處理,能夠在海量、異構數據中自動尋找出文字間的語義主題,有利于面向領域對本體的主題知識構建。此外,面向列的、可伸縮的半結構化數據庫存儲模式,如基于HDFS的Habse數據庫管理系統,能夠在行、列、時間維實現動態擴展,通過行關鍵字、列簇、列關鍵字、時間戳形成多維表。一方面能夠實現復雜的半結構化與非結構化數據之間的關聯,另一方面也有利于形成領域、論域、主題三個知識關聯層次。由此,為異源、異構的數字檔案進行數據挖掘與知識發現提供了基本的技術支持。
5 結束語
盡管檔案信息化工作所面臨的大數據問題突出,相關的研究重點主要聚焦在檔案所具有的大數據特征及相關的管理與利用宏觀策略方面[19],但大數據技術所具有的分布式、云計算、智能化特征,及對海量、異構數據處理所具有的優勢與數字檔案管理的現實需求具有一定的吻合度。與此同時,對大數據及其相關技術應用于數字檔案管理的深層次問題需要進一步理解與把握,例如大數據技術如何為檔案存儲、遷移及跨部門與平臺的知識發現提供支持,以及應用于數字檔案管理所需要面對的信息系統重構、信息及數據轉換層次劃分問題等。大數據技術及其生態環境是信息技術發展的必然趨勢,促進著通常的數字檔案以及包括數字圖書資源等泛化“數字檔案”相關管理理論與技術的快速發展[20]。