電子檔案文件級目錄數據庫的設計與實踐
一、電子檔案的分類
隨著信息技術的迅猛發展,大量的電子文件產生,電子檔案的概念也出現在檔案工作者的面前。從字面理解,電子檔案就是檔案館接收和保存的有歸檔價值的電子文件。?DA/ T 58—2014 電子檔案管理基本術語? 中定義電子檔案即“具有憑證、查考和保存價值并歸檔保存的電子文件。 ”
一般的觀點認為電子檔案產生來源有兩類,一種是由一般的電子信息系統產生的,另一種是由電子公文系統產生的。前一種電子檔案通常是通過紙質檔案數字化加工軟件生成或縮微膠片轉換形成的,后一種是由電子公文系統在線直接歸檔產生的原生電子檔案。后者的管理更多要依靠電子公文系統的設計,在文件形成的前端進行控制,采集電子文件的元數據,最終生成電子檔案。 這類的電子檔案目錄數據庫的設計更多依靠電子公文系統,檔案部門通常位于文件生成的后端,現階段不具備對文件進行全程控制的條件。
本文主要研究的是第一類電子檔案,即紙質檔案數字化或縮微膠片轉換后形成的電子檔案。為方便表述,以下探討凡涉及“電子檔案” 這一概念的,均指這類電子檔案。
二、電子檔案的著錄
無論紙質檔案還是電子檔案,這些保存了重要信息的載體,能夠通過工具檢索,提取文件中的重要信息資源,才能體現檔案的價值。雜亂無章的文件如何形成井然有序的檔案,首要工作就是檔案的整理。歸檔文件的整理工作主要分為系統化和編目兩部分。將文件歸類和排序是系統化的主要工作,編目是指為歸檔文件編制目錄的過程。
(一) 編目和著錄
歸檔文件的編目和電子檔案的著錄,通常被認為是一個類似的概念,都是一個動作,形成可供檢索的目錄的過程。從狹義上講,二者是同義詞,廣義上編目還包括將著錄形成的各條款目按照一定的原則與方法組織成各類目錄的過程。
對于“檔案著錄” 的概念,在1992 年的行業標準?DA/ T 1—1992 檔案工作基本術語? 中是這樣定義的: 在編制檔案目錄時,對檔案內容和形式特征進行分析、選擇和記錄的過程。 在2000 年頒布的行業標準?DA/ T 1—2000 檔案工作基本術語? 中是這樣定義的: 對檔案內容和形式特征進行分析、選擇和記錄的過程。 到了2014 年,行業標準?DA/ T 58—2014 電子檔案管理基本術語? 中的定義: 按標準形式對電子檔案的內容、結構、背景及管理活動進行描述的過程。
從對著錄概念的變化,可以看出不同于紙質檔案的著錄,電子檔案的著錄還增加了包括結構和背景、管理活動等相關內容的描述。
(二) 電子檔案的著錄
根據我國的?DA/ T 18—1999 檔案著錄規則? 的要求,還是主要應對的是傳統意義的檔案。到目前為止,還沒有一個國家標準來統一規范電子檔案的數據結構。在沒有行業標準的前提下,電子檔案的著錄通常是依靠檔案整理過程中的編目后形成的檔案目錄,通過人工錄入的方式,將編目完成的紙質目錄,輸入數據庫中,最終完成目錄數據庫的建設。
如果完全依照?DA/ T 18—1999 檔案著錄規則? 的要求,那么電子檔案著錄中就會發現以下問題:
1 與電子檔案相關的結構信息、背景信息等沒有相應項目填寫。例如,電子檔案為了便于和檔案圖像文件掛接,需要原文路徑項目在著錄規則中并沒有涉及。
2 符合著錄規則的目錄項目并不一定完全適合電子檔案。例如,文件的形成時間由8 位阿拉伯數字組成,原時間缺少或字跡不清晰的以“□” 補之。電子檔案通常會采用8 位字符,不能查考的時間補零,而很少使用“□”,既不便于檢索,也會紿計算機系統的開發增加難度。
3 著錄規則中的著錄項目只是定義了項目的內容和文字要求,而電子檔案的目錄數據庫還要求了數據庫字段項的格式和長度。
通過和傳統檔案著錄的比較,我們發現電子檔案的著錄或者說目錄數據庫的建庫過程,除了要滿足檔案業務的基本規律以外,還要符合計算機的語言習慣和數據結構要求。
三、目錄數據庫的設計與實踐
為了適應檔案管理現代化的需要,完全不同于傳統立卷方法的“文件級” 整理方法出臺,?DA/ T 22—2000 歸檔文件整理規則? 于2000 年12 月6 日由國家檔案局正式頒布,并于2001 年1 月1 日起實施。2015 年10 月25 日又重新修訂了該標準,頒布了?DA/ T 22—2015 歸檔文件整理規則?。最新標準擴大了標準的適用范圍,由紙質文件材料擴展為紙質和電子文件材料。
電子檔案的文件級目錄數據庫的設計既要與傳統紙質檔案的編目有差別,也要和傳統的“案卷級” 檔案建庫區分開。本章將結合中央檔案館在電子檔案文件級目錄數據庫建設過程中的經驗,詳細介紹數據庫設計應遵循的原則、遇到的問題和解決思路。
(一) 設計原則
檔案目錄數據庫的設計是為了更快捷地查找到要查找的檔案資源,并且和相應紙質檔案建立關聯。這就要求在數據庫設計的過程中要做到和紙質檔案的一一對應,能夠通過數據庫快速查找到相應的電子檔案圖像和紙質檔案。
符合歸檔文件整理規則,并且做到與紙質檔案的一一對應是電子檔案文件級目錄數據庫的重要設計原則。
(二) 詳細設計
電子檔案的文件級目錄數據庫的設計主要分為兩個部分,一是數據庫系統的選擇,二是數據結構的設計。
1 數據庫系統的選擇
根據檔案行業的特殊性,在數據庫系統產品的選擇方面,主要有以下幾個標準可供參考。
(1) 數據庫建設的易用性: 主要指數據庫管理語句符合國際標準,有面向用戶的易用的開發工具。
(2) 數據庫管理系統的性能分析: 主要指數據庫系統具有性能評估、性能監控、性能管理等功能。
(3) 海量存儲能力: 主要指數據庫系統可以支持海量的數據,不會影響系統使用的效率。
(4) 并行處理能力: 主要指支持多用戶并發。
(5) 可移植性和擴展性: 主要指數據庫系統遷移的能力。
(6) 并發控制: 數據庫系統支持多CPU 模式。
(7) 安全性: 主要指數據庫系統具有賬戶管理、用戶權限、網絡安全控制等功能。
(8) 對漢字的支持: 主要指數據庫描述語言的漢字處理能力和數據庫開發工具對漢字的支持能力。
能夠較好地滿足上述標準的數據庫系統都可以成為電子檔案數據庫設計的載體,目前市場上主流的數據庫產品也都具備這些能力。 隨著我國數據庫技術的發展,越來越多的國產數據庫產品已經在檔案行業得到了很好的應用,雖然在穩定性、通用性等方面與國外主流數據庫還有差距,但已經具備了在檔案等領域的應用基礎,甚至在安全性和本土化方面可以更好地滿足檔案業務的需要。
2 數據庫結構
選擇了適合自己業務需要的數據庫后,就要開始目錄數據庫的建庫過程。文件級目錄數據庫的數據結構主要由幾類目錄數據構成,結合檔案著錄規則,將文件級目錄數據結構分為以下6 項,每項分為若干小項。
(1) 編號項: 主要包括序號、全宗號、機構(問題) 代碼、機構(問題)、件號、檔號。
(2) 題名與責任說明項: 主要包括題名、文號、責任者。
(3) 密級與保管期限項: 主要包括密級、保管期限。
(4) 時間項: 日期,年度。
(5) 備注項: 備注。
(6) 其他字段: 頁數、盒號、原文路徑、保管單位。
以中央檔案館在用的文件級目錄數據庫格式為例,共有18 個字段項,這些只是最基本的字段項,在實際應用中,數據庫字段項不僅限于此。目錄數據庫結構和字段項要求如表1 所示。
以下詳細介紹幾個重要的數據庫字段項。
(1) 檔號
整個目錄數據庫的核心字段項即檔號,檔號由全宗號、年度、機構(問題) 代碼和件號拼接而成。通過該字段可以準確了解一件檔案在一個全宗內的相應邏輯位置。由檔號和頁數組成的原文路徑字段標示了文件在磁盤中存放的物理位置。檔號可以關聯起紙質檔案和電子檔案,是檔案中不能重復的重要標示。電子檔案中為了排序的需要,檔號是一個定長的字段項,件號會在相應的位置補零。這一點和紙質檔案目錄還是有區別的。
(2) 時間項
時間項主要有兩個字段,日期和年度,日期即文件的行成時間,字符型由8 位阿拉伯數字組成,在時間不可考的情況下補零。年度是文件形成所在年度,字符型由4 位阿拉伯數字組成。時間項中采用字符型而沒有使用數字型或者日期型,是由于檔案的特殊性,很多歷史檔案的年代不詳,一般情況下,會著錄成“0000”,如果使用數字型或者日期型的字段項,就沒有辦法記錄這樣的數據。
(3) 其他字段
在檔案著錄規則中沒有涉及這一部分的內容,主要有盒號、原文路徑等字段。盒號是立卷改革后形成的,文件級檔案裝盒后,為了便于檔案保管員快速找到相應紙質檔案的物理位置設定的。原文路徑如前文所述是電子檔案存放在存儲介質內的相對路徑。
通過這些數據庫字段項,可以看到電子檔案文件級目錄數據庫結構既滿足了歸檔文件整理規則中編目的要求,也體現了電子檔案在實際應用中的特殊性。為了滿足通用性的要求和大多數檔案館、檔案室的使用便利,數據庫結構中并沒有設計載體類型、電子文件格式等字段。另外,這個目錄數據庫的設計是為了符合中央檔案館的業務需要,僅僅是針對文書檔案的管理,沒有照片檔案、音視頻檔案的相關字段項,很多輔助的檢索項也沒有列出,如主題詞等。
對于不同的業務需要,數據庫設計中應該有相應的調整,增刪字段項。沒有一個目錄數據庫的設計可以涵蓋所有的檔案類型,片面追求“大而全”的數據庫結構只會加重檔案業務系統的負擔。在數據庫設計中應當根據業務需要,有的放矢,做到“專而精” 就好。
四、結論
本文在電子檔案文件級目錄數據庫的設計過程中,介紹了電子檔案的定義和分類,闡明了電子檔案的著錄和歸檔文件編目的關系。通過實際的應用,詳細研究了電子檔案文件級目錄數據庫的設計。
面對當下這個信息資源如此重要的時代,大數據、云計算等最新技術如何應用到檔案行業,關鍵取決于電子檔案的采集、管理和應用,僅僅依靠紙質檔案數字化轉換生成的電子檔案,無法為數據挖掘提供有效的數據基礎。隨著電子公文系統的廣泛應用,將會產生更多的原生電子檔案,這類電子檔案從合法性、真實性、有效性、完整性等方面還有大量的問題有待檔案工作者解決。只有加快電子文件和電子檔案的標準制定和立法,使更多的原生電子檔案得到收集、管理和應用,讓“存量檔案數字化、增量檔案電子化”,才能讓檔案信息資源搭上移動互聯的快車,更便捷為社會所服務。