數字化時代下的民國檔案目錄數據庫
中國第二歷史檔案館(以下簡稱“二史館” ) 正如火如荼地開展的民國檔案數字化項目,始于2009 年,歷時10 年,目前基本實現既定目標。這一浩大而又系統的檔案數字化工程,包括數字化前整理、掃描、縮微、質檢、驗收等十余個環節。數字化前整理工作是民國檔案數字化工程的基礎環節。通過這一環節,對館藏200 余萬卷、合計約2 2 億頁畫幅館藏檔案依據檔案整理的基本原則、程序和方法,進行了案卷級整理,基本實現了檔案實體數字化,其數據加之原有目錄信息為建立全國乃至世界最大的民國檔案目錄數據庫奠定了良好的基礎。但是數據庫如何依托、借助大數據技術進一步發展,使功能更加齊全、數據范圍更加廣泛、內容更加深入,從而快速而準確地提供民國檔案信息、實現檔案信息資源共享是我們需要思考的問題。
一、二史館原有目錄數據庫概況
二史館經過多年目錄建設,初步形成了館藏檔案目錄體系,建有3 套目錄數據庫。
分類目錄數據庫,是1993 年開始建立的、為了適應機器檢索要求而編制,其總量目前為130 余萬條。這是按照?民國檔案分類表? 進行的以分類標引為主、主題標引(即人名、地名、機構名) 為輔的機檢目錄。
這套目錄打破了全宗概念,提供了多途徑的檢索入口;其目錄的欄目有:全宗號、案卷號、案卷題名、案卷起止年月、分類號、主題詞(人名、地名、機構名) 等。
案卷目錄數據庫,1994 年始建。其總量約150 萬條,它是替代書本式的機檢案卷目錄,按全宗順序排列,但存在缺乏分類和主題檢索、新近整理的全宗目錄尚未收入、不少案卷標題過于簡單等問題。其目錄的欄目有: 全宗號、全宗名、案卷號、案卷題名、案卷的起止年月等。
館藏檔案庫位數據庫,是二史館館藏檔案存放的庫位表。它是檔案調出、歸位的依據。其目錄的主要欄目有: 全宗號、全宗名稱、案卷號、存放位置(區、架、層、位號)、保管責任人、排架長度、起止案卷號、案卷的存在狀態(移交、改重、原缺等)、案卷的自然狀況(是否破損) 等。
3 套目錄從不同的角度滿足了一定時期二史館檔案利用和管理工作的需要,但由于分屬于本館3 個部門,且檔案處于不斷的變化之中,如檔案重新整理等,使各種目錄處于動態管理之中。因而在經過了一段時間之后,目錄數據與檔案實體、3 套目錄數據之間不盡一致,使館藏檔案和目錄的統計各不相同;按照檔案目錄數據庫對數據的要求,如目錄的變化、使用狀況等諸多內容,則需要加大補充;加之機讀目錄和手工目錄存在著很大不同,尤其目錄數據庫是按照一定要求編制,有很強的技術性,數據庫建成后,宣傳不夠,使用受到限制。對照目錄數據庫的各項要求,在實際工作中,這3 套目錄各自都存在不盡如人意的地方,加之當前數字化、網絡化,以及應用檔案數字化的成果,亟需進行發展、改進和完善,以適應大數據時代下之要求。
二、完善目錄數據庫建設的必要性
大數據時代下,各種數據必須符合規范、全面、創新、發展等要求。對于檔案館來說,目錄數據庫是檔案館自動化、數字化的實質內容和處理對象,而目錄數據準備多樣化,才能適應大數據各類數據之要求。因此館藏目錄數據庫從當今社會需要、檔案現狀以及技術要求等方面看,更應完善和擴大其功能。
(一) 從社會需要上看
在今天的知識經濟、數字時代下,社會對檔案的需求日益增長。民國檔案備受各界歡迎和重視,被查找的范圍越來越廣,利用亦愈加深入。二史館作為保管民國檔案的重要基地,必須有所作為。而開展館際間檔案信息的交流,實現全國乃至世界范圍內的民國檔案資源共享也早已提上日程。如隨著民國檔案目錄中心全國民國檔案全宗級目錄數據庫的建成和全國民國檔案案卷級目錄數據庫的在建,館藏文件一級的目錄數據也將為建設全國民國檔案文件級目錄數據庫創造必要的條件。實際上,英國2012 年就已建立了基于互聯網,以國家檔案館為骨干、國內其他2500 余家檔案館參與的全國性館藏開放檔案目錄在線咨詢的“探索” 服務平臺,目錄信息就達1000 余萬條。
(二) 從檔案現狀上看
民國檔案數量浩大,經過幾代檔案人的辛勤勞動,大規模的整理工作基本結束,已實現檔案“有規可循、有目可查”,幾年前利用館藏案卷目錄、建成案卷級目錄數據庫并提供利用完全必要。但目前目錄數據已經滿足不了現狀,一是案卷級數據概括性強,難以準確反映其檔案內容;二是檔案中很多重要信息還藏于案卷中未被開發,只有深入文件一級才能揭示;三是案卷級中有不宜開放的檔案,只有揭示到文件級才能區分。隨著檔案數字化的進程日益加快(目前館藏近1/5 的檔案已經數字化),并深層次地開發文件一級的檔案信息,達到文件級甚至檔案全文信息檢索,都需要完善館藏目錄數據庫并擴大其功能。
(三) 從技術要求上看
建立和完善目錄數據庫,是開發利用民國檔案信息資源,實現計算機網絡技術在檔案信息管理中的應用,最終實現檔案管理現代化。計算機存貯和檢索檔案信息是檔案現代化管理的重要標志,計算機網絡技術在檔案信息管理中的應用已成為檔案管理現代化的重要基礎設施。如今信息技術、計算機網絡技術日新月異、突飛猛進,檔案館自動化、數字化已成現實。完善館藏目錄數據庫已不會再像當時建立案卷級目錄數據庫那樣受到技術、設備等條件限制,如數據庫庫內容量、字段字節等等。目前館藏目錄數據庫數據再多、容量再大等已不再成為技術問題,完全可以滿足不同利用者從各個檢索角度提出的查詢要求;同時,可以應用計算機先進技術,擴大其功能,快速準確查找所需任何內容。
三、改進和完善目錄數據庫之要求
要實行計算機檢索檔案,實現檔案信息的網絡化,就必須解決數據庫及數據的標準化、規范化,達到目錄數據庫的資源共享,并注意檔案數據的安全性,最終基于互聯網,實現數據庫網絡化。
(一) 目錄數據庫必須標準化
?中華人民共和國標準化管理條例? 指出: “標準化是組織現代化生產的重要手段,是科學管理的重要組成部分,在社會主義建設中推行標準化,是國家的一項重要技術經濟政策。” 這充分闡明了標準化的地位和作用。因此,今天的目錄數據庫,標準化的規范體系顯得尤為重要,同時也是檔案館數字化建設高質量的堅實基礎。注重其標準化、規范化,包括兩方面的含義: 一是指為適應目錄數據庫發展需要而制定的有關原則與方法的確切表述和具體規定,它包括專業名詞術語標準、代號代碼標準、著錄標準、標引語言標準等。二是在檔案館網絡建設時要充分考慮硬件的選型、軟件的配置、數據庫的標準格式和信息傳播的方式等。不然,將造成不必要的人、財、物的浪費,進而影響檔案館自動化、數字化的進程。二史館制定了檔案數字化前整理編目的相關業務文件,有“民國檔案數字化前整理規則” “民國案卷標題問題及處理方法” “案卷審查要求” “民國檔案案卷標題修正案例解析” 等,以確保數字化前整理編目工作對其數據的標準化和規范化,也必將為下一步制定文件級目錄數據打下良好基礎。
(二) 目錄數據庫的資源共享
目錄數據庫的建設最終目標: 一是目錄的管理,二是實現資源的共享。實現資源共享,這是在數據標準化和網絡化的整體基礎上實現的。共享性要求網絡中各保管民國檔案的檔案館都要建設具有自身特點和地域特點的目錄信息數據庫,作為網上信息資源的補充,二史館目錄數據庫尤為重要。
所謂共享性原則,是指進行數字化的目錄數據應是可以公開提供利用的,可以憑借網絡技術實現檔案信息資源的零距離利用和社會共享。為此,必須經過檔案的開放鑒定及最大限度地擴大館藏檔案信息資源的共享范圍,數字化的數據范圍不僅包括開放卷,而且應延伸到控制卷中可以開放的文件。只有這樣,目錄數據庫數據才能成為公共信息資源的重要組成部分,憑借社會化的信息技術,適應國家改革開放和經濟全球化的需要,實現民國檔案依法開放和信息資源共享的最終目標。英國國家檔案館的“搜索” 平臺自開放3年來就為社會發布了3000 余萬條目錄信息,提供了1 44 億件歷史檔案,為民國檔案目錄數據庫的信息資源共享提供了有益的借鑒。
(三) 注意目錄數據的安全性
一個高質量的目錄數據庫的數據信息更要注意其安全性。安全是目錄數據庫建設中一個不可忽視的重要方面。數據信息對安全保密有嚴格的要求,有相當一部分數據信息是需要控制使用的,所以必須采取一系列措施保證數據信息的保密和安全。通常采取的措施分為制度管理(經過對檔案的開放鑒定,凡涉及國家機密和個人隱私及影響社會穩定、民族團結、國際關系的檔案不予提供) 和技術保證(相應的技術措施進行自動控制,對館內館外不同利用者根據權限提供數據信息) 兩類,最終確保目錄信息的保密和安全。
(四) 實現目錄數據庫網絡化
二史館數據庫網絡化的應用格局是: 目錄數據庫實現在館局域網中流通和利用,并依托館局域網加強檔案利用服務窗口建設,完善本館檔案目錄建設,借助互聯網推進檔案信息網站建設。做到標準統一、功能完善、安全可靠、利用方便,力爭建立以本館檔案為骨干,國內乃至有關國家地區保存民國檔案的檔案館參與的館藏民國檔案開放目錄數據庫,以實現全球民國檔案信息資源共享為最終目標。
總之,二史館目錄數據庫特點應是: (1) 館藏各類目錄數據的高度整合,集全宗、案卷、文件等信息于一體,實現一站式檔案信息檢索;同時也是檔案調出、歸位等實體管理的依據;(2) 按照?民國檔案分類表? 進行的以分類標引為主、主題(關鍵詞) 標引為輔的數據信息導航功能;(3) 設有包括檔案全文信息檢索在內的眾多檢索入口,利用者可以通過某個檢索入口進行初級檢索,也可以運用靈活的方式進行提問式檢索等高級檢索;(4) 具有利用連接功能,除了掌握目錄利用情況,還可知道利用者對目錄利用后的反饋信息;(5) 除滿足利用者從不同的角度查找所需的任何內容,還可根據需要,打印完整的全宗目錄、案卷目錄、文件目錄、各種專題目錄及至原始檔案版面不失真的顯示與打印;(6) 保證數據庫內的每個數據都有清晰的利用者使用權限;(7) 多樣化的目錄形式,隨時公布目錄的更新與開發信息,滿足不同類型、不同行業、不同規模利用者個性化的信息需求;(8) 遍布全國和海外的民國檔案目錄數據交換服務中心,配上常年的利用者培訓與高效的技術支持。
四、完善目錄數據庫之具體做法
一個高質量的數據庫除了系統先進、利用方便外,其中的目錄數據至關重要,至少應達到以下質量標準: 第一,數據的準確性;第二,數據項目和內容的完整性;第三,數據的規范性;第四,數據的穩定性。
目錄信息必須按照職能劃分,由職能部門負責,目錄數據也應由職能部門人員進行增刪修改。職能部門負責目錄管理的主要工作內容應是: 保持全館各種目錄的完整性、正確性;負責館內部計算機局域網中機讀目錄數據庫數據的變更;在目錄數據發生變更的時候,及時更正;審查、校核、保管并提供館內的各類目錄,如案卷(文件) 目錄、專題目錄等;提前介入對館藏檔案信息的進一步開發并對其實行全過程跟蹤服務,及時修改、更新檔案目錄;制作、保管并及時更新檔案目錄信息的備份數據;隨時公布目錄的更新與開發信息;完善館藏檔案全宗變動歷史情況的全宗目錄;等等。
為完善館藏目錄數據庫,方便在館內局域網甚至互聯網上提供服務,并為下一步文件級和案卷級目錄數據于一體的目錄數據庫打下基礎,還需做如下工作:
(一) 盡快開展文件級著錄工作
民國檔案數字化前整理工作完成或即將完成之時,應盡快開展文件級著錄工作。第一,充分利用已有數字化成果,直接在計算機上對畫幅進行操作,切忌再利用檔案原件。第二,更新、開發、制作適合文件級著錄的軟件。如靈活編輯畫幅、抽取所需關鍵詞等軟件。第三,結合以往文件級著錄的經驗,集思廣益,制定文件級著錄規范。應在?檔案著錄規則? ?民國檔案著錄細則? 的基礎上,制定適合本館甚至全國保管民國檔案的檔案館實際的?民國檔案文件級著錄細則? 等一系列規范規則,指導文件級著錄工作。
文件級著錄工作依然采取如檔案數字化前整理業務外包形式。首先,可以加快文件級著錄工作進度;其次,可以提高文件級目錄制作質量。當然業務外包具有諸多優點,但應從檔案法律法規的高度制定規章確保外包公司認真履約,嚴格監督外包公司的檔案安全和信息保密工作。
(二) 應用軟件的不斷升級更新
隨著計算機技術的不斷升級,從技術上隨時要求擴大數據庫功能,增加數據庫內容;及時更新各種管理、利用信息連接等項功能的設置;編制幫助利用者使用數據庫數據的“利用介紹” 和“查詢指南”;根據利用者查詢頻度和意見反饋不間斷推出“熱門檔案” 等欄目,以及配合國家和社會重大活動開展的定題服務,如“抗戰七十周年”、“紅軍長征八十周年” 等紀念活動;實時推出對利用者有所幫助的實用小工具軟件,都將使館內外利用者使用數據庫更加便捷。
(三) 對檔案實行劃控
按照?民國檔案案卷級目錄整理與劃控工作規范? 及中央檔案館、國家檔案局相關標準,對數據庫數據進行全宗級劃控、對整個數據庫中不同全宗涉及控制范圍的案卷和文件也進行劃控,并按照利用者權限決定開放與否。
(四) 改善目錄狀況
目錄數據庫逐步建全完畢后,形成一套館藏檔案按全宗自然順序排列的案卷、文件目錄,即館藏賬本式目錄;一套館藏檔案開放目錄,以適應不同利用者需要。
該項工作只有領導重視,群策群力,始終將此作為檔案館實現自動化、數字化的一項重要工作來抓,從而實現民國檔案信息資源共享的最終目標。