第一個問題實際上是如何認識和避免館藏檔案數字化的風險。館藏檔案數字化涉及一系列技術與理論問題,是一個探索性的工作。筆者雖不能籠統回答南陽市檔案館館藏檔案數字化工作會不會勞而無功,但可以肯定地說確實有一定的風險,尤其是在軟件不到位的情況下風險會很大。從理論上講,數字化流程的各個環節的等失當都可能給此項工作帶來風險。但從實際工作看,數據質量決定著檔案數字化工程的成敗和效率,數據質量不過關是造成風險乃至勞而無功的主要原因。因此,確保數據質量是數字化工作成功的關鍵。鑒于我省的實際,筆者認為實施技術層面的標準統一是確保數據質量,避免或減少館藏檔案數字化工作風險的主要措施。
首先,檔案館在建立檔案目錄數據庫時:一是嚴格按照《檔案著錄規則》的要求確定檔案著錄項,進行著錄。二是所選定的數據格式應能直接或間接通過XML文檔進行數據交換。三是采用人工校對或軟件自動校對的方式,對目錄數據庫的建庫質量進行檢查。
其次,檔案館在建立檔案全文數據庫時:一是應選擇通用的數據格式。字型數據采用XML文檔和RTF、TXT格式,掃描圖像數據采用JPEG、TIFF格式,視頻數據采用MPEG、AVI格式,音頻數據采用MP3、WAV等格式。二是應選擇合適的存貯方式。圖像文件如果選用數據庫存貯,則要求數據庫服務器的存貯容量足夠大;如果選用文件存貯,則應考慮存貯在文件服務器上文件的存貯規則和命名規則,以方便實現圖像文件與目錄數據庫的檢索。三是應選用專門開發的系統來實現。該系統必須符合《檔案管理軟件功能要求暫行規定》的要求,具備較強的數據獨立性,確保在軟、硬件環境發生變化時數據的完整、安全遷移及有效利用。
第二個問題實際上是如何實現檔案數字化中形成的目錄數據庫與圖像數據庫的掛接。《紙質檔案數字化技術規范》已對目錄數據庫與圖像數據庫的掛接提出明確的要求。國內的主流檔案管理軟件基本上都具有此項功能,相關技術已有重大突破并趨于成熟。目前,目錄數據庫與圖像數據庫的掛接一般采用兩種方式實現:一是在檔案條目信息錄入的同時,進行相關文件的掃描(或數碼拍照),并將掃描(或數碼拍照)完的文件直接上傳到FTP服務器。二是將檔案條目信息的錄入與原文的掃描(或數碼拍照)分開進行,當條目信息錄入完成且原文信息掃描(或數碼拍照)完成后,可批量選擇本地硬盤需要上傳的圖像文件上傳到FTP服務器中。若要實現批量掛接,需提前對掃描形成的圖像文件的命名規則進行定義。通常是以紙質檔案目錄數據庫為依據,將每一件紙質檔案文件掃描(或數碼拍照)所得的一個或多個圖像存儲為一份圖像文件。將圖像文件存儲到相應文件夾時,要認真核查每一份圖像文件的名稱與檔案目錄數據庫中該份文件的檔號是否相同,圖像文件的頁數與檔案目錄數據庫中該份文件的頁數是否一致,圖像文件的總數與目錄數據庫中文件的總數是否相同等。通過每一份圖像文件的文件名與檔案目錄數據庫中該份文件的檔號的一致性和唯一性,建立起一一對應的關聯關系,為實現檔案目錄數據庫與圖像文件的批量掛接創造條件。
通過檔案目錄數據庫與圖像文件的掛接,系統就可初步實現對目標檔案的全文檢索,然而,從檢索技術上講全文檢索還不止于此。真正意義上的全文檢索,不僅應該構建功能完備的檔案全文數據庫,而且能夠集成數據庫檢索技術、全文檢索技術、圖像內容檢索技術以及數字化音頻和視頻信息的檢索技術等。由于數字化檔案要求必須與檔案原件完全一致,然而目前的數字轉換、識別技術又不能完全滿足這一要求,因此,要實現數字檔案全文檢索,還有待技術的進一步發展。