normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: center; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=center>對館藏檔案數字化風險及目錄數據庫與
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: center; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=center>圖像數據庫掛接等問題的認識
normal style="MARGIN: 0cm 0cm 0pt; TEXT-INDENT: 32pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-pagination: widow-orphan; mso-char-indent-count: 2.0" align=left>2006年,南陽市檔案局館被省局確定為實施“金檔工程”的試點單位。為不負省局重托,我們在鞏固原有信息化建設成果的基礎上,經過幾個月的連續奮戰,開通了可打開10余個欄目、900個網頁的南陽檔案信息網,不僅實現了館藏10余萬條檔案資料信息的文件級網上查詢,而且還實現了黨委、政府及兩辦已公開現行文件的網上全文查詢。2006年7月份我們啟動館藏檔案數字化工作,在資金、軟件均不到位的情況下做了一些基礎性工作。一方面抽出專人以數碼拍照形式,完成了4個全宗350卷民國檔案的全文存儲工作,形成了30000多幅數碼照片;另一方面,安排專人完成了2個全宗1400多件民國檔案的著錄任務。問題是:其一,我們這樣做會不會勞而無功,且浪費人力、物力;其二,假如不是勞而無功,下一步如何使著錄條目與數碼照片一一對應地進行鏈接,形成數據庫、進而實現全文查詢。
normal style="MARGIN: 0cm 0cm 0pt; TEXT-INDENT: 32pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: right; mso-line-height-rule: exactly; mso-pagination: widow-orphan; mso-char-indent-count: 2.0" align=right> 南陽市檔案局館 張懷珍
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: center; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=center>
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: center; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=center>對館藏檔案數字化風險及目錄數據庫與
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: center; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=center>圖像數據庫掛接等問題的認識
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: center; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=center>翟霣遠
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=left> 張懷珍提出的第一個問題實際上是如何認識和避免館藏檔案數字化的風險。館藏檔案數字化涉及一系列技術與理論問題,是一個探索性的工作。筆者雖不能籠統回答南陽市檔案館館藏檔案數字化工作會不會勞而無功,但可以肯定地說確實有一定的風險,尤其是在軟件不到位的情況下風險會很大。從理論上講,數字化流程的各個環節的等失當都可能給此項工作帶來風險。但從實際工作看,數據質量決定著檔案數字化工程的成敗和效率,數據質量不過關是造成風險乃至勞而無功的主要原因。因此,確保數據質量是數字化工作成功的關鍵。鑒于我省的實際,筆者認為實施技術層面的標準統一是確保數據質量,避免或減少館藏檔案數字化工作風險的主要措施。
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=left> 首先,檔案館在建立檔案目錄數據庫時:一是嚴格按照《檔案著錄規則》的要求確定檔案著錄項,進行著錄。二是所選定的數據格式應能直接或間接通過XML文檔進行數據交換。三是采用人工校對或軟件自動校對的方式,對目錄數據庫的建庫質量進行檢查。
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=left> 其次,檔案館在建立檔案全文數據庫時:一是應選擇通用的數據格式。字型數據采用XML文檔和RTF、TXT格式,掃描圖像數據采用JPEG、TIFF格式,視頻數據采用MPEG、AVI格式,音頻數據采用MP3、WAV等格式。二是應選擇合適的存貯方式。圖像文件如果選用數據庫存貯,則要求數據庫服務器的存貯容量足夠大;如果選用文件存貯,則應考慮存貯在文件服務器上文件的存貯規則和命名規則,以方便實現圖像文件與目錄數據庫的檢索。三是應選用專門開發的系統來實現。該系統必須符合《檔案管理軟件功能要求暫行規定》的要求,具備較強的數據獨立性,確保在軟、硬件環境發生變化時數據的完整、安全遷移及有效利用。
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-pagination: widow-orphan" align=left> 第二個問題實際上是如何實現檔案數字化中形成的目錄數據庫與圖像數據庫的掛接。《紙質檔案數字化技術規范》已對目錄數據庫與圖像數據庫的掛接提出明確的要求。國內的主流檔案管理軟件基本上都具有此項功能,相關技術已有重大突破并趨于成熟。目前,目錄數據庫與圖像數據庫的掛接一般采用兩種方式實現:一是在檔案條目信息錄入的同時,進行相關文件的掃描(或數碼拍照),并將掃描(或數碼拍照)完的文件直接上傳到FTP服務器。二是將檔案條目信息的錄入與原文的掃描(或數碼拍照)分開進行,當條目信息錄入完成且原文信息掃描(或數碼拍照)完成后,可批量選擇本地硬盤需要上傳的圖像文件上傳到FTP服務器中。若要實現批量掛接,需提前對掃描形成的圖像文件的命名規則進行定義。通常是以紙質檔案目錄數據庫為依據,將每一件紙質檔案文件掃描(或數碼拍照)所得的一個或多個圖像存儲為一份圖像文件。將圖像文件存儲到相應文件夾時,要認真核查每一份圖像文件的名稱與檔案目錄數據庫中該份文件的檔號是否相同,圖像文件的頁數與檔案目錄數據庫中該份文件的頁數是否一致,圖像文件的總數與目錄數據庫中文件的總數是否相同等。通過每一份圖像文件的文件名與檔案目錄數據庫中該份文件的檔號的一致性和唯一性,建立起一一對應的關聯關系,為實現檔案目錄數據庫與圖像文件的批量掛接創造條件。
normal style="MARGIN: 0cm 0cm 0pt; TEXT-INDENT: 32pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-pagination: widow-orphan; mso-char-indent-count: 2.0" align=left>通過檔案目錄數據庫與圖像文件的掛接,系統就可初步實現對目標檔案的全文檢索,然而,從檢索技術上講全文檢索還不止于此。真正意義上的全文檢索,不僅應該構建功能完備的檔案全文數據庫,而且能夠集成數據庫檢索技術、全文檢索技術、圖像內容檢索技術以及數字化音頻和視頻信息的檢索技術等。由于數字化檔案要求必須與檔案原件完全一致,然而目前的數字轉換、識別技術又不能完全滿足這一要求,因此,要實現數字檔案全文檢索,還有待技術的進一步發展。
normal style="MARGIN: 0cm 0cm 0pt; TEXT-INDENT: 32pt; LINE-HEIGHT: 30pt; TEXT-ALIGN: right; mso-line-height-rule: exactly; mso-pagination: widow-orphan; mso-char-indent-count: 2.0" align=right> (作者單位:河南省檔案局業務指導處)
normal style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 30pt; mso-line-height-rule: exactly">