網絡檔案計算機檢索系統實現
(一)系統實現階段解決的主要問題
系統實現也叫系統實施,通過這一階段的工作最終實現檢索系統。這一階段主要的工作有以下幾方面:
1.硬件:購買機器及輔助設備,購置機房設施。
2.人員:進行檢索系統使用與維護人員的組織與培訓。
3.數據:為網絡檔案計算機檢索系統準備好準確、規范、適用的檔案數據。這是檔案工作人員在這一階段和整個檢索系統開發過程中最重要的工作。
4.軟件:將軟件的設計最終轉換成計算機所能接受的程序。軟件的實現包括兩個階段的工作:程序編寫和測試。程序編寫的質量直接影響到系統的測試、交付使用和維護工作,所以對它的質量要求不能忽視。編寫出來的程序應當結構良好、簡潔易讀、符合設計要求。測試是指為了發現軟件錯誤而進行的各種活動。實踐表明在軟件開發過程中即使人們考慮得再周密,程序設計工作再細致,也難免出現錯誤。測試工作即通過運行編寫好的程序來發現錯誤,并排除這些錯誤,以保證軟件的可靠性和質量。
(二)系統實現階段的分工協作
在系統實現階段,各類工作人員要明確職責,分工協作。一是系統分析員,主持整個系統的實現工作;二是程序設計員,選用開發工具,按照系統設計方案具體編寫程序,實現設計思想。保證技術的先進性,保證技術方法的合理性;三是檔案工作人員,對檔案進行著錄標引,為檢索系統做數據準備;四是硬件維護人員,負責硬件購置和日常維護。在系統實現過程中,主要的程序設計與實現都由計算機技術人員來實現。檔案工作人員除了進行數據準備工作外,還要參與對軟件的測試工作。要不厭其煩地對軟件進行仔細的測試,處理測試過程中出現的所有與檔案專業相關的同題并提出改進意見,完善檢索系統的功能。這個過程中必須實現檔案工作人員與技術人員良好的溝通。在檔案信息網絡化建設過程中,系統的開發研制過程不是一條直線的過程,而是一個螺旋式上升的過程。設計、實現、測試、再設計、再實現、再測試、? ?,這個過程往往要有幾個回合的反復,系統的開發才能達到一個比較令人滿意的水平。
(三)網絡檔案計算機檢索系統的數據準備
數據是指對客觀事物的符號表示,在計算機科學中是指所有能輸入到計算機中并被計算機程序處理的符號的總稱。在計算機系統中對檔案信息描述的結果就是形成了各種數據。
網絡檔案計算機檢索系統的數據準備,就是上一節中討論的“前處理”,即將傳統檔案文獻用手工方式整理好,電子文件可以進行虛擬整序。按照檢索系統的要求和確定的著錄項目、著錄格式對檔案信息進行加工處理,使之成為檢索系統可用的數據。這些數據包括檔案目錄信息、電子文件、多媒體文件等。然后使用檢索軟件將整理好的數據按一定格式輸入數據庫。電子文件與多媒體文件可以存入數據庫,也可以僅在數據庫中建立鏈接。
數據準備是計算機檢索系統實現的基礎和前提條件。計算機不具備人腦的思維能力,完全按照輸入的提問詞或其他標識進行機械“匹配”來命中檢索結果。檔案計算機檢索系統的查全和查準質量完全取決于所用提問詞及其組配關系。為了獲得正確的提問詞和檢索策略,必須較好地進行數據準備。另外,各種紛繁蕪雜的檔案信息必須經過適當的取舍、加工、整序之后,才能構成虛擬的有序狀態,才能在同一平臺中進行提問與數據的匹配,才能為檢索系統所用。可見,數據準備的質量如何,直接關系到檢索系統的成敗,影響檢索系統的效率。
在數據準備工作中檔案的著錄標引是中心環節。檔案著錄標引是數據的獲取手段和檢索系統的入口,是提高檢索系統科學性、實用性的關鍵。檢索系統的科學性,就是科學地設計檢索系統的結構體系,科學地進行著錄標引,存儲的信息量豐富,能從多途徑查找,檢索效率高。檢索系統的實用性,是指編制任何一種檢索工具,都應把質量和效益放在首位。檔案信息檢索系統要有良好的存儲和檢索功能,就必須使著錄標引項目詳細具體,具有完備、網羅性強、標引專指性高、能準確地揭示檔案的外形和內容特征等。只有這樣才能夠幫助檔案人員和利用者正確地了解檔案信息的內容和價值,指引他們去檢索所需要的信息。著錄標引工作的任何差錯,都將直接影響檔案檢索系統的質量,降低其效能,甚至會使其喪失應有的作用。尤其是要實現對電子文件的有效管理,不僅需要對其原件進行存儲,同時也需要將電子文件(一次檔案信息)加工成二次檔案信息同時進行存儲。這些二次檔案信息用于描述電子文件的內容特征和外部特征,對電子文件進行詳細、深刻的揭示。也就是說必須對電子文件進行著錄標引得到相關數據,以便準確地揭示電子文件的主題內容、科學價值、物質形態、形成機構和存放地點,區別相互之間的異同,使得檢索系統準確迅速地檢出所需的電子文件。在目前的研究階段,電子文件著錄標引呈現一定程度的混亂現象:由于缺乏統一的標準,各檔案機構所設想的著錄方法各不相同,著錄項目設置各異;同樣的著錄項目,由于理解不同,著錄結果也有差異;符號代碼混亂等。這些情況嚴重影響了網絡檔案計算機檢索系統的質量,也是致使檔案界的管理水平和信息檢索能力遠遠落后于圖書館界、情報界的重要原因。
筆者認為,在檔案信息網絡化建設過程中,網絡檢索已有相對成熟的技術可供使用,我國檔案界配備的計算機硬件及計算機應用水平并不落后,許多檔案計算機檢索系統的研發水平比較高。目前,限制網絡檔案計算機檢索系統發展的瓶頸在于相應的檔案基礎工作做得不夠,其中主要是檢索系統的數據準備數量不充足、質量低下。
事實上,在檔案手工管理階段,我國檔案管理中的基礎工作尤其是整理工作相較于許多國家的同行做得扎實。但在現代化管理階段,我國檔案管理中的基礎工作并沒有向適應現代化發展的方向轉變,仍然沿用老一套方法,導致檔案信息化建設過程中,反而是基礎工作做得不夠。對我國檔案工作來說,開發檔案計算機檢索系統中的重頭戲,是需要對大量的檔案再度鑒定、整理、著錄,做到統一數據處理標準、著錄內容完整翔實。但是,目前不少檔案機構對于數據準備工作的意義認識不足,導致開發的檔案計算機檢索系統有的著錄標引項目不全,有的沒有進行規范控制,有的為追求建庫速度搞突擊,著錄標引數據項簡之又簡,有的甚至根本未作著錄標引,僅根據原有的登記簿錄入。尤其是在電子文件出現之后,由于其信息與載體的可分離性使得檔案不再是看得見、摸得著的物質實體,要對其實行有效管理就要更準確地進行更詳細的著錄,而我國對電子文件著錄標準與著錄格式鮮有研究,難于對其實現有效的管理。凡此種種,造成我國網絡檔案計算機檢索系統的數據量少質差,嚴重影響了檢索效率。許多網絡檔案計算機檢索系統投入使用后,沒有相應的數據可供檢索,許多檢索要求仍要依靠老方法進行手工檢索,失去了網絡檢索和計算機檢索存在的意義,造成人、財、物的浪費。筆者認為數據質量低下的檢索系統還不如沒有檢索系統。
當然,對于一個個體的檔案機構來說,檢索系統的數據準備工作是一項復雜而浩大的工程。這項工程決不是一蹴而就的,而是一個長期的、逐步積累的過程。
以現代化管理水平較高的美國為例。美國檔案部門采用自動化系統較早,機讀檔案目錄信息長年積累,數量達到相當高的比率,有些檔案館甚至達到100%。即使這樣,他們在建設檔案網站時,仍花費了相當長的時間,投入大量人力、物力,進行數據準備工作。美國國家檔案與文件署網站建設,從1996年7月至1999年10月初步竣工,投入人力達幾百人。其中檔案工作人員的工作十分枯燥,每天做大量的信息著錄等數據處理工作。即使這樣,目前其網絡檔案信息檢索系統的數據覆蓋率還較低,該機構計劃是到2007年,將95%的現存檔案信息錄入數據庫。再如美國史密森納研究院檔案館,由于實現了計算機自動化檢索,該館特別注重對檔案的著錄工作。他們接收檔案進館后基本上不做什么整理工作,而是利用編目檢索系統,采取靈活實用的原則對進館檔案進行詳細的著錄標引。該館檔案工作人員工作重點主要就是研究怎樣做索引、怎樣著錄標引,以保證每份進館檔案在計算機檢索系統中都能檢索到。著錄標引工作非常精細,有專人負責對接收的每份文件進行著錄,有專人校對檢查。
在我國檔案管理工作中,沒有為檔案計算機檢索系統做過大規模的基礎工作,加之檔案管理規范化未得到全面貫徹落實,沒有相應的體制保障和資金投入,導致我國不少檔案館,尤其是歷史檔案較多的檔案館仍有一定比例的檔案至今未做到有目可查。基礎工作不完善已成為檔案信息化建設的嚴重障礙。近年來,國家檔案行政管理部門已經意識到檔案基礎工作薄弱的現狀,業已開始加大檔案基礎工作建設力度。目前一些檔案機構的數據準備工作已經進入了初步積累階段。在這個階段必須有清醒的認識,一方面要研究和完善標準,依據標準腳踏實地地做好數據準備工作,確保數據質量。使得檢索系統不僅滿足當前工作需要還可以適應未來發展需要,在未來具有一定的發展空間。另一方面,要認識到這項工作在短期內可能無法從根本上解決問題,目前所要做的就是開始逐步積累數據。但這種積累必須劃分發展階段制定嚴格可執行的目標,爭取在最短的時間內完善數據準備工作,使檔案計算機檢索系統達到可用,繼而為檔案信息化建設奠定良好的工作基礎。
以解放軍檔案館檔案目錄數據的積累為例。該館檔案目錄數據的積累始于1987年該館檔案自動化管理工作,歷經十余年的時光,迄今檔案目錄數據達到一百多萬條。1987年,該館在PDP11/24計算機上開發研制了《檔案管理自動化系統》,用“北極星”微機聯機輸入了檔案目錄數據一萬條,并同時做好了與目錄數據相關的檔案存放工作。隨后,全軍開始建設“軍檔工程”,推廣使用統一的檔案管理軟件。各機關檔案室統一使用《公文檔案信息網絡系統》,將多數文件資料的目錄數據錄入數據庫,有些已通過系統加工整理形成了檔案數據。這些數據符合軍隊標準,在檔案交接時同時轉入檔案館存儲和使用。另外,解放軍檔案館開發使用的作為“軍檔工程”之一的《軍隊檔案館文獻信息管理網絡系統》,還確保了兩個系統中檔案目錄數據的通用性,即保證從檔案室公文系統中輸出到檔案館的數據非常方便地流入到檔案館系統的相應數據庫中。省去了許多煩瑣的數據轉換處理,節約了許多時間。此外,《軍隊檔案館文獻信息管理網絡系統》建立了對應的數據表,把過去用Dbase、FOXbase等小型數據庫系統錄入的檔案目錄數據,轉換至全軍統一的ORACLE數據庫中,一舉解決了過去十余年館內外脫機輸入的檔案目錄數據的轉換問題,取得了良好的效果。在解放軍檔案館,從早期的PDP11/24計算機上的《檔案管理自動化系統》到現在的《軍隊檔案館文獻信息管理網絡系統》,從最早的一萬條檔案目錄試驗數據到現在已錄入的一百多萬條標準檔案目錄數據,標志著其檔案自動化管理工作已經進入了應用階段。
解放軍檔案館檔案目錄數據積累的實踐給我們很多啟示。筆者認為最重要的有兩點:一是注意數據處理的連續性和延續性,該館是經過十幾年的積累才達到今天的規模;二是注意數據處理的繼承性或適應性。隨著計算機技術、數據庫技術以及網絡技術的發展,檔案目錄數據的格式也處在不斷變化之中。要使數據與新系統、新環境的要求相適應,就必須解決好數據標準化問題和數據格式的更新換代問題。