檔案檢索語言的發展
隨著檔案檢索工作的發展, 檔案檢索語言也逐漸改變了種類單一、結構簡單、質量不高、使用不廣的落后狀況, 其類型逐漸多樣化, 各種分類表、詞表近幾年紛紛編成使用, 質量也逐漸提高, 并與一般文獻檢索語言相呼應, 呈現出分類主題一體化、標準化、兼容化、計算機化的發展趨勢。
一、分類主題一體化
分類主題一體化, 指的是分類法與主題法的有機結合, 即對分類法和主題法的標識、參照、結構體例等實施統一的控制, 將其有機地融合為一個整體, 從而同時滿足分類標引和主題標引的需要。分類主題一體化已成為檢索語言的主要發展趨勢。早在20 世紀60 年代末70 年代初, 國際上就開始了分類主題一體化檢索的研究與試驗, 到現在已取得相當大的進展, 出現了一批分類主題一體化檢索系統。我國圖書情報界從80 年代初開始探討分類法與主題法結合的理論與技術, 陸續編成了《常規武器工業分面敘詞表》、《教育主題詞表》、《中國分類主題詞表》、《社會科學敘詞表》等一體化檢索詞表, 分類主題一體化已成為一種共識。在這樣的背景下, 檔案分類主題一體化檢索亦提到了議事日程上。
檔案分類法具有系統性的特點, 適于族性檢索, 檔案主題法具有直接性的特點, 適于特性檢索, 如果將它們結合起來, 實行一體化檢索, 就可達到比較完善的整體功能。具體來說, 檔案分類主題一體化有如下好處:
(1 ) 只須對檔案進行一次性的主題分析, 通過一次性查表來同時完成檔案的分類標引和主題標引兩項工作, 可大大減少工作量, 提高檔案著錄標引工作的效率。
(2 ) 可在一個統一的檢索系統中進行系統分類檢索和字順主題檢索, 用戶用同一提問就可分別從分類和主題兩條檢索途徑查到同一主題內容的檔案, 大大提高了檢全率和檢準率, 并可節省檢索時間。
(3 ) 可以提高檔案檢索語言的編制管理水平。分類主題一體化使得檔案分類表和詞表的編制管理工作可以在統一的機構下集中進行, 只要人工編出分類表, 將必要的數據輸入計算機, 就可由計算機自動生成字順主題表和各種輔助索引, 大大節省人力物力, 提高檔案檢索語言的編制速度和質量。
(4 ) 有利于我國檔案檢索體系的兼容化、標準化和計算機化。由于檔案信息前處理工作的落后一直是阻礙我國檔案信息組織與檢索工作的攔路虎, 尤其是分類標引和主題標引工作一直難于有效開展, 因此, 分類主題一體化對我國檔案界有著更為現實的意義。事實上, 一些檔案部門已經作了一些分類主題一體化的嘗試, 并取得了初步成果, 如中國第二歷史檔案館已編成一部《民國檔案分類主題詞表》、中國第一歷史檔案館已編就《清代檔案分類主題詞表》、河北省檔案館編成《革命歷史檔案機檢分類、主題詞對照表》, 全國通用的《中國檔案分類法》與《中國檔案主題詞表》的對照索引的編制工作正在進行之中。由此可見, 檔案分類主題一體化勢在必行。
分類主題一體化的途徑可以歸納為以下幾條:
1 . 編制全新的分面敘詞表
這種分面敘詞表通常由一部分面分類表和一部字順敘詞表組成, 類目和敘詞一一對應, 兩部分用分類號相連。分面敘詞表結構新, 功能強, 適應性廣, 是一種新型的一體化檢索語言, 20世紀中后期出版的影響較大的檢索語言都屬于此種類型, 如艾奇遜的《聯合國教科文組織敘詞表》(1977) 、英國標準協會的《基礎敘詞表》( 1981 )、我國的《社會科學敘詞表》、《教育主題詞表》(1993 ) 等。新編分面敘詞表可以不受舊表約束, 采用最新的理論和技術, 完全從檢索系統的要求出發進行設計, 性能優良。但這種詞表結構較復雜, 編制、使用難度較大, 難以很快推廣。
2 . 將敘詞表的范疇索引改造成嚴格的分類體系
敘詞表的范疇索引僅僅是一種輔助查詞手段, 不具備獨立的分類標引功能。如果將范疇索引進一步細分, 將所有敘詞都納入一嚴格的等級體系中, 然后配上標記符號, 并在詞形、詞義方面進行統一控制, 即將范疇索引改造成了一完整的分類表。這個分類表與字順主表相結合, 就可同時行使分類法與主題法的職能,從而達到分類主題一體化的目的。
3 . 將分類表的字順索引改造成敘詞表形式在分類表的字順主題索引款目中增加參照項, 顯示概念之間的關系, 與此同時對分類表類目進行嚴格的詞形、詞義和詞間關系的控制, 這部分類表就可既用于分類標引又用于主題標引。目前已出現了多部為《國際十進分類法》( UDC) 專業類表編制的敘詞表式的字順索引。
上面兩種方案都著眼于索引的改造, 使之不僅作為輔助查表的手段, 還可進行獨立的標引, 加強了詞表或分類表的功能, 比較簡便易行。但是, 這種一體化改造只是針對某一種現有的敘詞表或分類表進行, 并不能在更大范圍內將分類法和主題法統一兼容起來。
4 . 選擇兩部分類表和詞表, 在不變動原表的前提下, 將分類號和主題詞進行對應轉換
《中國分類主題詞表》就是這種對照索引的典型代表, 它是將《中國圖書館圖書分類法》和《漢語主題詞表》作對應轉換的產物, 分兩大部分: 第一部分是《中圖法》類號與《漢表》敘詞對照索引; 第二部分是《漢表》敘詞與《中圖法》類號對照索引。對照索引一方面可以作為一種中介詞典用于兩表的兼容互換, 另一方面也可作為一種獨立的標引工具進行分類標引和主題標引。但這種對照索引局限性較大, 表現在:
(1 ) 過分依賴原表, 其質量直接受參加對應的兩表質量的制約;
(2 ) 由于參加對應的兩表先組程度、專指度、選詞等方面的差異使得類號和詞難以等價對應, 常常是一個分類號同幾個主題詞對應, 一個主題詞對應于多個分類號, 如此互相遷就, 往往減弱了索引的功能;
(3 ) 由于編制對照索引時, 需對分類表、詞表的現有詞匯進行分析對應, 必要時還要對標識形式進行改造, 因此編制一部對照索引的工作量并不小于新編一部詞表的工作量, 尤其是當被對應的分類表、詞表一部是先組式語言, 一部是后組式語言時, 編制的難度更大;
(4 ) 由于被對應的兩表往往是使用時間較長, 使用范圍較廣, 已形成一批固定用戶的老表, 因此對照索引不太可能完全取代原表, 而原表的修訂勢必會影響到對照索引。
5 . 將現成的分類表、主題詞表結合成一個分類主題一體化詞表
它是將現有的兩部分類表、詞表經過改造, 融為一體, 形成一種新的一體化詞表。被選用的兩表應是地位相當, 并已被許多部門應用, 有著良好的性能, 其學科范圍、選詞原則、先組程度應是相近的。與對照索引一樣, 這種一體化詞表也是在原有分類表、詞表的基礎上編成的, 但它已將兩表完全融合在一起, 完全取代了原表的作用。采用這種方案主要要考慮兩表合為一表后對現有體系的影響以及能否被很快接受的問題, 這要依所選用的分類表和詞表的使用情況而定。
考慮到種種現實因素, 目前我國的檔案分類法、主題法一體化工作采用的是第四種方案, 正在對《中國檔案分類法》、《中國檔案主題詞表》進行修訂完善的基礎上著手編制兩表的對照索引。
二、標準化與兼容化
《中國檔案分類法》和《中國檔案主題詞表》實際上就是作為檔案分類和主題檢索標準而編制的, 它們作為全國統一的檔案分類標引和主題標引規范, 已經起到了國家標準的作用。這兩部分類法、詞表經修訂完善后, 將對我國檔案檢索語言的標準化起舉足輕重的作用, 它們與已經頒布推行的《檔案著錄規則》、《檔案分類標引規則》和正在制訂的《檔案主題詞標引規則》相配套, 將大大推進我國檔案信息檢索體系的標準化, 為建立全國統一的檔案信息檢索體系創造條件, 為將來的聯機檢索網絡化打下基礎。
檔案檢索語言的標準化除了編制全國通用的分類表、詞表作為標準推廣使用外, 還通過制訂分類表、詞表的編制標準來實現。目前我國已制定了《中國檔案分類法專業表編制規范》, 作為編制專業檔案分類表的準則。在檔案主題詞表編制方面, 則參照國際標準《單語種敘詞表編制與發展準則》( 1983 ) 和《漢語敘詞表編制規則》。分類表、詞表編制標準對其標識、款目格式、符號運用、概念之間關系的處理、結構體系、管理與修訂等作了統一規定, 使根據這些編制規范編出的分類表、詞表有統一的模式, 一方面保證了分類表、詞表的編制質量及其統一, 另一方面為各種分類表、詞表的兼容提供了必要條件。
兼容化實際上也屬標準化范疇, 不同的是, 標準化帶有強制性, 難以徹底實現, 而兼容化是非正式的, 只是在某種程度上實現統一, 比較容易實現。隨著檔案分類表、詞表的增多, 它們在體系結構、詞匯上存在的差異逐漸擴大, 由于每一種分類表、詞表都根據特定的需要編制, 只適合特定的檢索系統, 致使各種檢索語言和檢索系統間缺乏互換性, 給檔案檢索的網絡化帶來障礙, 因此, 須盡早采取兼容化措施。
檢索語言的兼容方式有下面幾種:
(1 ) 詞匯自動轉換。通過一套轉換規則實現檢索語言標識的自動轉換。
(2 ) 中介詞典法。中介詞典是一種協調詞表, 不能用作標引, 只能作為一詞匯轉換中心, 聯結一批需兼容的檢索語言。
(3 ) 集成詞表。將某些特定領域的若干分類表和詞表匯編成一種集成式詞表, 用于檢索語言的兼容轉換。與中介詞典不同的是, 這種集成詞表不僅僅用于詞匯的轉換, 必要時還可用作標引, 并作為新編分類表、詞表的源詞表。
(4 ) 詞庫。將多部分類表、詞表的數據匯集起來存于計算機, 是眾多受控詞匯的集合, 類似于集成詞表。我國正在進行國家敘詞庫的組建工作。
(5 ) 綜合性語言與專業性語言的兼容。即將一部質量較高的通用綜合性分類表或詞表作為規范, 在此基礎上編制各種專業性分類表, 專業性語言的基本結構、詞匯、符號等都與綜合性語言兼容。鑒于目前的實際情況, 檔案檢索語言的兼容宜采用這種方式。
由于我國檔案檢索語言的編制和使用起步較晚, 在分類表、詞表的編制過程中較早考慮到了標準化、兼容化問題, 因此, 我國檔案檢索語言的規范化、兼容化程度是較高的。其中, 各種專業檔案分類表基本上按照編制規范, 在統一的《中國檔案分類法》基礎上編制出來, 它們與《中國檔案分類法》可以說是完全兼容的。《中國檔案主題詞表》編委會也鼓勵有關部門參照該表體例, 編制自己專用的專業敘詞表, 目前已見到的有中共中央對外聯絡部的《國際共運主題詞表》, 國家氣象局的《氣象部門檔案文件主題詞表》, 中共中央紀律檢查委員會的《紀檢文件檔案主題詞表》, 原國家教委的《高等學校檔案通用主題詞表》, 等等。這些專業詞表與《中國檔案主題詞表》幾乎是完全兼容的。
然而, 在《中國檔案主題詞表》之前編制的一些檔案主題詞表如《中共中央組織部文件主題詞表》(1986 年)、《國防科工委檔案主題詞表》(1986 年) 、《軍事公文常用主題詞表》( 1987 年) 等是參照《漢語主題詞表》和其他用于圖書情報檢索的詞表編成的, 這部分詞表如何與《中國檔案主題詞表》兼容, 是個急待解決的問題。
除此之外, 《中國檔案分類法》和《中國檔案主題詞表》在修訂完善過程中, 還應盡早考慮與之兼容的專業表的協調發展問題。
三、計算機化
目前, 檔案分類表、詞表的編制和管理基本上都是手工完成的。用手工編制和管理分類表、詞表, 需花費大量的人力、物力和財力, 編表周期長, 質量難以保證, 不利于分類表、詞表的更新, 采用計算機編制和管理, 就可解決上述問題。
檢索語言編制和管理的計算機化主要體現在詞表的編制和管理上。我國圖書情報界從20 世紀80 年代早期開始研制計算機詞表編制和管理系統, 到1987 年以后已有60%左右的詞表由計算機輔助編排, 而檔案檢索語言的機編化程度則較低。計算機主要在下列方面輔助詞表的編制和管理:
(1 ) 輔助排序;
(2 ) 自動生成詞表的各個組成部分。人工輸入各種數據后,由計算機自動生成字順表、分類索引、輪排索引、雙語種對照索引等;
(3 ) 根據需要隨時輸出機讀版或印刷詞表;
(4 ) 管理和維護詞表。自動進行詞頻統計, 根據統計結果和標引需要隨時進行詞匯的增刪改。
分類表、詞表在計算機編制和管理的情況下, 自然而然也就實現了機讀化。與此同時, 可將手工編制的分類表、詞表輸入計算機, 轉化成機讀型的分類表和詞表。這種機讀表除了可作各種形式的輸出, 便于完善和維護外, 還可用于聯機查詢, 提高檔案信息檢索系統的檢索效率。
四、自然語言化
檔案檢索語言是在自然語言的基礎上發展起來的, 隨著計算機技術和網絡技術在檔案工作中的應用, 檔案檢索語言開始了向自然語言的回歸。相對于規范化的人工語言( 分類表、詞表) 而言, 在檔案信息檢索中使用自然語言, 可以取消復雜、費時的檔案標引工作, 或至少可以降低標引工作的難度和成本, 使大多數未經過專門訓練的用戶可以用自己熟悉的語言直接查詢各種數據庫, 提高檢索效率。自然語言主要以下列方式應用于檔案信息的組織與檢索:
(1 ) 關鍵詞法。指用人工或計算機將檔案原文中對表征檔案主題內容具有實質意義, 可以作為檢索入口的關鍵詞抽出來加以排列組織, 提供檢索途徑的方法。
這是自然語言用于文獻檢索最普遍的一種方法, 用來編制關鍵詞索引, 也可用于聯機檢索。常見的關鍵詞索引有題內關鍵詞索引、題外關鍵詞索引、雙重關鍵詞索引、詞對式關鍵詞索引、單純關鍵詞索引等。
(2 ) 文本檢索。即用自然語言表達檢索課題, 借助各種檢索方法, 直接在篇名、文摘、正文中查找。
(3 ) 自由標引。指不依據分類表或詞表, 而是從檔案題名、文摘、正文中選擇合適的詞或用自擬的詞進行標引。這種標引方式可以達到較高的專指度, 避免檔案信息內容在標引過程中的失真, 大大加快標引速度。
(4 ) 自動標引。指由計算機自動分析檔案信息內容, 判別檔案主題, 自動歸類或選定標引詞的標引技術。
需要指出的是, 在手工檢索條件下和計算機檢索發展的初期, 用自然語言進行標引和檢索是相當困難的, 自然語言檢索只有在聯機網絡化的環境下才能高效率、高水平地實現。而在我國, 計算機檔案信息檢索還遠未達到普及的程度, 加之漢語自然語言檢索中尚有許多難題有待解決, 所以, 在目前情況下, 自然語言不可能完全取代規范化的人工語言, 自然語言與規范化語言的結合使用不失為一良策, 兩者結合的途徑如下:
(1 ) 在規范化語言中吸取自然語言因素和手段。比如, 在詞表中大量增加入口詞, 編制專用的入口詞表等。所謂入口詞, 是詞表中作為檢索入口的非正式主題詞, 可供標引人員由自然語言語詞向規范詞轉換, 從而降低標引難度, 提高檢索效率。
(2 ) 同時使用規范詞和自由詞標引。所謂自由詞, 是指詞表未收的, 取自檔案本身, 但作了適當控制的用于標引和檢索的詞, 主要是專有名詞, 其專指度高于詞表中的主題詞。用自由詞作補充標引, 可彌補規范化語言不能及時表達新概念及其專指度偏低的缺點。
(3 ) 采用自然語言標引, 后控詞表檢索。后控詞表實際上是一種將自然語言中的同義詞、近義詞、相關詞聯系起來的詞匯集合, 只用于檢索而不用于標引, 其作用是將相關的自然語言標識組成一語義網絡, 檢索者可以從任一個詞出發, 在詞表中查到它的一批同義詞、近義詞和相關詞, 減輕確定檢索入口、擬定檢索策略的腦力勞動, 方便檢索, 并提高檢全率。