信息網(wǎng)絡(luò)環(huán)境下的檔案信息組織
一、信息網(wǎng)絡(luò)環(huán)境下的信息組織方式
(一) 自由文本方式( Fr eet ext )
主要用于全文數(shù)據(jù)庫的組織, 是對非結(jié)構(gòu)化的文本信息進行組織和處理的一種方式。它不同于二次文獻數(shù)據(jù)庫的組織, 無需前控, 不須用規(guī)范化語言對信息進行復(fù)雜的前處理, 不是對檔案特征的格式化描述, 而是用自然語言深入揭示檔案文獻的知識單元, 根據(jù)檔案全文的自然狀況直接設(shè)置檢索點, 能夠完整地反映出一次文獻的全貌, 它是通過計算機自動進行檔案信息的處理和組織的。
(二) 超文本方式( Hyper text )
是一種將網(wǎng)上相關(guān)文本信息有機地編織在一起的信息組織方式。它以節(jié)點為基本單位, 節(jié)點間以鏈路相連, 將文本信息組織為某種網(wǎng)狀結(jié)構(gòu), 使用戶可以從任一節(jié)點開始, 根據(jù)網(wǎng)絡(luò)中信息間的聯(lián)系, 從不同角度瀏覽和查詢信息。這是一種非線性組織方式, 能提供非順序性的瀏覽功能, 比傳統(tǒng)的信息組織方式更加靈活方便, 用戶在查詢過程中可以隨時轉(zhuǎn)換到自己感興趣的信息,符合人們的聯(lián)想思維方式。超文本方式與多媒體技術(shù)的結(jié)合, 稱為超媒體方式( Hypermedia ) , 它將文字、表格、聲音、圖形、圖像等多媒體信息以超文本格式組織在一起, 使人們可以通過高度聯(lián)接的網(wǎng)絡(luò)結(jié)構(gòu)在各種信息庫中自由航行, 找到任何媒體所載的各種各樣的信息。
(三) 主頁方式( Homepage )
有點類似于檔案全宗的組織方式, 它將有關(guān)某一機構(gòu)或某個人物的各種信息集中組織在一起, 是對某個機構(gòu)或人物的全面介紹, 介紹的詳略程度由建立主頁的單位或個人自行決定。
(四) 聯(lián)機編目方式
入網(wǎng)的檔案機構(gòu)根據(jù)統(tǒng)一的規(guī)則和格式進行編目, 各單位生成的書目數(shù)據(jù)通過網(wǎng)絡(luò)進行實時傳送和交換, 形成一個邏輯上的書目庫, 實行書目數(shù)據(jù)的規(guī)范化生產(chǎn)和大規(guī)模生產(chǎn)。網(wǎng)上聯(lián)機編目可以減少重復(fù)勞動, 提高編目工作的效率和質(zhì)量, 有利于國內(nèi)外的交流和合作, 實現(xiàn)檔案目錄信息資源的共享。
二、分類法在網(wǎng)絡(luò)信息組織中的作用
分類法在傳統(tǒng)的手工檢索中一直起著舉足輕重的作用, 這是其他任何一種檢索語言都無法替代的。盡管敘詞法在計算機檢索系統(tǒng)中的應(yīng)用較之分類法更為廣泛, 但這并未從根本上動搖分類法在知識和信息組織中的傳統(tǒng)統(tǒng)治地位, 尤其在中國這樣一個仍然以手工檢索為主的國家, 分類法更是有著十分廣泛的應(yīng)用基礎(chǔ)。隨著信息網(wǎng)絡(luò)的發(fā)展, 信息量和信息種類大大增加, 除了傳統(tǒng)的檔案信息外, 還包括大量的圖形、圖像、聲音、視頻等電子信息, 信息組織的對象逐漸多樣化, 其范圍也隨之?dāng)U大, 傳統(tǒng)的信息組織方式已不能滿足需要, 其中占據(jù)主導(dǎo)地位的分類法不可避免地受到挑戰(zhàn), 與此同時面臨著新的發(fā)展機遇, 隨著分類法在信息網(wǎng)絡(luò)中的使用增多, 沿用了百余年的傳統(tǒng)分類法在網(wǎng)絡(luò)環(huán)境下煥發(fā)了青春, 越來越多的人開始重新認識分類法的作用。
(一) 用于聯(lián)機瀏覽檢索
在信息網(wǎng)絡(luò)中, 用戶可以通過計算機終端直接查詢各種數(shù)據(jù)庫, 各行各業(yè)、不同文化層次的人都可以直接利用網(wǎng)絡(luò)的信息資源, 用戶成分逐漸多樣化、復(fù)雜化。由于大多數(shù)終端用戶沒有經(jīng)過專門訓(xùn)練, 對信息組織的手段和方式不夠熟悉, 缺乏必要的信息檢索技能, 讓這些用戶用布爾邏輯構(gòu)造檢索提問式, 制訂檢索策略, 確實有點勉為其難, 因此, 越來越多的用戶通過瀏覽檢索來確定其不清晰的情報需求, 以便根據(jù)需要隨時調(diào)整檢索范圍。
隨著瀏覽檢索在聯(lián)機檢索中的重要性逐漸突出, 分類法在聯(lián)機檢索系統(tǒng)中的應(yīng)用也逐漸增多。分類法具有較強的系統(tǒng)性和族性檢索功能, 其分類體系便于人們?yōu)g覽一個學(xué)科或一個專業(yè)范圍的情報資料, 逐步確定自己的檢索范圍, 因此比敘詞法更能適應(yīng)瀏覽檢索的需要。在現(xiàn)有的聯(lián)機公眾查尋目錄(OPAC) 中, 已有一些系統(tǒng)增加了“ 瀏覽周圍書架” 的功能, 對通過任何途徑查到的條目, 均可由此進入分類系統(tǒng), 擴大或縮小檢索范圍。
分類法用作聯(lián)機瀏覽檢索時, 須對它作某種程度的改造, 使之更加適合瀏覽檢索的要求。據(jù)報道, OCLC 研究部正在進行一項改造杜威十進分類法( DDC) 使之成為因特網(wǎng)( Inte rnet ) 的瀏覽檢索工具的研究, 該項研究采用OCLC 的Internet 資源數(shù)據(jù)庫NetFirst 數(shù)據(jù)庫作試驗?zāi)P汀?/span>NetFirst 數(shù)據(jù)庫共有55 000條記錄, 每條記錄都包含有DDC 的分類號, 研究人員根據(jù)DDC類目在Net Fir st 數(shù)據(jù)庫中出現(xiàn)的頻率, 提高或降低用于聯(lián)機檢索的DDC 類表中某些類目的級次, 使之比標準的DDC 類表的類目更具描述性, 以適應(yīng)瀏覽檢索的需要。
(二) 用于非文本信息的組織
一般的文本型數(shù)據(jù)庫多采用敘詞法作為信息組織的主要手段。這是因為用自然語言語詞作標識的敘詞法能直接專指地表達文獻的主題概念, 比較適用于文本信息的組織。但如果用它來揭示和描述非文本信息, 則有點不敷使用。這是由于非文本信息如數(shù)值、圖形、圖像、聲音信息等為非結(jié)構(gòu)化信息, 不像書目信息那樣格式化、規(guī)范化, 其內(nèi)容特征難于用文字來表達。隨著多媒體技術(shù)的迅速發(fā)展, 非文本信息在網(wǎng)絡(luò)信息資源中所占比重越來越大, 如何對這些信息進行有效的組織和管理成為亟待解決的問題, 分類法的聚類功能及其代碼化標識為之提供了一條可能的途徑。比方說, 我們可以對難于用主題詞直接表示的非文本信息特征進行粗分類, 將同類信息集中在一起, 賦予分類號標識, 再結(jié)合其他方式使之有序化。
(三) 用于超文本系統(tǒng)的管理
超文本系統(tǒng)將網(wǎng)上信息組織為某種網(wǎng)狀結(jié)構(gòu), 用戶在查詢過程中可隨時轉(zhuǎn)換到自己感興趣的信息。這種方式非常靈活方便,但卻有較大的隨意性, 不少用戶在漫無目的的泛泛查詢中徒然浪費了許多寶貴的時間, 這就需要對它進行適當(dāng)控制, 而直接反映了概念之間相互關(guān)系的分類法為之提供了有效的控制手段。
分類法的語義關(guān)系網(wǎng)絡(luò)與超文本系統(tǒng)有某種相似之處, 將它用于超文本系統(tǒng), 可以起到指南的作用, 對用戶的檢索過程和檢索范圍進行控制, 為不同專業(yè)知識水平的用戶提供查詢信息的捷徑。由于超文本系統(tǒng)提供的是非順序性的瀏覽功能, 因此, 那種線性排列的等級體系分類法是不太適合用于超文本系統(tǒng)的管理的, 在這方面, 分類主題一體化詞表是比較理想的選擇。分類主題一體化詞表是一種將分類表和敘詞表結(jié)合在一起進行統(tǒng)一控制的檢索語言, 一般以分類表作主表, 既保留了完整的等級分類體系, 又通過參照系統(tǒng)反映了概念之間錯綜復(fù)雜的關(guān)系, 能滿足多種檢索要求。分類主題一體化詞表的完善的關(guān)系網(wǎng)絡(luò)可為超文本系統(tǒng)直接利用, 用來設(shè)計和管理超文本的鏈路, 并為具有不同檢索要求的用戶提供最經(jīng)濟有效的檢索途徑。
(四) 作為網(wǎng)絡(luò)信息組織的通用工具
用自然語言語詞作標識的主題法系統(tǒng)由于受語種的限制, 難于達到國際通用性。而分類法以號碼作標識, 其等級體系反映了概念間內(nèi)在的邏輯關(guān)系, 每個概念在這個分類體系中都有相對固定的位置, 不會因所用語種的不同發(fā)生變化。此外, 分類法的等級體系具有很大的伸縮性, 一種分類表可供不同單位在不同類目等級上使用。分類法的這些特性使得它在現(xiàn)有的檢索語言中最有可能成為國際通用的語言, 成為網(wǎng)絡(luò)信息組織的通用工具。
事實上, 目前國際上著名的幾部分類法如《國際十進分類法》( UDC)、《杜威十進分類法》(DDC) 、《美國國會圖書館圖書分類法》( LCC) 等都在謀求網(wǎng)絡(luò)上的應(yīng)用, 并已取得相當(dāng)進展。例如, 一些圖書館已在用DDC 組織和查詢?nèi)f維網(wǎng)(WWW)上的信息資源, DDC 正在努力向通用的多語種瀏覽檢索工具方向發(fā)展, 力求既能用來組織和檢索文獻機構(gòu)的館藏, 又能用來組織和查找Internet 上的信息資源。
值得注意的是, 目前用于聯(lián)機檢索的大多為傳統(tǒng)的大型體系分類法, 這或許是由于下面幾個原因:
(1 ) 這些分類法已經(jīng)沿用了相當(dāng)長的時間, 廣泛應(yīng)用于各個文獻工作機構(gòu), 并被翻譯成各國文字, 在世界上產(chǎn)生了比較廣泛的影響, 直接將它們用于網(wǎng)絡(luò)信息的組織, 對現(xiàn)有的信息組織體系影響較小, 容易被人們很快接受。
(2 ) 這些分類法幾乎都是綜合性分類法, 其類目范圍覆蓋各個學(xué)科專業(yè)領(lǐng)域, 具有通用性。
(3 ) 體系分類法的系統(tǒng)性較之組配分類法要強得多, 其嚴密的等級體系直接反映了知識分類的成果, 更適用于聯(lián)機瀏覽檢索的需要。
(4 ) 這些分類法大多已有機讀版, 如DDC 的機讀版Electronic Dewey 于1993 年出版, 1994 年出修訂版, 1996 年又將同年出版的DDC 第21 版制成用于視窗環(huán)境下的機讀版發(fā)行, 稱之為Dewey for Windows。UDC 的機讀版也于1994 年出版, 并制成光盤出售。這說明分類法的計算機化已取得相當(dāng)進展, 為它們在網(wǎng)絡(luò)上的應(yīng)用創(chuàng)造了前提條件。
(五) 促進分類主題一體化
分類法在信息網(wǎng)絡(luò)中的應(yīng)用將促進分類主題一體化的發(fā)展。近幾年來, 分類主題一體化有了很大進展, 越來越多的分類主題一體化詞表編制出版, 但一部一體化詞表的編制出版周期較長,要推廣使用更需相當(dāng)長一段時間。而在聯(lián)機檢索系統(tǒng)中, 分類主題一體化檢索則較易實現(xiàn)。美國國會圖書館最近制訂了一個有關(guān)分類數(shù)據(jù)的機讀目錄標準格式, 在這一著錄格式中, LCC 的分類號與美國國會圖書館主題詞表( LCSH ) 的主題詞和人名記錄相對應(yīng), 有助于編目人員確定合適的主題詞和分類號, 并可以用來編制分類號- 主題詞對應(yīng)表, 實行分類主題一體化檢索。另外, 在機讀版的DDC 記錄中, 也包含有與DDC 類號相對應(yīng)的LCSH 的主題詞, 在其電子版的相關(guān)索引中還直接選用了LCSH的主題詞。這些做法在一定程度上對分類主題一體化起到了推動作用。
通過對分類法在信息網(wǎng)絡(luò)中的應(yīng)用領(lǐng)域、應(yīng)用現(xiàn)狀及前景的分析, 我們可以描述用于網(wǎng)絡(luò)的未來分類法的主要特征:
(1 ) 機讀化。這是分類法進入網(wǎng)絡(luò)的必要前提。這里所說的機讀化不只是將分類法輸入計算機, 還要對分類法作適應(yīng)于網(wǎng)絡(luò)的改造。例如, 用于視窗環(huán)境的機讀版DDC 包含有四個系統(tǒng)定義的配有多種視窗的檢索入口以及四個用戶定義的檢索入口, 大大方便了檢索, 用戶甚至可以在DDC 的機讀數(shù)據(jù)中自己增加必要的注釋。
(2 ) 國際通用性。在網(wǎng)絡(luò)中應(yīng)用的分類法必然會跨越國界,達到國際通用性, 這主要表現(xiàn)在兩個方面: 一是作為網(wǎng)絡(luò)信息組織工具的分類法幾乎都是多語種的; 二是它們具有更少的政治和宗教傾向性, 如DDC 第21 版就對DDC20 的宗教類作了較大的修訂, 旨在降低其基督教傾向。
(3 ) 兼容性。體現(xiàn)在各種分類法之間的兼容互換及其與主題法的兼容上。目前世界上幾部大型分類法都在尋求聯(lián)合, 例如,UDC 與《布利斯書目分類法》(BC) 正在探討合作修訂醫(yī)藥類的可能性, 計劃借用BC 的主題結(jié)構(gòu)編制一新的UDC 醫(yī)藥類表,BC 同樣也可借用UDC 的詞匯或結(jié)構(gòu)。與此同時, UDC 與DDC也在計劃合作編制地區(qū)表, 希望在國家及地區(qū)概念的表達上達到一致。分類法與主題法的兼容即所謂的分類主題一體化, 如前所述, 分類法在網(wǎng)絡(luò)上的應(yīng)用會推動分類主題一體化。
(4 ) 靈活性。傳統(tǒng)的分類法具有相當(dāng)?shù)姆€(wěn)定性, 一般要使用好幾年才作一次修訂, 即使修訂也往往是小敲小打, 一般不會從根本上改動其結(jié)構(gòu)體系, 且從修訂到出版的周期很長, 這就使得分類法存在滯后現(xiàn)象, 許多新學(xué)科、新事物、新概念得不到及時反映。而網(wǎng)上計算機化的分類法則具有很大的靈活性, 可以隨時進行結(jié)構(gòu)的調(diào)整和類目的增刪改, 并能根據(jù)網(wǎng)絡(luò)的需要作較大的改造。
三、超文本與超媒體系統(tǒng)
超文本和超媒體檢索是利用計算機進行聯(lián)想檢索的一種方式。
普通的文本多為文字材料, 其知識單元按線性順序排列, 只能進行順序檢索。而超文本系統(tǒng)是用非線性方式把知識單元及其關(guān)系組合在一起構(gòu)成一種網(wǎng)絡(luò)結(jié)構(gòu), 利用計算機進行快速掃描、追蹤、查詢、交流, 以實現(xiàn)聯(lián)想檢索和瀏覽檢索功能。
(一) 超文本和超媒體系統(tǒng)的特點
超文本和超媒體系統(tǒng)與普通的信息系統(tǒng)相比, 具有以下特征:
(1 ) 采用了動態(tài)的、開放式的設(shè)計方法。允許用戶借助于鏈路從一個節(jié)點隨時轉(zhuǎn)換到另一個節(jié)點, 可隨時增添、刪改和組建超文本的知識網(wǎng)絡(luò)空間。添加新的信息, 只需鍵入并鏈接到其他信息節(jié)點即可, 無須重新設(shè)計記錄格式。
(2 ) 采用非線性排列方式, 可以揭示各種相關(guān)信息之間的內(nèi)在聯(lián)系。傳統(tǒng)的信息系統(tǒng)對信息的組織處理方式簡單、孤立, 只是對信息特征的簡單描述, 沒有深入揭示包含于信息中的知識間的內(nèi)在聯(lián)系, 其知識單元按線性順序排列。而超文本系統(tǒng)是按知識單元及其關(guān)系建立的知識網(wǎng)狀結(jié)構(gòu), 可以根據(jù)知識片斷及其關(guān)系進行非順序性的瀏覽檢索, 符合人們的聯(lián)想思維方式。
(3 ) 可以將文字、圖形、圖像、聲音等多媒體信息進行綜合處理, 可以展示圖、文、聲并茂的立體信息。
(4 ) 是一種人- 機交互的用戶友好系統(tǒng)。用戶利用計算機可以增刪信息, 加注評語, 修改或重建知識網(wǎng)絡(luò)。
(5 ) 檢索效率高。將計算機存儲、表現(xiàn)信息的能力與人腦篩選信息的能力組合在一起, 可以隨時擴大、縮小和改變檢索范圍, 實現(xiàn)多途徑檢索, 具有很高的檢全率和檢準率。
(二) 超文本系統(tǒng)的結(jié)構(gòu)與原理
超文本系統(tǒng)是利用計算機實現(xiàn)知識網(wǎng)絡(luò)的檢索和動態(tài)組合的, 建有專用的數(shù)據(jù)庫, 并配有窗口系統(tǒng)。
窗口系統(tǒng)由窗口屏幕、鍵盤和鼠標器進行操作, 實現(xiàn)人- 機交互。超文本數(shù)據(jù)庫由節(jié)點和鏈路組成, 節(jié)點表示知識單元, 鏈路表示這些知識單元之間的關(guān)系, 它將相關(guān)的知識單元聯(lián)結(jié)起來, 構(gòu)成一個關(guān)系網(wǎng)絡(luò)。超文本系統(tǒng)的工作原理如圖7-1 所示。
在超文本系統(tǒng)中, 每個文檔中都包含了若干個被醒目顯示的, 用以指向別的文檔的參照項, 當(dāng)某個參照項被觸發(fā)時, 通過數(shù)據(jù)庫中的鏈路, 系統(tǒng)馬上就可轉(zhuǎn)換到包含有該參照項的另一文檔并在屏幕上顯示出來。這種參照項是嵌入式的, 不改變原文的順序, 用戶既可以閱讀完整的一份文檔, 也可以隨時停下來選擇一個可導(dǎo)向某一新文檔的參照項進行聯(lián)想檢索, 并可隨時返回來繼續(xù)閱讀。
(三) 超文本技術(shù)與敘詞表的結(jié)合
超文本與敘詞表在結(jié)構(gòu)和使用方式上有諸多相似之處, 例
如, 超文本的節(jié)點和鏈路類似于敘詞及其參照系統(tǒng), 超文本允許從任一節(jié)點開始根據(jù)需要從一個節(jié)點過渡到另一個節(jié)點, 進行非順序瀏覽, 敘詞表的參照系統(tǒng)也有相似的功能。超文本與敘詞表的相似性使得兩者的結(jié)合成為可能。
1 . 將敘詞表轉(zhuǎn)換成超文本形式
將敘詞和非敘詞轉(zhuǎn)換成節(jié)點形式, 將參照系統(tǒng)轉(zhuǎn)換成語義關(guān)系鏈, 并增加一些自由詞節(jié)點, 將敘詞表用超文本形式組織起來并進行聯(lián)機顯示, 這樣, 觸發(fā)任一節(jié)點即可進行瀏覽檢索。
2 . 將超文本技術(shù)用于敘詞表的管理
許多超文本軟件都具有增加、刪除、修改節(jié)點和鏈路的功能, 可以為詞表的動態(tài)管理提供更好的技術(shù)環(huán)境。
3 . 利用敘詞表將普通文本轉(zhuǎn)換成超文本
敘詞表中集中了大量的專業(yè)詞匯和通用概念, 顯示了概念之間的各種語義關(guān)系, 提供了多種檢索途徑, 可以用作將普通文本轉(zhuǎn)換為超文本的參考, 尤其是可用詞表的語義關(guān)系網(wǎng)絡(luò)設(shè)計超文本的鏈路。如何為不同專業(yè)知識水平的用戶提供不同的路徑是超文本制作中的難點, 敘詞表的參與無疑為解決此問題提供了一條捷徑。
四、網(wǎng)絡(luò)信息組織中的知識表示問題
如前所述, 信息網(wǎng)絡(luò)中的信息組織已不再僅僅是對信息特征的簡單描述, 而是深入到知識層次, 具體表現(xiàn)為各種知識庫的建立。事實上, 傳統(tǒng)的分類表、敘詞表作為一種概念標識系統(tǒng)和知識組織的重要方式, 其結(jié)構(gòu)和功能與知識庫十分相近, 所不同的是, 知識庫是用人工智能技術(shù)組織起來的, 除了存儲和表達各種知識外, 還可進行推理操作。隨著人工智能、自然語言處理技術(shù)的發(fā)展以及分類表、詞表本身的現(xiàn)代化改造, 分類表、詞表的用途將不再限于文獻的標引和檢索, 而逐漸成為各種智能情報系統(tǒng)和專家系統(tǒng)有效存取知識的重要工具。
(一) 概念語義網(wǎng)的建立
概念語義網(wǎng)由分類法的類目、規(guī)范化的主題詞和自由詞, 加上一系列有關(guān)規(guī)則構(gòu)成, 它是由專家系統(tǒng)支持的, 其知識庫中包含有一個能保證它正常工作的內(nèi)部控制機制。在概念語義網(wǎng)中,一批在語義上密切相關(guān)的類目和詞構(gòu)成一族, 這些詞或詞組與所屬類目的語義親和力大小的不同通過內(nèi)部控制機制反映出來, 每一個規(guī)范詞對應(yīng)一組自由詞, 每一個自由詞可能與幾個規(guī)范詞發(fā)生聯(lián)系。在實際運行中, 由標引人員對檔案主題內(nèi)容進行初步分析, 并將有關(guān)信息如檔案題名、作者、文件類型、題錄等輸入給專家系統(tǒng), 專家系統(tǒng)經(jīng)分析、判斷、推理等內(nèi)部處理后給出分類號和標引詞。
(二) 標引模式的制定
手工標引中采用的是離散性、非結(jié)構(gòu)化的標引方式, 這種標引方式容易造成信息的失真, 這就要求進行結(jié)構(gòu)化標引, 制定出適應(yīng)于各學(xué)科、專業(yè)以及文獻特點的標引模式。標引模式化的意義在于可以提高語義表達能力, 減少標引的盲目性, 為標引的完整性、一致性和準確性提供保證, 大大降低標引過程中的信息失真度。在制定標引模式時應(yīng)考慮以下幾點:
(1 ) 要考慮不同類型的檔案在表達和描述主題時具有的不同特點;
(2 ) 要力求最大限度地、不失真地再現(xiàn)檔案主題內(nèi)容的各個方面;
(3 ) 要充分考慮不同的檢索要求;
(4 ) 要便于系統(tǒng)的組織管理。
以強大的知識庫為背景的專家系統(tǒng)在檔案信息組織中的應(yīng)用, 將在很大程度上代替標引人員繁重而復(fù)雜的勞動, 大大提高標引水平和檢索效率。