機讀檔案數據庫
一、機讀檔案數據庫的特點和種類
(一) 機讀檔案數據庫的定義與構成
機讀檔案數據庫, 簡稱檔案數據庫, 是以一定的組織方式存儲在一起的機讀檔案數據的集合。這些數據包括檔案題名、責任者、來源、頁碼、分類號、主題詞、摘要等, 少數包含檔案全文。數據庫記錄的各個項目稱為字段, 在長度上可以是固定的,也可以是可變的。這些記錄可以被組織起來以供檢索和顯示之用。具體來說, 檔案數據庫是機讀版的檔案文摘、索引、目錄、文本及其他數據匯編。它是檔案計算機檢索系統必不可少的信息資源, 是檔案計算機檢索系統的核心部分, 其性能往往影響到整個系統的功能效率。
完整的檔案數據庫系統由檔案數據庫和檔案數據庫管理系統兩大部分組成。
檔案數據庫由若干檔案數據文檔組成, 用來存儲與檔案檢索有關的所有數據。其結構分為三層:
1 . 物理數據庫
這是最內一層, 它是物理設備上實際存儲的數據集合, 包含數據庫系統使用的全部數據, 又稱物理模式或存儲模式。它與用戶沒有直接的聯系。
2 . 概念數據庫
這是中間層, 它是整體數據庫的邏輯表示, 指出每一個數據的邏輯定義以及數據間的邏輯聯系, 又稱概念模式或全局邏輯數據庫。
3 . 邏輯數據庫
這是最外一層, 也是最靠近用戶的一層, 是全局邏輯數據庫的一部分, 是某一特定用戶所使用的數據集合的邏輯表示, 又稱子模式、外模式或局部邏輯數據庫。子模式是用戶和數據庫的接口。
數據庫的三層結構如圖所示( 圖5-2 )。
檔案數據庫管理系統( DBMS) 是為建立、使用和維護數據庫而配置的軟件。它建立在操作系統的基礎上, 對數據庫進行統一的管理和控制。用戶使用數據的各種命令以及運行應用程序,都要通過數據庫管理系統來傳達。它還承擔著數據庫的維護工
作, 以確保數據庫的完整性、一致性和安全性。具體來說, 數據庫管理系統具備以下功能:
(1 ) 描述數據庫: 對數據庫三級模式的描述及建庫。
(2 ) 管理數據庫: 控制整個數據庫系統的運行; 控制用戶的并發性訪問; 數據的存取及更新處理; 執行對數據的使用與操作等。
(3 ) 維護數據庫: 確保數據的完整性、安全性和保密性; 數據庫恢復和性能監視等。
(4 ) 數據通訊: 負責處理數據的流動。
數據庫管理系統還具備與操作系統的聯機處理功能, 具備分時系統及遠程作業輸出的相應接口功能。
(二) 機讀檔案數據庫的特點
(1 ) 集成式。檔案數據庫對檔案數據實行集中化控制, 可將各種有關數據集中在一起進行統一的控制和管理, 保證了數據的一致性、完整性。
(2 ) 結構化。檔案數據具有復雜的數據結構, 它將各應用系統的全部數據合理地組織起來。
(3 ) 低冗余度。數據庫中的檔案數據重復少, 數據的冗余度被控制在最低限度, 節省了計算機存儲空間。
(4 ) 可靠性。數據庫系統采取各種手段加強了對數據的保護, 保證了數據的安全可靠。
(5 ) 共享性。數據庫系統內的各應用程序可以共用, 數據庫還可當作商品出售, 供不同用戶、不同系統使用。
(三) 機讀檔案數據庫的分類
一般將數據庫所含信息內容作為檔案數據庫的基本分類標準, 根據此標準, 檔案數據庫可分為:
(1 ) 二次文獻數據庫。包括各種機讀版的文摘、索引、目錄等, 又稱目錄數據庫。其作用在于指引用戶找到合適的檔案信息源, 也就是檔案原文, 從而滿足其檢索要求。
(2 ) 事實數據庫。又稱文本-數值數據庫, 是同時包含文本信息和數值信息的數據庫, 它提供經過加工的一次情報, 利用者可直接從中查找自己所需要的檔案信息。
(3 ) 全文數據庫。存儲機讀化的檔案全文, 可用來檢索檔案原文中的任何字、句、段、節、章等。
事實數據庫和全文數據庫統稱源數據庫, 其特點在于它本身含有一次情報, 即用戶所要求獲取的數值、事實或文本, 可直接向用戶提供所需的檔案信息。它相對于二次文獻數據庫來說, 是在更深層次上對檔案信息進行加工的產物。源數據庫近些年來發展很快。
按數據形式分, 檔案數據庫還可分為文字型數據庫、數值型數據庫、圖像型數據庫等。近年來又出現了將文本、數值數據、圖像圖形、聲音結合在一起的多介質數據庫, 這種數據庫不僅能提供靜態的文本、數字或表格, 還可聞其聲、見其形, 是多媒體技術發展的產物。
二、機讀檔案數據庫的生產
(一) 機讀檔案數據庫的生產過程
機讀檔案數據庫的生產, 包括檔案材料的收集、鑒選、摘要、數據錄入、校對、計算機處理等環節。
1 . 檔案材料的收集
首先, 確定檔案的收集范圍和來源, 按要求全面收集檔案材料, 作為建庫的原始材料。收集檔案材料一般以館藏豐富的檔案館( 室) 為基地, 除此之外, 一些研究機構和管理部門也可作為數值數據和事實數據的重要來源。
2 . 檔案材料的鑒選
收集來的檔案材料須經過鑒別選擇, 不能有檔必錄, 這是決定數據庫內容范圍和適用性的基本手段。鑒選時, 應以利用者需要為準則, 根據數據庫的目的、范圍選擇有價值的檔案材料, 摒棄價值較小或者有明顯錯誤的檔案材料。
3 . 檔案文摘的編寫
將收集來的檔案材料一一作摘要, 將檔案中包含的信息濃縮于檔案文摘中, 以便進一步加工處理。檔案文摘的編寫應當標準化, 遵循國家標準GB6447-86 《文摘編寫規則》。
4 . 數據準備
將檔案的內容特征和形式特征著錄、標引出來, 為數據庫提供經過加工處理了的數據。著錄標引也須達到規范化、標準化的要求。
5 . 數據錄入
將檔案前處理結果轉化成機讀數據。數據錄入工作可以用計算機鍵盤根據工作單進行, 也可以用文字處理設施進行, 以后再作成批轉換。
6 . 校對
計算機自動對錄入的數據進行審核, 如審查字段的數據形式是否正確; 字段長度是否符合; 各種標識符號是否有誤等。計算機對數據的校驗可分別在不同階段進行。
7 . 計算機處理
由計算機在程序控制下進行記錄裝配與格式轉換。各個檢索系統內部的數據格式可以不同, 但為了便于系統間的交換, 國際上有一種通用的標準化格式, 即ISO2709 《書目信息交換用磁帶通訊格式》。
(二) 檔案信息的磁帶記錄格式與機讀檔案目錄
數據庫生產者一般是將其生產的數據庫記錄在磁帶上發行的。經手工方式進行著錄、標引形成的檔案二次信息, 要以機讀形式表達出來, 須對數據單元進行更為嚴格的標準化處理, 包括對每個項目的長度、所使用的標記符號、數據單元的含義等作出具體的規定。目前, 我國已根據ISO2709-1973 制訂了國家標準GB2901-82 《文獻目錄信息交換用磁帶格式》, 提供了磁帶格式的基本輪廓, 可適用于處理不同類型的文獻信息。
機讀目錄(MARC) 是60 年代后期在手工方式上發展起來的用計算機處理的目錄形式, 最初只用于圖書編目, 專門用于檔案檢索的機讀目錄是以后才發展起來的。
1973 年, 美國國會圖書館第一次發表了用于手稿管理的機讀目錄格式, 由于該格式在制定過程中沒有檔案界的參與, 所以一發表就遭到了反對, 后來, 美國檔案學會成立了一個檔案信息交換委員會(CAIE) , 與已有的美國圖書館協會的機讀目錄信息委員會(MARBI ) 合作, 在1973 年發表的手稿機讀目錄格式的基礎上, 修改成MARC AMC 格式( MARC for Archives andManu scripts Control ) , 作為研制檔案信息系統的數據格式標準。
該格式直到1986 年以后才真正被檔案界接受, 成為建立檔案二次文獻數據庫的基礎。
MARC AMC 的邏輯記錄格式為典型的目次方式, 由頭標區、目次區、數據區三個區組成, 數據又分為控制字段( 固定長字段) 和可變長字段兩部分。
1 . 頭標區
固定長24 字符, 從記錄的第0 位起, 到第23 位結束, 無字段結束符, 提供以下參數:
(1 ) 記錄總長。記錄所占字符的總數。
(2 ) 記錄狀態。說明該記錄是新輸入的、刪除的, 還是修改過的記錄。
(3 ) 記錄類型和目錄級別。
(4 ) 指示符長度和子字段代碼標識符長度。
(5 ) 數據基地址。指出數據區第一個字符的地址。
(6 ) 目次區內字段長度。
以上六項參數共占用18 位, 余下的6 個字符供用戶決定如何使用。
2 . 目次區
由若干個目錄加一個字段結束符組成。目次區內目錄的數量, 取決于數據區字段的數量, 數據區每12 個字段在目次區中都有一個長度為12 個字符的目錄。目錄是定長的, 總長度為12N ( N 為數據區內字段的個數)。
3 . 數據區
是MARC AMC 的核心部分。字段設置的主要依據是檔案著錄規則, MARC AMC 是根據英美編目條例( AACR-Ⅱ ) 制訂的, 和我國的《檔案著錄規則》有較大差別。數據區中每個字段結束時, 都必須有字段結束符( F, 1F16 ) , 最后一個字段的結束符用記錄結束符( R, 1D16 ) 代替。
MARC AMC 具有以下功能:
(1 ) 作為數據交換的媒介, 在系統間交換目錄信息, 可用來建立標準的二次檔案文獻數據庫, 建立檔案目錄中心, 在一定程度上實現檔案編目的社會化和檔案信息資源共享。
(2 ) 可以集中生產卡片式和書本式目錄, 編制聯合目錄, 提高目錄生產的效率和質量。
(3 ) 可以用來生產各種機編索引, 提高索引生產的自動化程度。
(4 ) 可以縮微形式輸出目錄信息, 利用計算機縮微輸出設備(COM) , 將機讀目錄信息直接轉換為光電信號記錄在縮微載體上。
(5 ) 可以提供多途徑檢索。MARC 記錄中的每個數據單元都可作為檢索入口, 檢索途徑比手工著錄的目錄要多得多。
總之, MARC AMC 格式為建立檔案二次文獻數據庫提供了標準化的數據基礎, 它不一定完全適用于我國機讀檔案目錄的生產, 但可作為發展我國機讀檔案目錄格式的借鑒。
(三) 檔案數據庫對檔案著錄標引的特殊要求
1 . 對檔案著錄的要求
(1 ) 必須采用機讀目錄格式進行著錄。應采用國家標準GB2901-82 《文獻目錄交換用磁帶格式》和《文獻目錄信息交換用軟盤格式( 暫行規定)》。
(2 ) 采用標準的項目標識符。
(3 ) 采用詳細著錄級次, 必要時可增加一些項目。
(4 ) 填寫著錄工作單, 保證數據錄入準確無誤。
2 . 對檔案標引的要求
(1 ) 進行深度標引。采取全面標引方式, 對檔案的整體主題和局部主題, 只要有較大檢索意義的, 都可標引出來。一般來說, 一份檔案標引深度可達到5~15。
(2 ) 用自由詞作補充標引。對一些新概念和詞表中未列出的專有名詞如人名、地名、機構名、工程代號、產品代號、會議名稱等, 可作為自由詞經一定規范后直接標引出來。
(3 ) 標引具有兩個或兩個以上主題的檔案時, 采用關聯符號, 以避免誤組配。同一個主題的標識采用相同的關聯符號, 置于文獻號之后。例如, 對《鋼的硬度和鋁的強度分析測試報告》,標引為:
鋼 0124a 硬度0124a 測試0124a, b
鋁 0124 b 強度0124b
在這里, 0124 是文獻號, a、b 是關聯符號。檢索比號時, 不僅文獻號須相同, 關聯符號也須相同。
(4 ) 加注機編主題目錄標題符號。數據庫可用來生產供手工檢索用的機編目錄和索引, 供手工檢索用的標引詞是先組散組式的, 對標引深度和組配次序有一定的限制, 為此須加注標題符號。
標題符號一般由兩部分組成, 位于前面的符號表示是哪一條款目, 后面的符號表示標題的級別。例如:
鋼 S1 A 硬度S1 B 測試S1 C, S2 C
鋁 S2 A 強度S2 B
S1 、S2 分別表示第一、二條款目, A、B、C 分別代表主標題—子標題—次子標題。根據此標題符號可做成兩條款目:
① 鋼———硬度———測試
② 鋁———強度———測試
(5 ) 進行上位登錄。即在給出一個檢索詞或分類號的同時,給出所標引檔案所有的上位詞或上位類號。其作用是方便擴檢,提高檢全率。上位登錄可通過程序由計算機自動進行, 也可人工進行。
(6 ) 填寫標引工作單。工作單所列欄目和項目視具體的檔案計算機檢索系統的建庫要求而定, 一般包括: 檔號、縮微號、密級、時間、作者、題名、文摘、文件類型、分類號、主題詞、自由詞、關聯詞、標題符號、立檔單位等。
三、機讀檔案數據庫的性能指標
(一) 數據收錄的完備性
這是評價數據庫質量的首要指標。數據庫覆蓋面的大小, 收錄數據的完備程度, 關系到它是否能全面滿足用戶的檢索要求,是取信于用戶的基本前提。
(二) 數據的準確性
數據庫中收錄的數據是否準確可靠, 是保證檔案檢索系統檢索效率的重要因素, 數據的任何差錯如格式的不一致、字符的出入、拼寫的失誤, 對計算機處理和檢索都有很大影響。尤其在數值型和事實型數據庫中, 數據的不準確, 將會造成嚴重后果, 可能導致用戶對數據庫的徹底否定。
(三) 信息含量的充分性
指檔案數據庫揭示檔案信息特征的充分程度, 如對一份檔案著錄項目的詳細程度; 有無摘要; 摘要的詳略如何; 標引深度的大小等。數據庫的信息含量越充分, 就越有助于用戶判斷檔案的價值及其切題程度, 從而幫助他們迅速準確地找到自己所需要的檔案。
(四) 數據庫的及時性
主要指一份檔案從形成到納入數據庫之間的時差。如果用戶先看到原始檔案, 然后才從數據庫中檢索到該檔案的有關信息,就會認為數據庫提供的數據不及時。數據庫的及時性對于現實效用較強的科技檔案尤其重要, 數據庫的時差越短, 其價值就越大。
(五) 數據庫的成本效益
建立數據庫需耗費大量的人力、物力, 租用或購買數據庫的花費也不小。因此, 經濟成本是衡量與選擇數據庫的重要指標,應盡可能用最低的成本達到較大的效益。計算數據庫成本的指標包括每個字段、每條記錄的平均費用, 每次檢索、每條命中記錄的平均費用等。