檔案數(shù)據(jù)庫(kù)建設(shè)基本程序與要求
利用現(xiàn)代信息技術(shù),將檔案信息和檔案的管理信息,按照一定的規(guī)則和格式轉(zhuǎn)換成數(shù)字信息,建立起檔案信息資源數(shù)據(jù)庫(kù)。檔案數(shù)據(jù)庫(kù),從廣義的角度講,就是以特定方式組織起來的檔案數(shù)據(jù)集合。具體地講,就是為滿足多個(gè)用戶多種應(yīng)用需要,按照一定的數(shù)據(jù)模型將本單位所保管的檔案信息存貯在計(jì)算機(jī)中以備使用的數(shù)據(jù)形式。
檔案數(shù)據(jù)庫(kù)的應(yīng)用能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的集中化控制,將所有相互聯(lián)系的數(shù)據(jù)集中在一個(gè)數(shù)據(jù)庫(kù)中進(jìn)行統(tǒng)一的維護(hù)和管理,數(shù)據(jù)的格式具備一定的標(biāo)準(zhǔn)性,便于大批量的錄入和修改及檢索。不同用戶只需從中取出所需的部分?jǐn)?shù)據(jù),減少了數(shù)據(jù)的冗余度,集中化管理避免了相同數(shù)據(jù)的重復(fù)出現(xiàn)而降低檢索速度,減少數(shù)據(jù)冗余和存儲(chǔ)空間的浪費(fèi),實(shí)現(xiàn)了數(shù)據(jù)共享,數(shù)據(jù)庫(kù)系統(tǒng)的最重要的一個(gè)優(yōu)點(diǎn)就是數(shù)據(jù)與應(yīng)用程序相互獨(dú)立,保證了各類應(yīng)用程序?qū)?shù)據(jù)的需求,實(shí)現(xiàn)數(shù)據(jù)共享,充分發(fā)揮檔案數(shù)據(jù)庫(kù)的作用的同時(shí)也提高了檔案的利用率。
1 檔案數(shù)據(jù)庫(kù)建設(shè)原則
檔案信息數(shù)據(jù)庫(kù)設(shè)計(jì)的總則應(yīng)符合國(guó)際和國(guó)家規(guī)則,便于管理、傳輸、檢索,符合檔案著錄規(guī)則,易于維護(hù),通用性強(qiáng),便于各系統(tǒng)應(yīng)用及聯(lián)系。
1.規(guī)范化原則
檔案數(shù)據(jù)庫(kù)如果不規(guī)范,比如數(shù)據(jù)著錄項(xiàng)目的字段名與字段類型及著錄項(xiàng)目的總數(shù)等各不相同,就會(huì)在客觀上為檔案數(shù)據(jù)庫(kù)的規(guī)模化、網(wǎng)絡(luò)化利用設(shè)置障礙。堅(jiān)持規(guī)范化原則就可以扭轉(zhuǎn)數(shù)據(jù)格式和元數(shù)據(jù)不統(tǒng)一的局面,建立一個(gè)操作性強(qiáng)、適用面廣、科學(xué)實(shí)用的檔案信息資源數(shù)據(jù)庫(kù)系統(tǒng)。
檔案數(shù)據(jù)庫(kù)的規(guī)范化直接關(guān)系到檔案信息資源檢索體系的統(tǒng)一,它涉及檔案業(yè)務(wù)工作的許多環(huán)節(jié),概括起來主要有三個(gè)方面:首先是檔案著錄標(biāo)引規(guī)范,以保證各級(jí)檔案部門所生成檔案信息條目一致、準(zhǔn)確及具有自我說明能力;二是檔案信息數(shù)據(jù)庫(kù)結(jié)構(gòu)規(guī)范,確保各級(jí)檔案部門所生成的檔案機(jī)讀目錄具有統(tǒng)一方便的檢索與交換格式;三是檔案計(jì)算機(jī)管理軟件開發(fā)技術(shù)規(guī)范,用于營(yíng)造統(tǒng)一的信息平臺(tái),將各級(jí)檔案部門所生成的檔案機(jī)讀目錄集成于一體。
檔案著錄必須統(tǒng)一規(guī)范,否則就會(huì)在出現(xiàn)同一事物或同一人物具有不同的名稱,而不同的事物或不同的人物卻具有同一名稱等一系列問題時(shí),造成同一檢索點(diǎn)的條目前后不一致的現(xiàn)象,影響檔案機(jī)讀目錄數(shù)據(jù)檢索和利用的質(zhì)量和效率。
統(tǒng)一檔案機(jī)讀目錄數(shù)據(jù)庫(kù)結(jié)構(gòu),對(duì)于檔案信息化和網(wǎng)絡(luò)化建設(shè)具有至關(guān)重要的意義。數(shù)據(jù)庫(kù)結(jié)構(gòu)的統(tǒng)一,是用于消除檔案資源數(shù)據(jù)庫(kù)聯(lián)網(wǎng)檢索數(shù)據(jù)對(duì)接時(shí)出現(xiàn)的不規(guī)范現(xiàn)象。統(tǒng)一使用規(guī)范化、標(biāo)準(zhǔn)化的機(jī)讀目錄數(shù)據(jù)庫(kù)格式,有助于簡(jiǎn)化網(wǎng)上的檔案機(jī)讀目錄數(shù)據(jù)交換與檢索,從而能夠使來源不同的數(shù)據(jù)庫(kù)很容易地結(jié)合在一起,有利于在網(wǎng)上對(duì)檔案機(jī)讀目錄信息的規(guī)模化利用,發(fā)揮出整體信息資源體系的優(yōu)勢(shì)。
2.檢索優(yōu)先原則
數(shù)據(jù)庫(kù)建設(shè)旨在提供豐富的信息資源,實(shí)現(xiàn)資源共享,尤其是在網(wǎng)絡(luò)環(huán)境下必須要求擁有完備的檢索功能體系。檢索界面簡(jiǎn)潔明了,易于操作,提供多途徑檢索。如主題詞、責(zé)任者、分類號(hào)等,并能實(shí)現(xiàn)各項(xiàng)相互間的“與”“、或”“、非”的邏輯組配檢索,而且可實(shí)現(xiàn)標(biāo)引詞的位置算符檢索,在一次檢索結(jié)果的基礎(chǔ)上實(shí)現(xiàn)多次循環(huán)檢索,以提高查全率和查準(zhǔn)率。數(shù)據(jù)庫(kù)還應(yīng)根據(jù)用戶的要求,提供多種顯示輸出方式,以便用戶根據(jù)自己的需要挑選滿意的信息輸出形式。
其次,規(guī)范的標(biāo)引體系系統(tǒng)。數(shù)據(jù)庫(kù)信息檢索的實(shí)現(xiàn)以其對(duì)信息的標(biāo)引為基礎(chǔ),以檢索軟件為依托,在網(wǎng)絡(luò)條件下進(jìn)行資源共享。所錄入的檔案信息等有關(guān)信息的標(biāo)引必須統(tǒng)一規(guī)范與標(biāo)準(zhǔn),實(shí)現(xiàn)與因特網(wǎng)上信息資源檢索的接軌。實(shí)現(xiàn)對(duì)檔案信息規(guī)范化的標(biāo)引必須以一定的“分類法”與“詞表”為基礎(chǔ)。前者是實(shí)現(xiàn)對(duì)檔案知識(shí)學(xué)科的標(biāo)引,后者是實(shí)現(xiàn)對(duì)檔案的主題內(nèi)容的標(biāo)引。所以,應(yīng)該根據(jù)《檔案著錄規(guī)則》、《中國(guó)機(jī)讀檔案規(guī)范格式》、有關(guān)檔案及文獻(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)標(biāo)引,實(shí)現(xiàn)用戶理想的檢索效果。
3.可持續(xù)發(fā)展原則
可持續(xù)發(fā)展原則首先是數(shù)據(jù)的可持續(xù)發(fā)展。檔案館保存的大量檔案資料是天然優(yōu)勢(shì),能保證數(shù)據(jù)庫(kù)的數(shù)據(jù)來源不斷。數(shù)據(jù)源是數(shù)據(jù)庫(kù)建庫(kù)的根本,也是不斷豐富完善數(shù)據(jù)庫(kù)數(shù)據(jù)的關(guān)鍵。其次是數(shù)據(jù)庫(kù)系統(tǒng)的可持續(xù)發(fā)展,隨著技術(shù)與需求的發(fā)展,數(shù)據(jù)庫(kù)要能不斷地更新維護(hù)。再有是數(shù)據(jù)庫(kù)開發(fā)在人力和經(jīng)費(fèi)等條件上要有所保障,決不能半途中斷,這是數(shù)據(jù)庫(kù)開發(fā)的基本保障。
2 檔案數(shù)據(jù)庫(kù)建設(shè)基本程序
1.前處理工作
檔案信息的收集。網(wǎng)絡(luò)中的檔案信息的主要來源是傳統(tǒng)檔案的數(shù)字化和電子文件。除此之外,一些檔案機(jī)構(gòu)和管理部門也是數(shù)值數(shù)據(jù)和事實(shí)數(shù)據(jù)的重要來源。在建立相應(yīng)的數(shù)據(jù)庫(kù)時(shí),必須首先確定檔案信息的收集范圍和來源,按要求進(jìn)行全面的收集。
檔案信息的前處理。這是一項(xiàng)基礎(chǔ)工作,為數(shù)據(jù)庫(kù)提供經(jīng)過加工處理的數(shù)據(jù)。主要是將檔案的內(nèi)容特征和形式特征著錄、標(biāo)引出來。著錄標(biāo)引必須達(dá)到規(guī)范化、標(biāo)準(zhǔn)化的要求。這是建立數(shù)據(jù)庫(kù)的必要過程,也是保證檢索質(zhì)量的前提條件。
確定數(shù)據(jù)結(jié)構(gòu)。這項(xiàng)工作主要由技術(shù)人員根據(jù)檔案人員提供的著錄信息來完成。
2.數(shù)據(jù)采集、錄入、校對(duì)工作
將檔案信息前處理的結(jié)果轉(zhuǎn)化成機(jī)讀數(shù)據(jù)。錄入過程需要較嚴(yán)格的校對(duì)審核。如審查字段的數(shù)據(jù)形式是否正確,字段長(zhǎng)度與確定的結(jié)構(gòu)長(zhǎng)度是否符合,各種標(biāo)識(shí)符號(hào)是否有誤等。這其中還可能包括對(duì)不同格式的數(shù)據(jù)進(jìn)行轉(zhuǎn)換等工作。
3.數(shù)據(jù)質(zhì)量驗(yàn)收、匯總、入庫(kù)和網(wǎng)絡(luò)發(fā)布
由于計(jì)算機(jī)硬件不斷更新,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)迅猛發(fā)展,數(shù)據(jù)庫(kù)系統(tǒng)發(fā)生著很快的變化。雖然它的基本組成部分仍然是數(shù)據(jù)、軟件和硬件,但是它們的范圍、規(guī)模和復(fù)雜性都大大地?cái)U(kuò)展了。其中最主要的變化就是數(shù)據(jù)庫(kù)產(chǎn)品具有了Web連接性,利用網(wǎng)絡(luò)作為查詢和發(fā)布庫(kù)中數(shù)據(jù)的手段,數(shù)據(jù)庫(kù)方式成為網(wǎng)絡(luò)信息資源組織與發(fā)布的重要方式。對(duì)于檔案信息資源來說,數(shù)據(jù)庫(kù)也是其在網(wǎng)上的有序組織形式。數(shù)據(jù)庫(kù)是信息資源存儲(chǔ)和開發(fā)利用的基礎(chǔ),是信息資源共享的先決條件,是信息系統(tǒng)的核心。數(shù)據(jù)庫(kù)技術(shù)與網(wǎng)絡(luò)技術(shù)的融合極大地方便了檔案信息的管理與開發(fā)利用,提高了檔案工作效率。因此許多檔案機(jī)構(gòu)都把數(shù)據(jù)庫(kù)建設(shè)作為當(dāng)前檔案信息發(fā)布的核心工作。檔案數(shù)據(jù)庫(kù)建設(shè)越有成效,網(wǎng)絡(luò)檔案信息管理與服務(wù)也就越有保證。
3 檔案數(shù)據(jù)庫(kù)建設(shè)質(zhì)量保障措施
檔案信息資源是檔案信息化的核心和基礎(chǔ),必須采取措施保證檔案數(shù)據(jù)庫(kù)建設(shè)的效率和質(zhì)量。
1.認(rèn)真做好工作流程調(diào)查,確定工程深度和進(jìn)度。
在檔案數(shù)據(jù)庫(kù)系統(tǒng)建設(shè)過程中,如果不能提出一個(gè)工程的總目標(biāo)和當(dāng)前工程要達(dá)到的目的,就會(huì)造成工程缺少計(jì)劃性,想到哪干到哪,到處打補(bǔ)丁做改動(dòng)。于是施工周期被不斷延長(zhǎng),開發(fā)的檔案數(shù)據(jù)庫(kù)系統(tǒng)成了“胡子工程”。因此,要做好數(shù)據(jù)庫(kù)系統(tǒng)一定要明確工作流程,明確流程的每一步都要干些什么,畫出明晰的工作流程圖,嚴(yán)格按流程圖組織施工。這樣做既便于實(shí)施人員按既定的明確思路工作,易于控制系統(tǒng)的整體質(zhì)量,也可以盡快看到工作的成果,對(duì)系統(tǒng)進(jìn)行評(píng)價(jià),提出下一階段的工作目標(biāo),進(jìn)而逐步實(shí)現(xiàn)整個(gè)系統(tǒng)需求中提出的目標(biāo)。
檔案數(shù)據(jù)庫(kù)建設(shè)是一個(gè)極龐大的系統(tǒng)工程,也是一項(xiàng)長(zhǎng)期的持續(xù)性任務(wù),需要的人力、物力、財(cái)力很多,不可能一蹴而就。而且一進(jìn)入實(shí)施階段,就可能要持續(xù)進(jìn)行下去。因此,抓好推進(jìn)策略是保證其實(shí)施成功的關(guān)鍵所在。
2.做好新開發(fā)數(shù)據(jù)庫(kù)的檢測(cè)工作,避免工作漏洞。
對(duì)系統(tǒng)進(jìn)行分調(diào)和總調(diào),解決各種技術(shù)問題,使之達(dá)到系統(tǒng)設(shè)計(jì)要求的各項(xiàng)指標(biāo),實(shí)現(xiàn)各項(xiàng)功能,彌補(bǔ)在系統(tǒng)設(shè)計(jì)中考慮不周之處,使系統(tǒng)能夠正常運(yùn)行。
按照系統(tǒng)設(shè)計(jì)的要求對(duì)檔案數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行測(cè)試,是一個(gè)不可缺少的環(huán)節(jié)。測(cè)試的內(nèi)容在系統(tǒng)設(shè)計(jì)中應(yīng)有明確規(guī)定,大體上包括:功能測(cè)試、數(shù)據(jù)完整性和準(zhǔn)確性的測(cè)試、安全測(cè)試、系統(tǒng)響應(yīng)時(shí)間的測(cè)試以及各項(xiàng)錯(cuò)誤信息的保護(hù)功能的測(cè)試等。根據(jù)測(cè)試結(jié)果和試運(yùn)行的實(shí)際情況對(duì)檔案數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行評(píng)價(jià)。任何一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)都是人為工程,人為造成的缺點(diǎn)或漏洞難以完全避免。有些對(duì)系統(tǒng)正常運(yùn)行有影響的問題要及時(shí)發(fā)現(xiàn),立即改正。有些屬于需求分析中的疏漏但又不影響系統(tǒng)使用的問題,可以等到系統(tǒng)更新時(shí)再解決。
3.重視數(shù)據(jù)庫(kù)運(yùn)行和使用人員的培訓(xùn)工作,確保數(shù)據(jù)庫(kù)的使用壽命。
當(dāng)軟件提交使用后,軟件進(jìn)入運(yùn)行維護(hù)階段。該階段的主要任務(wù)是使軟件持久地滿足用戶的需求。由于系統(tǒng)操作者水平參差不齊,許多操作使用人員并不擁有掌握數(shù)據(jù)庫(kù)系統(tǒng)的能力,所以必須加強(qiáng)培訓(xùn),提高使用者這方面的能力。由于信息技術(shù)的飛速發(fā)展,培訓(xùn)應(yīng)是多方面的,不僅是簡(jiǎn)單的系統(tǒng)操作能力,還應(yīng)該包括計(jì)算機(jī)操作系統(tǒng)使用能力的培訓(xùn),使用者對(duì)系統(tǒng)不再只是簡(jiǎn)單地掌握,還能夠?qū)τ?jì)算機(jī)系統(tǒng)的使用方法有比較深入的認(rèn)識(shí),這樣當(dāng)系統(tǒng)技術(shù)有所變化的時(shí)候就能較好地應(yīng)對(duì)。只有這樣,檔案數(shù)據(jù)庫(kù)系統(tǒng)才能在整個(gè)生命周期內(nèi)正常地發(fā)揮作用。