內(nèi)容提要
進(jìn)入20世紀(jì)后期,隨著計(jì)算機(jī)技術(shù)應(yīng)用的迅速深入,特別是計(jì)算機(jī)網(wǎng)絡(luò)通信技術(shù)的發(fā)展,辦公、設(shè)計(jì)、生產(chǎn)自動化的進(jìn)一步深化,傳統(tǒng)上以紙、墨、照片等形成和傳遞的公文、圖紙、圖形、影像、資料信息等工作,都可在計(jì)算機(jī)系統(tǒng)中方便地完成,其存在的形式與傳統(tǒng)的檔案存在形式大不相同,形成了一種新的文件形式——電子文件。
時(shí)至今日,在計(jì)算機(jī)系統(tǒng)中已經(jīng)產(chǎn)生出了大量的各種各樣的公文、圖紙、圖形、圖像、影像、聲音信息,并以電子文件的形式存儲在計(jì)算機(jī)系統(tǒng)中,電子文件已經(jīng)成為人類社會記錄信息、傳輸信息、存儲信息的重要形式。
電子文件的定義:
國家檔案局在制定《電子文件歸檔與電子檔案管理規(guī)范》標(biāo)準(zhǔn)時(shí)定義:
電子文件,能被計(jì)算機(jī)識別、處理,存儲在磁帶、磁盤或光盤等介質(zhì)上,并可在網(wǎng)絡(luò)上傳遞的代碼序列。
電子檔案,在電子文件中有些是具有長期保存價(jià)值,歸檔后由電子文件轉(zhuǎn)變?yōu)殡娮訖n案。
在送國家標(biāo)準(zhǔn)局的《電子文件歸檔管理規(guī)范》標(biāo)準(zhǔn)的修改稿中定義:
電子文件,指在計(jì)算機(jī)及網(wǎng)絡(luò)中生成的社會活動記錄,即以數(shù)碼形式記錄與磁帶、磁盤、光盤等載體,依賴計(jì)算機(jī)系統(tǒng)閱讀、處理,并可在通信網(wǎng)絡(luò)上傳送的文件。
歸檔電子文件,經(jīng)簽定具有保存價(jià)值作為檔案保存的電子文件。
電子文件是應(yīng)用計(jì)算機(jī)技術(shù)將信息存儲在磁盤、光盤等專門的載體上,其信息存在形式是以只有計(jì)算機(jī)才能識別的二進(jìn)制數(shù)字代碼形式。因此,將電子文件稱為"數(shù)字文件”(digital records)更可體現(xiàn)電子文件的特性。
電子文件與其它數(shù)字信息一樣,電子文件信息存儲到載體和還原顯示信息內(nèi)容必須依靠計(jì)算機(jī)技術(shù),電子文件信息與產(chǎn)生電子文件的計(jì)算機(jī)技術(shù)密不可分,它不能離開生成它的計(jì)算機(jī)技術(shù)環(huán)境而獨(dú)立存在,更不能不使用計(jì)算機(jī)技術(shù)環(huán)境而識別電子文件的信息內(nèi)容。
電子文件其信息內(nèi)容與紙質(zhì)文件一樣,都具有特定用途和效力,是對國家和社會有保存價(jià)值的歷史記錄,但其存在形式與紙質(zhì)檔案完全不同。傳統(tǒng)檔案信息與載體合為一體且獨(dú)立存在,人們一般不需使用任何技術(shù)便可識別不同載體上的檔案內(nèi)容信息。保存檔案就是保存檔案信息依附的載體,妥善地保存好檔案的載體就可以做到長期保存檔案。
電子文件與其存在的載體的關(guān)系卻不十分密切,電子文件信息內(nèi)容可在不同的載體間很容易地游動。歸檔、管理電子文件工作重要的是對電子文件信息內(nèi)容的管理和保存,而不是對電子文件存在載體的保管。歸檔電子文件信息的保存比紙質(zhì)檔案復(fù)雜、困難很多。
歸檔電子文件的管理與傳統(tǒng)的紙質(zhì)檔案管理的基本規(guī)律發(fā)生了變化,面對檔案管理工作中的新事物,檔案工作者需要學(xué)習(xí),需要研究。
電子文件的產(chǎn)生
電子文件的產(chǎn)生與紙質(zhì)文件的產(chǎn)生過程是一樣的,都是國家機(jī)關(guān)、社會團(tuán)體、企事業(yè)單位或個(gè)人在社會活動中為處理事務(wù)、交流信息而使用的各種文字、圖表、聲像等記錄材料,不同的是電子文件是應(yīng)用計(jì)算機(jī)技術(shù),以數(shù)字信息的形式將信息記錄在計(jì)算機(jī)存儲設(shè)備上。
實(shí)際上電子文件在計(jì)算機(jī)應(yīng)用的初期已經(jīng)產(chǎn)生,只是到了上個(gè)世紀(jì)90年代后,隨著計(jì)算機(jī)技術(shù)的廣泛應(yīng)用,越來越多的信息以電子文件的形式保存在計(jì)算機(jī)系統(tǒng)中。大量的各種各樣的電子文件,如何有效地管理電子文件問題引起各國的重視。
在我國各單位的辦公事務(wù)中,首先是電子打字機(jī)的應(yīng)用,很快計(jì)算機(jī)文字處理軟件的普及,各單位產(chǎn)生的公文都用計(jì)算機(jī)編輯、打印,大量記錄文字信息的電子文件產(chǎn)生;
計(jì)算機(jī)技術(shù)應(yīng)用到設(shè)計(jì)、工程領(lǐng)域,各類CAD計(jì)算機(jī)輔助設(shè)計(jì)軟件的應(yīng)用,使大量記錄各類工程設(shè)計(jì)圖形信息的電子文件產(chǎn)生;
計(jì)算機(jī)技術(shù)應(yīng)用到生產(chǎn)、經(jīng)營、管理領(lǐng)域,各種信息管理系統(tǒng)的應(yīng)用,使大量記錄有關(guān)生產(chǎn)、經(jīng)營、管理信息的電子文件產(chǎn)生等等。
隨著計(jì)算機(jī)信息處理技術(shù)水平的提高,電子文件記錄的信息類型呈現(xiàn)出多樣化。如,現(xiàn)在的文字處理軟件可以在電子文件中插入圖形、圖像信息,還可以插入影視、聲音信息等。
電子文件的特性
人們對電子文件特性的認(rèn)識還在繼續(xù)研究探討中。電子文件的一些基本特性與紙質(zhì)文件有著很大的區(qū)別,電子文件的信息形態(tài)是以二進(jìn)制數(shù)字編碼序列存儲在磁性載體或光盤等介質(zhì)上,且數(shù)字形態(tài)的電子文件信息脫離計(jì)算機(jī)技術(shù)是不能被識別,就此決定了電子文件固有的特性。
電子文件的非直讀性和依賴性
電子文件記錄信息的方式與傳統(tǒng)的信息記錄方式發(fā)生了根本的變化;
其一,計(jì)算機(jī)將輸入的信息都轉(zhuǎn)換為二進(jìn)制的數(shù)字代碼序列,人工無法直接識讀和理解經(jīng)過復(fù)雜編碼的數(shù)字代碼。
其二,所有存儲在載體上的信息,人工看不見摸不著,只有計(jì)算機(jī)可以讀取。
電子文件的非直讀性,決定了電子文件的依賴性。
電子文件從生成、存儲、傳輸、顯示的每一個(gè)環(huán)節(jié)都是應(yīng)用計(jì)算機(jī)技術(shù),在計(jì)算機(jī)系統(tǒng)中完成的,離開了計(jì)算機(jī)的軟、硬件條件,人工不可能將電子文件的數(shù)字編碼存儲到存儲介質(zhì)上,也不可能識別存儲在存儲介質(zhì)上的電子文件信息。
電子文件對計(jì)算機(jī)技術(shù)的依賴性包括: 對計(jì)算機(jī)硬件設(shè)備的依賴性,對計(jì)算機(jī)軟件的依賴性,對標(biāo)準(zhǔn)的依賴性;
電子文件信息的游動性和共享性
電子文件信息與其存儲的載體之間是可游動的,不再具有物理意義上的固定實(shí)體狀態(tài),也不再有固定的物理位置,它可以方便地從一個(gè)載體轉(zhuǎn)移到另一個(gè)載體,只要應(yīng)用計(jì)算機(jī)系統(tǒng)的復(fù)制和移動功能,任何存儲在計(jì)算機(jī)上的電子文件可以被復(fù)制或移動到另一個(gè)載體,甚至一個(gè)電子文件的信息可以分別存儲在不同在載體上。
電子文件與載體可游動的特性,使人們對文件、檔案的利用產(chǎn)生革命性的變化。
紙質(zhì)文件、檔案利用方式是通過傳遞文件、檔案信息載體的物理實(shí)體紙張達(dá)到信息傳遞的目的,因?yàn)樾畔⒑统休d信息的物理實(shí)體是不可分離的,而任何物理實(shí)體的傳遞無法做到遠(yuǎn)距離瞬間傳遞,這一因素決定了查閱文件、檔案,只能跨越距離和時(shí)空接觸到文件、檔案的載體,才能進(jìn)行查閱。
電子文件在計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)上傳輸可以使萬里之遙空間化為十指鍵盤之間。在計(jì)算機(jī)上查閱到的電子文件、檔案,可能是存儲在單位電子文件服務(wù)器,也可能存在他鄉(xiāng)異國檔案館的服務(wù)器上。
一份紙質(zhì)文件,只能在同一時(shí)刻,同一地點(diǎn)讓接觸到它的人利用,一份電子文件可以通過復(fù)制為多個(gè)利用者同時(shí)提供利用。
電子文件的易變性。
在計(jì)算機(jī)系統(tǒng)中,電子文件信息與載體相對獨(dú)立,使載體對信息"束縛”不存在了,人們對信息的修改變的十分方便,而且可不留痕跡。
電子文件是可以很方便的進(jìn)行復(fù)制,生成與原稿完全一樣的文件,而使人們無法區(qū)分復(fù)制件和原件,傳統(tǒng)的原件的概念不能適用電子文件。
因電子文件存儲的載體和軟硬件系統(tǒng)環(huán)境因素的影響,使電子文件的信息發(fā)生改變。如,隨著文字處理軟件和操作系統(tǒng)的發(fā)展,僅幾年以前產(chǎn)生的電子文件,因軟件升級或操作系統(tǒng)改變,不能真實(shí)地還原或根本無法讀取。
電子文件信息形態(tài)的復(fù)雜性
紙質(zhì)文件主要承載文字和圖形信息,電子文件構(gòu)成的信息形態(tài)則是多變的,電子文件可以是純文字信息的電子文件,也可以是圖形/圖像,還可以是音頻/視頻文件,又可以將文字、圖形/圖像、視頻/音頻各種信息組合成一份信息形態(tài)結(jié)構(gòu)更為復(fù)雜的電子文件。
電子文件存儲的物理結(jié)構(gòu)和邏輯結(jié)構(gòu)往往是不一致的,同一份電子文件中的正文、圖形/圖像、視頻/音頻、表格等部分可不在載體上連續(xù)存儲,甚至可以存儲在不同的載體上,輸出信息時(shí)計(jì)算機(jī)按照電子文件的邏輯結(jié)構(gòu)自動組合。
一份簡單的純文字信息電子文件,除了含有文字信息的編碼外,還有文字的排版信息,如,字體、字號、輸出位置、段落等,都必須準(zhǔn)確地記錄,才能保證還原輸出一致。
電子文件的特性決定了電子文件的歸檔、保存、管理、利用與紙質(zhì)文件歸檔、管理方法不一樣。
紙質(zhì)文件信息與載體一些"從一而終”,電子文件信息可以在不同的載體之間游動,信息相對獨(dú)立;
紙質(zhì)文件載體只能承載靜態(tài)信息,電子文件載體可以承載靜態(tài)、動態(tài)多種媒體信息;
紙質(zhì)文件利用信息承載的物理實(shí)體難以跨越時(shí)空的約束,電子文件利用信息可以不受時(shí)空的約束,實(shí)現(xiàn)信息高速流動。
對電子文件的管理因根據(jù)電子文件的特性,應(yīng)用科學(xué)、現(xiàn)代的管理方法進(jìn)行管理。
電子文件的格式
電子文件的格式有很多,大約有幾千種,用于存儲檔案信息的電子文件可簡單的分為:
文本文件
圖形/圖像文件
音頻文件
視頻文件
大致可以和紙質(zhì)檔案、圖紙/照片檔案、錄音和錄像/影片檔案對應(yīng),不過電子文件的格式比紙質(zhì)文件復(fù)雜的多。
計(jì)算機(jī)對輸入到計(jì)算機(jī)的信息,無論是文字信息、圖形/圖像信息,還是音頻、視頻信息,都經(jīng)過數(shù)字化處理后,獲得信息的數(shù)字編碼,對信息的數(shù)字編碼進(jìn)行存儲、加工處理、傳輸。當(dāng)人們需要信息時(shí),計(jì)算機(jī)對信息的數(shù)字編碼進(jìn)行逆處理,使數(shù)字信息還原成原來的信息形態(tài)。
文本文件,文本文件多是以鍵盤輸入的方式輸入到計(jì)算機(jī)中的,計(jì)算機(jī)處理漢字信息與處理英文信息方式不同,英文26個(gè)字母可以通過鍵盤直接輸入,漢字必須通過一定的編碼,如漢語拼音、五筆字型等方法輸入漢字。漢字的輸入方法眾多,但基本都是根據(jù)國家制定的國標(biāo)GB/T2312-80《信息交換用漢字編碼字符集》,編制的漢字輸入方案。
計(jì)算機(jī)首先通過外碼轉(zhuǎn)換,把以不同漢字輸入方式輸入到計(jì)算機(jī)的漢字的轉(zhuǎn)換為計(jì)算機(jī)內(nèi)碼記錄下來。計(jì)算機(jī)的內(nèi)碼是以二進(jìn)制的數(shù)字表示,文本格式的文件在計(jì)算機(jī)內(nèi)的信息處理、存儲、傳輸都是以計(jì)算機(jī)內(nèi)碼的形式進(jìn)行的。文本文件輸出時(shí),計(jì)算機(jī)根據(jù)文本文件漢字內(nèi)碼,在計(jì)算機(jī)的漢字字庫內(nèi)找出對應(yīng)的漢字字模,按照文件編輯的格式要求顯示在計(jì)算機(jī)屏幕或打印到打印機(jī)上。
文本文件具有信息量大,存儲空間小,便于檢索的優(yōu)點(diǎn)。
文本文件有純文本文件和由文字處理軟件編輯生成的格式化文本文件。
純文本文件用TXT的擴(kuò)展名表示,在不同操作系統(tǒng)之間可以通用,兼容于不同的文字處理軟件。一些不需要較多文字修飾的文件,如:程序說明文件、電子郵件等多使用純文本文件格式。
格式化文本文件是由不同的文字處理軟件或其它軟件產(chǎn)生,格式化文本文件可以在文本中插入圖像、表格,可以保留文件的編輯、修改的信息等,因文字處理軟件不同而功能有所差異。與純文本文件相比格式化文本文件不僅僅只存儲漢字的內(nèi)碼信息,還存儲了大量文字的排版信息、控制信息、圖像、表格等。
同樣內(nèi)容的電子文件使用不同的文字處理軟件,其存儲的信息除了漢字的內(nèi)碼信息相同外,文件的排版、控制信息一般不一樣。這樣就出現(xiàn)了軟件的兼容問題。
按照GB/T9704-1999國家行政機(jī)關(guān)公文格式排版,需將文件的標(biāo)題定為2號小宋體字,顯示在行的中間位置,文件的正文用3號仿宋字,自然段落的第一行空兩個(gè)漢字的位置,正文段落的起止信息等。
用于文字處理的軟件很多,而且文字處理軟件發(fā)展很快,早期的文字處理軟件功能簡單,如WordStar、XE、WPS、Word7.0等,有的已經(jīng)淘汰,有的已經(jīng)更新?lián)Q代為功能更加強(qiáng)大的字處理軟件如WPS2001、Word2000等。如果用現(xiàn)在的字處理軟件重新編輯WordStar、XE編輯的電子文件,同樣會因軟件的運(yùn)行環(huán)境的變化和字處理軟件的變化或升級更新而出現(xiàn)兼容問題,無法利用以前的電子文件。
RTF(Rich Text Format)文本格式,RTF是一種非常流行的文件格式,它能夠保存文本、聲音、圖片、動畫、鏈接多媒體信息資料等。很多文字編輯軟件和程序都支持RTF文本格式,WPS、WORD都可以將文件存儲為RTF文本格式,RTF文本格式可以作為通用文件交換格式。
XML(eXtensible Markup Language)超文本格式
XML是一種用以描述文件結(jié)構(gòu),可以延伸或擴(kuò)展的標(biāo)注語言。是由web技術(shù)標(biāo)準(zhǔn)化集團(tuán)W3C(world Web Consortium)對其進(jìn)行標(biāo)準(zhǔn)化,使其可以應(yīng)用于計(jì)算機(jī)、數(shù)字化廣播電視、通訊、電子出版等諸多領(lǐng)域。
隨著互連網(wǎng)的普及,通過網(wǎng)絡(luò)瀏覽器查閱文件資料越來越廣泛,文字、圖形、圖像、聲音、影視等各類信息都需要在互連網(wǎng)上瀏覽,XML滿足了這種需求的發(fā)展,以XML格式存儲的電子文件不僅可以存儲文本、聲音、圖像、多媒體信息等,而且XML的結(jié)構(gòu)相對簡單,格式公開,不需要專門的軟件讀取,不會出現(xiàn)因無相應(yīng)的軟件而無法打開電子文件的問題,且無需考慮文件格式版權(quán)問題。
圖形/圖像文件,圖形/圖像文件產(chǎn)生于圖形設(shè)計(jì)軟件和繪圖軟件,如CAD計(jì)算機(jī)輔助設(shè)計(jì)軟件,Windows的畫圖軟件,圖形/圖像處理軟件Photoshop等。掃描儀可將照片、圖形、文字以圖像格式輸入到計(jì)算機(jī),數(shù)碼照相機(jī)拍照的照片也可直接輸入的計(jì)算機(jī)中。
將紙張上的文字信息通過掃描儀輸入計(jì)算機(jī),計(jì)算機(jī)可以象復(fù)印機(jī)一樣,顯示紙張上文字信息,但其電子文件的格式往往是圖像格式。通常將圖形/圖像文件都稱為圖像文件。
一般來說,圖像文件格式大致可以分為兩大類:一類為位圖(也叫柵圖);另一類為矢量圖。
位圖:是用小方形網(wǎng)格(位圖或柵格),即像素來代表圖像,每個(gè)圖像都被分配一個(gè)特定位置和顏色值。處理圖像,就是對位圖各個(gè)像素的顏色值進(jìn)行編輯。位圖的分辨率直接影響位圖圖像的質(zhì)量,分辨率以每英寸的像素點(diǎn)數(shù)DPI表示,當(dāng)位圖的DPI較低時(shí),位圖在打印或屏幕放大顯示時(shí),會在圖像出現(xiàn)鋸齒邊緣或馬賽克現(xiàn)象。位圖DPI的值越大,圖像的質(zhì)量也就越高。
鋸齒邊緣或馬賽克現(xiàn)象
普通書籍印刷的圖像的DIP大約在300到600之間。1000以上的DPI可以表現(xiàn)圖像上細(xì)微的變化。高DPI的位圖適合于表示具有復(fù)雜的顏色、灰度或形狀變化的圖像,如照片、繪畫和數(shù)字化的視頻圖像等。
位圖的DPI和圖像占據(jù)的存儲空間是一對矛盾,高DPI可以獲得高質(zhì)量的圖像,但也占據(jù)很大的存儲空間,因此存儲位圖格式的電子文件應(yīng)根據(jù)電子文件信息內(nèi)容確定DPI數(shù)值的大小,文字內(nèi)容的圖像或?qū)D像質(zhì)量要求不高的照片等,可選擇數(shù)值較小的DPI,以節(jié)省存儲空間。若對存儲圖像質(zhì)量要求較高,則選擇數(shù)值較大的DPI以保證圖像的質(zhì)量。
矢量圖:是以數(shù)學(xué)方法描述的一種由幾何元素組成的圖形/圖像,如,矢量圖中的圓是由數(shù)學(xué)定義的圓組成,這個(gè)圓以某一半徑畫出,放在特定的位置并填充特定的顏色??s放圓其邊緣不會變化。
矢量表示更適合于線形圖
矢量圖的優(yōu)點(diǎn)是對圖像的表達(dá)真實(shí),縮放后圖形/圖像的分辨率不變,可以對其中的形狀組合方便地進(jìn)行移動或操作,但對非線性圖形/圖像的表示有著較大的局限性。因此,矢量表示更適合于線形圖,如計(jì)算機(jī)輔助設(shè)計(jì)(CAD)的圖形。
位圖與矢量圖對比
圖像文件的顏色模式。通常有位圖模式(Bitmap)、灰度模式(Grayscale)、三基色模式(RGB Color)、CMYK模式(CMYK Color)和Lab模式(Lab Color)、索引模式等。其中CMYK模式是彩色印刷和彩色打印機(jī)使用的模式。
位圖模式只有黑、白兩種顏色,由黑與白兩種像素組成,由于這個(gè)原因,它所要求的存儲空間是所有顏色模式中最少的。
灰度模式的顏色也是黑白的,直觀上與黑白照片類似,用256級的灰色來模擬顏色的層次。在灰度圖像中的每個(gè)像素含有8位二進(jìn)制數(shù)來描述像素的亮度值,灰色模式所要求的存儲空間較位圖模式多。
彩色圖像模式,彩色圖像模式有多種,常見的有:三基色模式、CMYK模式等。
圖像文件的格式很多,并以不同的文件擴(kuò)展名表示。常見的圖像文件格式有:BMP、GIF、JPEG、TIFF、SVG等等。
BMP格式(*.BMP),它是Windows操作系統(tǒng)和OS/2的標(biāo)準(zhǔn)圖像文件格式,能夠被多種Windows應(yīng)用程序所支持。它的顏色存儲格式有1位、4位、8位、24位、256位、24位真彩,這種格式的特點(diǎn)是包含的圖像信息較豐富,占用磁盤空間過大,可以使用RLE壓縮方案進(jìn)行無損壓縮。
GIF格式(*.GIF),(圖形交換格式)這種格式是用來交換圖片,廣泛應(yīng)用于通信領(lǐng)域和互連網(wǎng)網(wǎng)頁文檔中。GIF格式的特點(diǎn)是壓縮比高,磁盤空間占用較少。GIF圖像格式目前Internet上大量采用的格式。
GIF不能存儲超過256色的圖像,因此對于色彩豐富的圖像GIF有其不足的一面。盡管如此,GIF圖像文件短小、下載速度快,且256種顏色已經(jīng)較能滿足網(wǎng)頁圖形需要。
JPEG格式(*.JPG),是常見的一種圖像格式,它由聯(lián)合照片專家組(Joint Photographic Experts Group)開發(fā)并以命名為"ISO 10918-1”,JPEG僅僅是一種俗稱而已。JPEG文件的壓縮技術(shù)十分先進(jìn),獲取得極高的壓縮率的同時(shí)能展現(xiàn)十分豐富生動的圖像,用最少的磁盤空間得到較好的圖像質(zhì)量。
JPEG圖像文件
JPEG允許用不同的壓縮比對這種圖像文件進(jìn)行壓縮,JPEG就成為網(wǎng)絡(luò)上最受歡迎的圖像格式,但是,JPEG是有損壓縮,存在一定程度的失真,存儲高質(zhì)量要求的圖像時(shí)不要選擇此格式。
TIFF格式(*.TIF),TIFF(Tag Image File Format)格式是使用最廣泛的圖像文件格式,多個(gè)系統(tǒng)平臺都支持TIF圖像格式,幾乎所有的圖像處理軟件和掃描儀也都支持TIF圖像格式。該文件格式有黑白、灰度、彩色模式,特點(diǎn)是文件體積大,存貯信息多,存儲的圖像細(xì)微層次的信息非常多,圖像質(zhì)量高,故而非常有利于原稿的復(fù)制,是印刷業(yè)經(jīng)常使用的圖像格式。有壓縮和非壓縮兩種形式。
TIFF格式文件
紙質(zhì)文件、檔案、照片、圖紙等通過掃描儀將文件掃描輸入到計(jì)算機(jī)的文件格式是圖像文件格式,選用什么樣的圖像格式存儲應(yīng)根據(jù)掃描的文件和用途確定,掃描圖像質(zhì)量要求較低的照片可用JPG圖像格式存儲,選擇較低的分辨率(DPI≤150),獲得較高的壓縮比,減少文件的存儲空間。用于印刷或重要的照片檔案等,對圖像質(zhì)量要求高的圖像文件用TIF格式存儲,選擇較高的分辨率(DPI≥300),保證圖像質(zhì)量。
DPI ≈ 150 掃描文件的圖像文件
文本文件與圖像文件作為歸檔電子文件保存各有千秋。文本文件信息量大,便于利用,文本文件兼容性差。圖像文件有保持紙質(zhì)檔案原貌的突出優(yōu)點(diǎn),但圖像文件中的文字信息不能直接利用,占據(jù)存儲空間大又是其保存檔案信息的最大弱點(diǎn)。
本人做了一個(gè)對比實(shí)驗(yàn):
在一張A4紙上,按照GB/T9704-1999國家行政機(jī)關(guān)公文格式規(guī)定的文件打印尺寸(156×225 mm)內(nèi),3號宋體字,(600~650個(gè)漢字)分別以不同的文本文件格式保存,用掃描儀掃描成圖像文件,
?文件格式存儲空間/K備注
1WPS2001.wps 10A4幅面1頁
2WORD2000.doc 20A4幅面1頁
3RTF B17A4幅面1頁
4txt(純文本) A0.6 600~650個(gè)漢字
5tif C75 100/DPI 100%(黑白)
6tif D 549100/DPI 100%(灰度)
7tif E1614 100/DPI 100%(彩色)
8 jpg 776 100/DPI 100%,圖像質(zhì)量最高
9 jpg F 96100/DPI 100%,圖像質(zhì)量最低
文件存儲空間曲線
音頻和視頻文件,音頻、視頻文件改變了昔日計(jì)算機(jī)只能處理字符和靜態(tài)圖像的印象,動感十足的圖像、聲音給計(jì)算機(jī)帶來了無限生機(jī),更使計(jì)算機(jī)多媒體技術(shù)深入了百姓的生活。音頻、視頻文件突出特點(diǎn)是存儲的是動態(tài)信息,無論是聲音還是影視圖像,數(shù)據(jù)信息要占據(jù)巨大的存儲空間。
Wave(WAV)聲音文件格式是Microsoft公司開發(fā)的一種,文件規(guī)范,用于保存Windows平臺的音頻信息資源,被Windows平臺及其應(yīng)用程序所廣泛支持。是PC機(jī)上最為流行的聲音文件格式,但其文件尺寸較大,多用于存儲簡短的聲音片斷。
MPEG(MP1/MP2/MP3)音頻文件,MPEG是運(yùn)動圖像專家組(Moving Picture Experts Group)的英文縮寫,代表MPEG運(yùn)動圖像壓縮標(biāo)準(zhǔn),這里的音頻文件格式是MPEG標(biāo)準(zhǔn)中的音頻部分。MPEG是一種有損壓縮音頻文件,根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層(MPEG Audio Layer 1/2/3),分別對應(yīng)MP1、MP2和MP3這三種聲音文件。
MPEG音頻編碼具有很高的壓縮率, MP3可以將未經(jīng)壓縮需要10MB存儲空間的CD音質(zhì)的音樂壓縮編碼后只有1MB左右,同時(shí)其音質(zhì)基本保持不失真,目前使用最多的是MP3文件格式。
MP3Pro也是音頻文件,在音質(zhì)相同的情況下MP3Pro 的存儲空間只有MP3的一半。
視頻文件細(xì)分起來,又可以分兩類,即動畫文件和影像文件:動畫文件指由相互關(guān)聯(lián)的若干幀靜止圖象所組成的圖像序列,這些靜止圖象連續(xù)播放便形成一組動畫,通常用來完成簡單的動態(tài)過程演示;影像文件,主要指那些包含了實(shí)時(shí)的音頻、視頻信息的多媒體文件,其多媒體信息通常來源于視頻輸入設(shè)備,由于同時(shí)包含了大量的音頻、視頻信息,影像文件往往相當(dāng)龐大。
GIF動畫文件格式,GIF是一種圖形文件格式,將若干幅靜止的GIF圖像連續(xù)顯示,形成GIF動畫。目前Internet上大量采用GIF動畫文件。
MPEG文件格式,是運(yùn)動圖像壓縮算法的國際標(biāo)準(zhǔn),已被幾乎所有的計(jì)算機(jī)平臺共同支持。MPEG標(biāo)準(zhǔn)包括MPEG視頻、MPEG音頻和MPEG系統(tǒng)(視頻、音頻同步)三個(gè)部分。MPEG壓縮標(biāo)準(zhǔn)是針對運(yùn)動圖像而設(shè)計(jì)的,MPEG的平均壓縮比為50:1,最高可達(dá)200:1,壓縮效率非常高,同時(shí)圖像和音響的質(zhì)量也非常好,在計(jì)算機(jī)上有統(tǒng)一的標(biāo)準(zhǔn)格式。
AVI影像文件格式,AVI是音頻視頻交錯(cuò)(Audio Video Interleaved)的英文縮寫,它是Microsoft公司開發(fā)的數(shù)字音頻與視頻文件格式。AVI格式允許視頻和音頻交錯(cuò)在一起同步播放,支持256色和RLE壓縮。AVI文件主要應(yīng)用在多媒體光盤上,用來保存電影、電視等各種影像信息。
國家檔案局在《檔案管理軟功能要求暫行規(guī)定》中,推薦通用的電子文件格式為:
文字型文件:TXT、RTF、XML
圖形/圖像文件:JPEG、TIF
音頻文件:MP3、WAV
視頻文件:MPEG、AVI
數(shù)據(jù)文件,在信息管理系統(tǒng)中,數(shù)據(jù)文件用于存儲信息管理系統(tǒng)采集的原始數(shù)據(jù)或加工的數(shù)據(jù)信息。數(shù)據(jù)文件多數(shù)是數(shù)據(jù)庫系統(tǒng)中的重要組成部分,數(shù)據(jù)庫技術(shù)是進(jìn)行事務(wù)處理、信息管理領(lǐng)域廣泛應(yīng)用的技術(shù),數(shù)據(jù)文件的格式因數(shù)據(jù)庫系統(tǒng)的不同而不同。
檔案管理軟件都是應(yīng)用數(shù)據(jù)庫技術(shù)開發(fā)的管理軟件,輸入各檔案數(shù)據(jù)信息都存儲在數(shù)據(jù)庫的數(shù)據(jù)文件中。
如:DBFFOXDbase
MDBAccess
在計(jì)算機(jī)上存儲的文件無論是文本、圖形/圖像,還是音頻和視頻文件,同一類文件但格式很多,這里僅介紹了少數(shù)幾種。眾多的文件格式,同時(shí)因技術(shù)的發(fā)展或更新,同一格式的文件往往會因技術(shù)或標(biāo)準(zhǔn)的改進(jìn),產(chǎn)生新的版本,新的格式,形成多個(gè)版本,多個(gè)標(biāo)準(zhǔn)格式的復(fù)雜局面,不同版本、標(biāo)準(zhǔn)格式的文件之間往往存在兼容問題。
這對于歸檔電子文件的管理工作增加了許多困難,長期有效地保存歸檔電子文件是檔案管理工作需要研究的課題。
電子文件的構(gòu)成類型
獨(dú)立型電子文件
獨(dú)立型電子文件,是指構(gòu)成文件全部信息獨(dú)立存在一個(gè)電子文件,并存儲在單一存儲設(shè)備中,獨(dú)立型電子文件內(nèi)容信息不與外界的其它電子文件發(fā)生邏輯關(guān)系,是一個(gè)完整的文件信息集合。
構(gòu)成獨(dú)立型電子文件的信息格式,可以僅是文本型文件,可以是圖形、圖像文件可以是單一的音頻或視頻文件,如一份公文,一張圖紙,一張照片,一份聲音或影像電子文件等,還可以是文本型和圖形、圖像型文件組合而成的合成文件,無論構(gòu)成獨(dú)立型電子文件的格式是一種格式的電子文件還是組合格式的電子文件,其文件信息內(nèi)容構(gòu)成應(yīng)是獨(dú)立、完整的信息集合。
文本型或圖形、圖像型文件格式構(gòu)成的電子文件一般可以方便地通過打印輸出方式,制成紙質(zhì)文件或縮微膠片。
對獨(dú)立型電子文件進(jìn)行簡單地復(fù)制、移動操作即可將該電子文件的全部信息內(nèi)容完整地復(fù)制或移動。
復(fù)合關(guān)聯(lián)型電子文件
復(fù)合關(guān)聯(lián)型電子文件中構(gòu)成電子文件的全部信息不獨(dú)立在一個(gè)電子文件中存在,電子文件中的一些文件信息內(nèi)容是存儲在另外一個(gè)或多個(gè)電子文件中,通過邏輯關(guān)系聯(lián)接構(gòu)成一個(gè)完整的信息集合,相關(guān)電子文件可存儲在一個(gè)或多個(gè)存儲設(shè)備或計(jì)算機(jī)上。構(gòu)成復(fù)合關(guān)聯(lián)型電子文件的信息格式可以是單一的,也可以是多種格式,還可以是靜態(tài)信息和動態(tài)信息組合而成的合成文件。
可以是靜態(tài)信息和動態(tài)信息組合而成的合成文件。
在CAD計(jì)算機(jī)輔助設(shè)計(jì)中,可由圖形文件疊加構(gòu)成新的圖形文件,而這個(gè)新的圖形文件分別是由若干個(gè)位圖、矢量圖文件和關(guān)聯(lián)文件組合構(gòu)成。
電子文件中的一些文件信息內(nèi)容是存儲在另外一個(gè)或多個(gè)計(jì)算機(jī)中。
無論構(gòu)成復(fù)合關(guān)聯(lián)型電子文件的信息格式是單一的或是合成的,其文件信息內(nèi)容構(gòu)成不是獨(dú)立的,需要與其它電子文件共同構(gòu)成完整的文件信息集合。
復(fù)合關(guān)聯(lián)型電子文件制成紙質(zhì)文件,則需要視構(gòu)成復(fù)合關(guān)聯(lián)型電子文件的格式,若構(gòu)成復(fù)合關(guān)聯(lián)型電子文件的格式是文本或圖形、圖像格式,則可能制成紙制文件,若構(gòu)成復(fù)合型電子文件的格式是與音頻或視頻格式的文件復(fù)合而成,則需要分門別類,不同類型的文件分別制成紙質(zhì)、照片、音、像文件。
對復(fù)合關(guān)聯(lián)型電子文件不可以用簡單的用復(fù)制或移動操作來完成對復(fù)合關(guān)聯(lián)型電子文件全部信息內(nèi)容完整地復(fù)制或移動。
復(fù)合關(guān)聯(lián)型電子文件信息構(gòu)成的特點(diǎn),使完整地收集、管理復(fù)合型電子文件信息難度增加,進(jìn)而使復(fù)合關(guān)聯(lián)型電子文件的管理較獨(dú)立型電子文件的管理更為復(fù)雜。
有關(guān)電子文件的知識較多,本人根據(jù)自己的了解和認(rèn)識,給大家介紹到此,希望大家把自己的經(jīng)驗(yàn)和體會在這講出來,我們共同討論。