劲爆欧美第一页,大乳女人做受视频免费,免费日本高清视频,久一区二区,99re视频在线播放,嫩草网

檔案之窗

掃一掃關注

當前位置: 首頁 » 技術 » 檔案信息化 » 檔案數字化 » 正文

檔案信息發布語言

放大字體  縮小字體 發布日期:2018-12-24 17:42:15    瀏覽次數:17    評論:0
導讀

網絡檔案信息的發布與網絡中各類信息的發布一樣,必須使用大多數計算機都能夠識別的語言。根據表達形式不同,檔案信息以四類計算機文件格式存儲:文本文件、圖像文件、音頻文件、視頻文件。

檔案信息發布語言

網絡檔案信息的發布與網絡中各類信息的發布一樣,必須使用大多數計算機都能夠識別的語言。根據表達形式不同,檔案信息以四類計算機文件格式存儲:文本文件、圖像文件、音頻文件、視頻文件。

圖像文件多為掃描后形成的文件。圖像文件一般較大,為此許多機構對其進行壓縮后存儲。但在檔案管理工作中考慮長久保存的需要,還是以不壓縮的格式存儲為宜。目前圖像文件的發布有三種文件格式可以選擇:一是在網頁中與各類信息一起顯示的GIF格式;二是供利用者在網絡上下載的以JPEG標準壓縮的格式;三是為長久存儲之用的不壓縮的TIFF格式。一份圖像文件最好以三種格式同時保存。

網絡環境中的聲音文件與視頻文件雖然已有很多,但就傳輸速度而言,這兩種類型的文件格式都還比較不穩定,仍處于不斷發展的過程中。目前聲音文件的發布主要可以選擇二種格式:一是WAVE格式;二是成熟,RealAudio formatRA)。此外,隨著技術的日漸成熟,MP3已漸漸成為新的聲音數據壓縮標準。

視頻文件格式包括:MPEGAVI(Audio Video Interleaved)DLMOVGL等。其中MPEG格式是ISO國際標準之下制作視頻文件的標準格式,使用較為普遍。

本書重點研究的是以文本文件形式存儲的檔案信息的發布語言。

一、置標語言

由于處理平臺不同,文本文件會有不同的文件格式。在網絡中為了使文本信息能在不同平臺間交換,同時又能保留其內容原有的結構,常常通過標記規則來描述文件內容結構,并以獨立于任何軟硬件的格式進行儲存。SGML近年來被廣泛用作文本結構標記的通用方法,成為國際標準組織所接受的文件交換標準。

SGML的全稱是“Standara Generalized Markup Language” ,即標準通用置標語言。置標是指為了傳達有關文件的信息、標識文件各部分的結構而添加到文件中的事先規定的文本。為了標識某些信息而加入一些標記之后的書面自然語言就可以被稱為置標語言。SGML實際上是一種為了計算機處理而設計的置標語言,是對置標所用標識符、標識規則做專門規定的一套標準語言,其中所用到的標記,往往使用代表一定含義的文字或數字表示。

SGML是一種非常復雜的結構,其作用主要用于定義文獻模型的邏輯結構和物理類結構。文獻的類型是多種多樣的,有圖書、期刊、檔案等各種形式。文獻類型的差異是由文獻的物理類結構特征和內容結構特征所決定的。如圖書、期刊等文獻其物理類結構從總體到局部由卷、期、封面和連續的頁碼組成;同時圖書的內容結構又由書名、作者、章節名和段落等組成。根據計算機處理信息的特有方式,最科學的方法就是把文獻分解為若干個結構單元。因此,要實現文獻處理自動化的關鍵就是建立一個能全面反映文獻的物理類特征和內容特征的規范模式。SGML就是通過標識的方法來實現這種規范模式的國際標準。簡單地說,SGML不是一種適用于某類具體文獻的直接現成的標識語言標準,它是創建標識語言的元語言,可以用它來創建其他語言。目前常用的置標語言都屬于SGML體系,其中比較引人注目的是HTMLXML

HTML全稱是“Hypertext Markup Language”,即超文本置標語言,其自身是純文本文件,在因特網和內部網上廣泛采用,主要用于編寫發布各種信息的網頁。萬維網激發了SGML簡化版本的開發,HTML就是對SGML進行大量簡化后的一個應用。最初HTML的作用是用于標記結構,隨后的發展加入了大量的特殊標記(tags),使網頁的設計者可以控制信息顯示或打印時的外觀,增強了網頁設計者的創造能力。HTML的缺點是標記相對較少,缺乏適應性,不能支持特定領域如檔案專業領域的標記語言。

XML的全稱是“Extensible Markup Language” ,即可擴展置標語言。它是國際標準化組織推薦的第二代網頁發布語言,是國際上目前正在推廣的標準格式。XML也是從SGML所衍生出來的簡化格式。與HTML一樣,其目的都是希望在網頁的制作上,有一個標準而又切實可行的簡單標記語言。不同的是,HTML是單一的固定格式,而XML是可以擴充的靈活格式。XML為網絡應用開發核心技術,扮演著網絡世界“國際語言”的角色。XML也是一種元標記語言,使用者可依據自己的需要來設計標記,任何滿足XML命名規則的名稱都可以標記,其產生的文件具有完整的結構,又不失簡單的特性。比起SGMLXML要簡單和靈活許多。它刪除了SGML中不易操作、與因特網無關的部分,把很多底層非常復雜的語法結構隱藏起來,使得整個結構變得靈活又容易擴充。因此使得用開發應用程序軟件來處理XML格式文件,成為一件比較容易,而不是遙不可及的工作。

于是,出現了RDF。其全稱是“Resoure Description Format” 即資源描述格式。它是一個使用XML語法的數據建模語言的應用程序。如果XML具有說語言的能力,那么RDF就是特定的語言。EDFXML提供了元數據編碼定義,就像是一個公用的翻譯器,為不同的固定目標之間的數據進行翻譯。其設計目的是提供一種強有力的表述、交換與利用元數據的機制。它提供了在互聯網絡上交換計算機可讀數據的應用軟件之間的互操作性。

二、EDA及其在我國檔案管理領域的生命力

前面提到,SGML不是一種直接現成的標識語言標準,它是創建標識語言的元語言。根據SGML所確定的原則,可以進一步生成某一領域特定文獻所需的標識語言標準。這些特定的標識標準被稱之為DTDdocument Type Definition,文件類型定義)。DTD定義每一個元素之間的關系。給每一個使用DTD創建的文件一個通用的視覺效果。許多不同領域的機構開發了自己的DTDHTML就可以看作是一個非正統的DTD,而EAD就是應用于檔案管理領域信息發布的DTD

EDA的全稱是Encoded Archival Description,國內對它已有一些譯法,有人將其中的Description譯為著錄,筆者認為這種翻譯容易使不了解置標語言的人產生歧義,將EDA與傳統的檔案著錄內容相混淆,將其譯為“描述”可能更為確切。這樣,可以將EDA理解為在文本性檔案信息發布中采用的結構描述標準,以便使檔案信息在網絡中廣泛地傳播。EDA是模式化表達檔案信息的內容、形式等各部分結構的一種規范形式,它的定義包含了結構化的數據層次,可完整地描述檔案信息的層次關系,表示層次間的相互關系并加以連結,并能在網絡檢索工具中反映描述檔案信息數據本身的內容,以此形式發布的檔案信息可在任何計算機平臺上進行查尋、檢索、顯示、交換。

國內已經有一些學者對EDA的結構與內容等技術指標作了很好的介紹,本書重點探討一下EDA在我國檔案管理領域是否具有生命力。

在國際上,EDA己經被很多檔案人員認同。他們提供廣泛的文檔對它進行測試。EDA已成為一個非常專業化的工具,專門服務于需要進行信息交換和共享的特殊領域。在美國就有近35個科研院所、圖書信息機構、大學圖書館、手稿收藏部及各種綜合檔案館、專門檔案館的網站中運用EDA標準。我國在網絡上發布信息的檔案機構,還沒有一家采用類似的標準。其中的原因在于我國檔案界還不了解這個標準和相關的技術,從而不能決定它是否適用于我國的檔案管理領域。這反映了我國檔案信息網絡化建設中的一個重要問題:我國的檔案信息網絡化建設目前還處于簡單地效法手工管理方式的階段,無論是發布信息還是建立檢索工具,都沒有擺脫傳統的工作思路和工作方法,沒有研究和采用適合網絡環境的技術與管理業務流程。

EDA標準的優勢及使用的意義在于以下幾個方面:一是采用自然語言構成的標記來描述文件的結構和其他屬性,清楚地指示文件各部分的內容是什么,置標的語義可以十分明顯地從字面上看出來;二是可以表現一個全宗內各個級別的檔案目錄信息及全文信息,最終形成一份全文著錄的文件,能實現表達等級結構的能力,充分反映一個全宗的全貌,方便檢索與鏈接。利用者可以完整地利用一個全宗檔案的從全宗到類別、再到案卷及文件的完整的信息,在檔案原件已生成了數字副本的情況下,還可以通過置標鏈接直接查看數字副本的內容;三是EDASGML標準制定而來,因此采用EDA標記的文獻經轉化可以直接在網絡上發布,實現檔案資源共享。

EDA標準目前在我國實現的障礙體現在以下幾個方面:一是我國檔案信息網絡化建設還停留在對傳統檔案管理的簡單重復階段,缺乏對網絡化過程中各種必要的技術問題的關注,而這些技術問題可能引起檔案管理工作某一方面的根本性變化。如在傳統的檔案管理過程中,主要以文件目錄、案卷目錄、全宗目錄等為檢索工具。利用者必須到館進行利用,檢索都有檔案工作人員指導進行。為利用者提供的信息元素不標識、邏輯結構不顯示,造成的障礙不是很大。提供的信息內容不具體,利用者可以直接咨詢檔案工作人員或直接調出檔案來看。而在網絡中發布檔案信息,面對的是遠程用戶、是異地計算機檢索,如果提供的信息內容不具體,利用者無法調卷或直接咨詢檔案工作人員。因此,在網絡信息發布過程中提供檔案信息,與傳統檔案管理所能提供的內容和方法有很大的差別。如果沒有以遠程用戶的利用效率為衡量標準,而是簡單地把手工管理中的各類信息照搬到網絡中,就會暴露一定的局限性;二是對EDA標準的具體實現方法國內還沒有檔案機構進行實踐。采用EDA標準,要對發布的檔案信息內容進行各個層次的詳細置標。置標內容紛繁復雜。由于對檔案信息內容的置標是對一個全宗從全宗到類別、再由類別到案卷、再由案卷到文件的從總到分的多級的完整的描述,或者說是對一個全宗內的各個級別的目錄信息乃至全文的總體描述,所以,置標后形成的文件往往長達幾千頁、幾萬頁。這項浩繁的工作如何實現?第一種方法是利用編輯工具手工直接編寫,這將是一項海量的任務;第二種是對現有各種格式或數據庫中的信息編程轉換,并根據數據庫內容的變化實時動態地生成。這是一種可行的方法。然而這要以以往對檔案信息所做的前處理工作或稱數據準備工作為基礎,而為自動化所做的數據準備工作不充足正是我國信息化建設的一個弱項。此外,這種編程轉換又要涉及很多目前我國檔案工作人員尚不熟悉的技術問題。所以,我國檔案界在傳統管理與現代技術之間必須實現一定程度的溝通。

三、頁面描述語言與PDF

通過計算機語言發布信息時要能夠反映一份文件的兩個側面:結構和外觀。結構決定從整個文件到組成要素(諸如字符、單詞、段落和標題)的劃分方法。外觀就是文件顯示在屏幕上或打印在紙上的視覺效果。置標語言中雖然有一些控制外觀的標記,但其主要作用在于描述結構,它標識文檔中被強調的部分以及各部分之間的聯系。隨著技術發展,人們越來越重視文本的外觀,于是又設計出直接指定文檔外觀而不用結構標記的方法,即頁面描述語言。頁面描述語言用于在存儲、復制、顯示文件時精確地描述它們的外觀。如:字體及其大小、頁邊距和行距、標題的表示、圖形的定位以及數學或其他特殊符號的顯示等等。

目前最主要的一種頁面描述方法就是PDFPDF全稱為Portable document Format,譯為可移植文檔格式,由Adobe公司開發,它是一種通用文件格式,是全世界電子文件分發的公開實用標準。PDF能夠保存任何源文檔的所有字體、格式、顏色和圖形,而不管創建該文檔所使用的應用程序和平臺。PDF文件是壓縮文件,任何人都可以使用Adobe公司提供的免費軟件(Adobe Acrobat Reader)共享、查看、瀏覽和打印PDF文件。使用相關軟件,還可以將任何文檔轉換為PDF格式。PDF在電子期刊界得到廣泛采用,成為出版業新興的工作流程標準。它還在金融服務業、政府調控性行業和政府部門發揮著重要作用。世界各地有155家以上政府機構都在共同使用PDF文件。 在檔案界,有關PDF的應用也有了一些規定。如美國國家檔案與文件署(NARA)關于電子政務項目要向美國國家檔案館移交的永久文件發布了三項規定:一是同附件一起的電子郵件移交規定;二是經過掃描的文本圖像移交規定;三是PDF格式文件移交的規定。關于第三項電子文件以PDF格式移交的規定包括:1. PDF格式的所有文件;2. 從各機構的專門格式(如辦公字處理系統的格式)轉換為PDF格式的文件;3.從掃描的圖像文件(如TIFF格式)轉換成PDF格式的文件。可見,關于PDF的未來發展頗值得檔案界給予適當的關注。

結構描述與外觀描述不是兩個對立面或競爭面,而是相互需要,二者功能可以相輔相成,并不沖突,二者都應該受到重視。國外許多數字圖書館對每個文檔都保存兩種版本,以滿足利用者不同需要。檔案界也可以采用這種方法。


 
(文/小編)
免責聲明
本文為小編原創作品,作者: 小編。歡迎轉載,轉載請注明原文出處:http://www.haofan.net/tech/201812/4914.html 。本文僅代表作者個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,作者需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們kf@dawindow.com。
 

Copyright ? 2018 檔案之窗(dawindow.com) ??? 深圳司捷科技有限公司? ? 版權所有       粵ICP備18047471號-1