歸檔網絡信息價值的元數據描述
信息技術的飛速發展影響著人們生活的方方面面,隨著網絡的普及與高速發展,網絡信息已逐漸成為現代社會不可缺少的資源,愈來愈多的國家開始重視網絡信息資源的歸檔保存。而如今,我們又邁入了大數據時代,網絡信息資源的數量和增長方式決定了一般的歸檔保存項目必須采用自動選擇歸檔模式。而元數據正是進行這一自動選擇歸檔中關鍵性技術,因此在大數據的背景下,對網絡信息資源的歸檔元數據進行研究也顯得非常必要。
目前,由于缺乏基于元數據的判斷標準,許多選擇性網絡信息歸檔保存項目無法相互溝通和合作,例如一些網絡信息歸檔保存機構各自制定了選擇標準。但由于這些標準缺乏普遍的指導意義,歸檔項目之間的合作空間較小。本文將利用基于歸檔網絡信息價值的元數據描述,通過分析影響網絡信息價值的主要因素,判斷網絡信息的價值有否和大小,再利用元數據的判斷標準將有價值的網絡信息歸檔保存,以求獲得網絡信息價值的歸檔最大最優化。
1 歸檔網絡信息價值的構成要素
網絡信息資源的歸檔,主要指的是相關主體對具有長遠保存價值的網絡信息,進行有針對性的捕獲、整理、存儲歸檔等檔案化存儲管理行為,歸檔網絡信息資源,可以有效實現歸檔網絡信息資源的充分開發,重現社會活動真實面目,滿足相關主體的長遠網絡信息需求等目的。了解和分析歸檔網絡信息資源的構成要素,有利于更好開展網絡信息歸檔工作和相關社會服務工作,有利于消除歸檔網絡信息資源高效利用過程中的諸多障礙。根據對網絡信息價值的基本理論進行分析,筆者認為可以從以下四個方面來對考慮影響其價值的構成要素:信息來源、信息內容、信息形式和信息效用。
1.1 信息來源
當前,由于互聯網的虛擬性和隱匿性,任何人都可以隨意上傳或下載信息數據資源,因此,網絡信息資源的質量無法得到保障,信息資源真偽也無法分辨,因此信息資源真實可信與否成為制約人們應用網絡信息資源的重要因素之一。真實可信性是歸檔網絡信息資源的核心屬性,真實可信的信息資源能夠如實反映客觀事物,為用戶提供高效參考,產生相應的社會價值,如果歸檔網絡信息數據無法如實反映和再現客觀事實,那其就不具有歸檔保存的價值。歸檔網絡信息來源在很大程度上決定了信息數據是否真實可信。信息來源的可靠性,往往是用戶獲取信息的重要評價標準,可信度低的信息來源往往被用戶們所遺棄,因此信息來源對歸檔網絡信息數據的價值有較大的影響作用。
1.2 信息內容
很多網絡信息資源都具有較高的政治、經濟以及文化價值,使用者可用從信息資源的內容著手,考慮個人發展需求、組織職能實現需求、社會發展需求等因素,來決定是否對網絡信息資源進行利用。歸檔網絡信息同樣具有其他網絡信息資源所具有的信息功能和價值,網絡信息資源經過存檔之后,轉化為檔案,具有原始記錄性,進而也具有憑證作用和情報價值。使用者通過選擇符合要求的歸檔信息,利用歸檔網絡信息對個人、組織和社會從事各項活動等的真實記錄和反映來實現其目的。同時,使用者能夠利用這些信息起到知往查來的作用,有利于保持學術研究、社會工作的連續性和有效性對于進行科學決策具有不可代替的參考作用。歸檔網絡信息的信息內容是前人的成果和經驗,能夠為以后的生產經營等業務工作提供依據,已經成為歸檔網絡信息價值的重要構成要素,且內容的客觀性、全面性、新穎性等也逐步發展成為歸檔文獻信息價值判斷的重要標準。
1.3 信息形式
無序的網絡信息會使使用者陷入“信息泛濫、知識貧乏”的信息怪圈,從而形成網絡信息指數增加與利用之間的矛盾。根據網絡信息形式進行有序化整理,能夠促進網絡信息管理向知識管理轉變,推動用戶在大量網絡信息中發現和開發知識,提高網絡信息的利用率。因此信息形式也是歸檔網絡信息價值的重要構成要素,主要可以通過空間域、時期、資源語言、格式等方面來對信息進行確定,從而保證信息描述的準確性和信息系統的可用性。
首先,要了解歸檔網絡信息分布的空間,以便于于對其進一步了解,不斷提高其利用率,增加其價值。其次,歸檔網絡信息資源所處的時期同樣對其價值起到一定的作用。再次,歸檔網絡信息的語言使用情況也是影響其價值的重要因素。另外,歸檔網絡信息的格式同樣是影響其價值的一大因素。不同載體歸檔網絡信息可能以不同的格式出現,有的計算機設備可能無法對某些格式的歸檔網絡信息進行識別,因而會影響其可識別性和可讀性,不利于價值的實現。
1.4 信息效用
信息效用是歸檔網絡信息價值的關鍵構成要素,也是歸檔網絡工作不斷發展和不斷改進的動力因素。信息效用作為重要的歸檔網絡信息價值構成要素,主要體現在兩個方面,即獲取方式和用戶利用。
首先,獲取方式的易用性是影響信息效用的一個重要方面。一般來說,信息使用者總是愿意選擇最容易利用的信息獲取途徑來獲取自己所需的信息,用戶對信息獲取途徑的選擇幾乎是建立在易用性的基礎之上的。因此,歸檔網絡信息獲取途徑的易用性在很大程度上能夠提升歸檔網絡信息在用戶心中的地位。其次,用戶利用也能夠反映出信息效用,并能夠不斷提升歸檔信息的價值。用戶利用人數多,利用總量大,歸檔網絡信息的信息效用就越大。用戶在獲取了歸檔網絡信息之后,可以進行吸收,在此基礎上進行提煉加工和綜合分析形成新的信息,也可以在此基礎上結合原有的信息與知識進行綜合,從而形成新的知識和信息。用戶吸收歸檔網絡信息,創造大量新的信息,產生新的思想、觀點、理論以及方法,是原有歸檔網絡信息自身價值升華的一種體現。
2 歸檔網絡信息價值的元數據描述方案
為了實現網絡信息的自動選擇歸檔,需要建立網絡信息價值的判斷標準,并利用元數據這一工具進行描述。通過借鑒現有的信息資源管理元數據標準,可以從網絡信息的來源、內容、形式、效用等角度構建描述歸檔網絡信息價值的元數據方案,并利用HTML的元標簽和XMLSCHEMA實現歸檔網絡信息價值的自描述,從而為建立網絡信息的自動化篩選機制奠定基礎。
2.1 歸檔網絡信息價值元數據的參考標準
2.1.1都伯林核心 DublinCore (DC),即都柏林核心元素集,它產生于1995年,由15個基本詞構成,目的是為了幫助人們盡快地在網上發現所需要的有效信息資源,從而規定網絡信息資源的提供者對資源屬性信息進行描述,并對其內容進行編目、定位。都柏林核心元素集具有簡練、易于理解、可擴展性、能與其他元數據進行銜接等性能。
2.1.2EAD EAD (EncodedArchivalDescription),即檔案編碼著錄標準,它是模式化表達檔案檢索工具的內容、形式等各部分結構的一種規范形式,其實質是SGML及XML在檔案界的具體應用,主要用于描述檔案和手稿資源,以及利用網絡檢索和獲取檔案手稿類信息資源②。EAD 共有146個元素,這些元素都包含在(ead)(/ead)中,也就是說以該元素作為根元素,它以下又分為EAD 頭標(eadheader)、前面事項(frontmatter)、檔案描述(archdes)三個高層元素,每一個高層元素下再包括若干子元素,某些子元素下又包括若干孫元素項,類似于樹形結構。
2.1.3GILS GILS (GovernmentInformationLocatorService),即政府信息定位服務,是一種支持公眾搜尋、獲取和使用政府公開信息資源(包括網絡信息資源)的開放環境下的分布式信息資源及利用體系。最初由美國政府提出。1995年美國國會通過?PaperReGductionAct?,以法律形式規定了各聯邦機構必須以GILS 來組織和向公眾傳遞政府信息,這就確立了GILS在政府信息工作中的作用。此外,加拿大,澳大利亞,以及政府間組織(如7國集團環境與自然資源管理項目)也紛紛效仿美國政府,從1995年起開始利用GILS來建立或推動政府信息的廣泛利用和共享。GILS的基本構建要素是對信息資源進行描述的元數據,它是一組相關元素的基本詞的集合,用來描述信息資源的內容、位置、服務方式、存儲等等方面的屬性。
2.1.4Premis Premis (PreservationmetadataImplementationStrategies),中文翻譯為保存元數據實施策略,通常情況下直接被稱為“保存元數據”。它是由OCLC 和RLG 在2003年發起的項目。其主要目標是,在保存元數據框架的基礎上,關注保存元數據在具體實踐過程中的實施問題,提出在數字資源長期保存過程中,實施保存元數據的具體指導方案。2005年PREMIS,完成了其最終報告“DataDictionaryforPreservationmetadataFiGnalReportofPREMIS WorkingGroup”。此后PREMIS工作組先后發布了多個報告,且對數據字典不斷修改完善。2012年發布的“PREMISDataDictionaryforPreservationmetadaGtaversion2.2”為其數據字典最新版本。PREMIS工作組將“保存元數據”定義為在一個倉儲系統中對數字保存過程進行支持的信息,它應當具有支持和證明數字保存過程的信息以及提供長期維護資源的信息。
2.2 歸檔網絡信息價值元數據的元素
以上元數據標準都有各自的有點,但同時也存在一定的缺陷,DC 對網絡信息資源的信息效用的描述有所欠缺,信息的利用狀況不能得到有效的描述;EAD 層級較多,能將舊的紙質檢索工具較好的轉換為新的電子檢索工具,但由于網絡信息資源的無組織性,因此描述難度較大。GILS主要適用于政府信息及政務公開,對于普通的網絡信息的歸檔描述效果欠佳,PREMIS適應性強,元素豐富,但是由于其數據字典沒有定義知識實體的語義單元,因此在語義網中難以實現知識的組織和描述。因此根據歸檔網絡信息價值的構成因素,筆者參照了DC (都伯林核心)、EAD (檔案編碼著錄標準)、GILS (政府信息定位服務)、PREMIS (保存元數據實施策略)等當前國際上認可的網絡信息價值元數據描述標準,歸納總結出歸檔網絡信息價值元數據的元素主要包括以下四個方面,如下表1所示:
2.1 網絡信息來源元素
網絡信息來源元素能夠反映出歸檔網絡信息的來源,對其產權、所有權進行描述,主要包括Author (形成者)、Publisher (發行者)、Contributor (其他參與者)、RecordSource(數據來源)等。其中,Author (形成者)指的是對其創建的歸檔網絡信息資源內容承擔責任的個人、群體或機構。歸檔網絡信息資源作者的科研水平、研究趨勢等在一定程度上能夠顧反映當前某一學科或學術領域的發展動態和科研潛力,因此,歸檔網絡信息資源的Author (形成者)可以反映出該資源的價值水平。Publisher (發行者)和Contributor (其他參與者)作為貢獻者,其資金雄厚程度、社會信譽高低、專業水平強弱等多方面因素均會影響歸檔網絡信息資源的價值水平。SourceofDate (數據來源)能夠反映出網絡信息是來源于以網絡連接起來的信息資源,還是來源于以網絡形式出版的信息資源(網絡出版物),亦或是網上交流的信息資源,如電子郵件、新聞組等。相較于其他類型的信息資源,網絡信息資源的質量高低不一,通過網絡信息來源元素可以在很大程度上揭示出該資源質量的可靠程度。
2.2 網絡信息內容元素
通過網絡信息內容元素通過對資源內在進行描述,能夠揭示出歸檔網絡信息的本質內容,主要包括Title (標題)、Subject (主題)、Abstract (摘要)、Keywords (關鍵詞)、ScheduleNumber (目錄號)等。其中,Title (標題)指的是網絡信息資源的Author或Publisher給資源定的名稱,作為全文的“文眼”,能夠對該網絡信息資源的主旨進行歸納,點明中心,彰顯資源的價值,從而能夠吸引讀者的眼光。Subject (主題)和Keywords(關鍵字)指的是網絡信息資源的主題和關鍵字,一般指的是描述網絡信息資源的主題和內容的關鍵詞或短語,能夠直觀而且鮮明地表述網絡信息資源所要論述或表述的主題或觀點,使讀者在閱讀信息資源正文之前便能夠對資源整體一目了然,因而能夠影響讀者作出是否花費時間來進行信息采集、儲存、閱讀的決定。Abstract (摘要)是對網絡信息資源的內容的準確壓縮,即針對網絡信息資源不加注釋和評論的簡單陳述,因此其是讀者判斷網絡信息資源歸檔價值的重要依據。ScheduleNumber (目錄號)指的是歸檔網絡信息資源在全宗下所屬目錄的編號,是獨一無二的,能夠反映出信息的內在特征。
2.3 網絡信息形式元素
通過對網絡信息形式元素對網絡信息資源進行描述,能夠反映出網絡信息資源的外在屬性,主要包括Date (年份)、Type (類型)、Format (格式)、SpatialDomain (空間位置)、LanguageofResource (語言)、Profiledesc (范圍)、Rights (管理權限)等元素。其中,Date (年份)指的是網絡信息公開發布、出版、更新和修改等可獲得性相關的日期,能夠反映出所描述的網絡信息資源所處的時期。受社會、經濟、科學、文化等多方面因素的影響,不同時期的網絡信息數據具有不同的價值。Type (類型)指的是網絡信息資源屬性的類型,包括文本、圖像、聲音、軟件、數據以及交互式應用等,讀者可以通過對類型的判別從而對信息價值進行判別。Format (格式)指的是被描述的網絡信息資源的數據形式和尺寸,能夠明確在操作該資源時應該采用什么樣的軟件和硬件,在進行網絡信息資源歸檔時,應通過此元素明確該資源的可操作性,保障歸檔網絡信息的可識別性和可讀性。
SpatialDomain (空間位置)指的是網絡環境下信息資源的空間分布情況,在當前網絡信息分布很廣,離散程度加劇的情況下,明確其空間位置,有利于加強對其的了解,提升利用率,增加價值。LanguageofResource (語言)指的是被描述的網絡信息資源內容的描述語言,即檢索語言,檢索語言能夠描述出信息資源的內容特征、外表特征并表達情報提問,能夠將信息的歸檔存儲和檢索緊密聯系,并促使歸檔人員和檢索人員緊密聯系,并取得共同理解、實現交流,因此LanguageofResource 有利于歸檔網絡信息價值的實現。
Rights (管理權限)指的是網絡信息資源的版權聲明和使用規范,網絡信息資源的管理權限向社會公眾告知了發布者對該資源被使用這一事實的立場和態度,可以在一定程度上避免侵權的現象,這一元素能夠影響讀者是否歸檔保存該網絡信息資源。
2.4 網絡信息效用元素
網絡信息效用元素能夠反映出信息資源使用者對該網絡信息的使用程度,從而鑒別出網絡信息的價值大小,甄別出其是否適合歸檔,主要包括Purpose (目的)、PointofConGtact (聯系點)、Browse Number (瀏覽次數)、Availability (獲取方式)、Access ConGstraints (獲取限制)、ConsumerUse (用戶利用)等元素。其中,Purpose (目的)指的是用戶獲取網絡信息的目的,用戶往往會充分認識到信息對實現自己目標的重要性,從而選擇那些對實現自己目的起決定性作用的、價值較大的信息,也會根據自己目的實現的緊迫程度來將信息獲取需求轉化為信息獲取行為。PointofContact (聯系點)往往指的是網絡信息資源的國家、省或州、市、街道、網址、郵編、電話、傳真等。聯系點是否普遍、使用者購買是否方便快捷等,也是影響歸檔網絡信息價值的重要因素。瀏覽次數(BrowseNumber)能夠反映出當前該網絡信息資源的受關注程度,歸檔者能夠判斷出該資源是否代表相關發展趨勢和動態,進而歸檔其是否具有歸檔價值。Availability (獲取方式)主要包括在獲取過程中的網絡信息資源的載體情況、使用該資源必備的技術、如何獲取信息、可獲得時期以及可使用鏈接等。AccessConstraints (獲取限制)則指的是網絡信息資源一般獲取時的獲取限制或法律必備條件、信息資源安全分類的具體規定、信息資源制作者制定的關于此信息資源獲取或傳輸的控制要求。獲取方式和獲取限制這兩者在很大程度上影響著獲取途徑和方式的易用性,一般來說使用者往往愿意選擇獲取途徑和方式易用的網絡信息。ConsumerUse (用戶利用)能夠反映出用戶在對網絡信息利用完之后是否起到了改變知識結構、指導學習生活、創造新的信息等,從而能夠反映出原有網絡信息價值的高低以及歸檔是否具有必要性。
3 歸檔網絡信息價值自描述的實現方法
由于網絡信息呈指數增長,其歸檔手段必須是自動化的。為了便于機器處理,需要建立歸檔網絡信息價值自描述的機制,由機器人自動抽取網絡信息的價值元數據,或者在網絡信息價值元數據與網絡信息本身之間建立聯系,從而保證歸檔網絡信息采集機器人能自動根據信息價值篩選出需要歸檔的網絡信息資源。筆者認為有兩種方法可以實現歸檔網絡信息價值的自描述,一是在HTML的頭標簽中嵌入價值元數據,二是用XML進行描述。
3.1 在HTML中用元標簽進行描述
在HTML的head標簽中,可以加入一些meta標簽,對網頁的形成者(author)、摘要(abstract)、關鍵字(keywords)等進行描述。搜索引擎剛剛興起的時候,這些標簽往往會影響網站的排名,于是造成了元標簽的濫用。搜索引擎改變了排名算法之后,這些元標簽的內容對網站排名的影響甚微,于是元標簽往往被網絡信息的形成者所忽視。SEO 興起之后,被忽視的元標簽重新受到人們的重視。HTML 中最重要的meta 標簽包括HTTPEQUIV,NAME,CONTENTT。其中HTTP-EQUIV 類似于HTTP 的頭部協議,它向給瀏覽器回應一些信息,用來幫助準確顯示網頁內容,因此我們可以將歸檔網絡信息元數據的元素作為name的值填充到meta標簽中,用content的值說明每個元素的值。通過這種方式,可以將網絡信息價值元數據與網頁聯系起來,在自動歸檔實踐中,可以通過機器人自動判斷網頁的價值。
3.2 基于XML的歸檔網絡信息價值描述方案
XML (ExtensibleMarkupLanguage)是由萬維網聯盟定義的一種用來標記電子文件使其具有結構性的標記語言,可以標記和定義數據類型,是一種允許用戶對自己的標記語言進行定義的源語言。在可擴展標記語言XML 中,最重要的概念是文檔類型聲明DTD(documentTypeDescription)。XML的DTD 用于定義邏輯結構的限制和支持預定義存儲單元的使用。一個XML文檔內容的各部分都必須遵守相關的DTD 限制。通過DTD 可以為XML文檔指定一種語法,確定文檔中允許出現哪些標簽,這些標簽以何種順序出現,以及哪些標簽可以嵌套,從而確保XML文檔是有效的。因此可以根據對歸檔網絡信息價值的分析,利用XML語言定義一個用于價值描述的XMLDTD,用于實現網絡信息資源的自動歸檔。