網絡檔案搜索引擎
隨著因特網的迅猛發展、Web信息的增加,網絡成為信息的海洋。網絡中的信息資源具有數字化、多類型、多媒體、跨時空、跨行業、信息源分散無序、內容特征抽取更加復雜化等特點。網絡信息資源的紛繁蕪雜使得對其開發利用受到一定程度的阻礙。搜索引擎可以在一定程度上改變這種局面,它可以為網絡用戶提供信息檢索服務,成為網絡信息檢索的重要方式。
不同的網絡“沖浪者”所關心的內容各不相同。一個利用者上網查看某些檔案信息,首先就要對這些信息進行定位,搜索到相關的網址。這種搜索有不同的完成方法:正如利用者知道他要去某個檔案館一樣,他若事先已知道這些資源的位置,則輸入相關網址即可;當他想利用某些檔案信息卻又無法確定其存在的具體位置時,就要利用搜索引擎。
搜索引擎是一種信息發現服務系統,用以實現對網絡中各類信息資源的搜索、定位,或稱為對網絡信息資源的發現。其實質是查找特定信息相關網址的工具。搜索引擎以一定的策略在互聯網絡中搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的。其針對的對象是靜態頁面文件信息,檢索后返回的值是統一資源定位器,即相關網址。
搜索引擎包括信息搜集、信息整理和用戶查詢三部分。信息搜集是利用自動跟蹤的計算機程序(如:Robot機器人、Spider蜘蛛、crawlers爬行者等)通過各種鏈接定期在網上漫游,搜集有關站點的最新文檔和服務器信息。所收集的信息可能只包含主頁的名字和地址,也可能包括主頁的內容、基于文本文檔的命令和多媒體文件信息。信息整理是將搜集到的信息存儲在數據庫中,并對這些信息進行分類等加工,組織形成索引數據庫,供用戶查詢和訪問。用戶查詢主要接受用戶提交的搜索請求,然后從數據庫中找出匹配的信息反饋給用戶。用戶再根據這些信息訪問相應的網站,進一步查找自己需要的信息。信息庫及其索引是搜索引擎在邏輯上的核心部分。搜索引擎工作的主要特點是采用基于Web瀏覽器的用戶界面、檢索結果按相關性排序并分批輸出、在很多場合查詢方式與瀏覽方式結合使用。
搜索引擎提供分類目錄檢索和關鍵字檢索兩種方式。分類目錄檢索可以幫助用戶按一定的結構條理清晰地找到需要的信息。它是將網站信息收集起來,根據資源類型不同而分成不同的目錄,再一層層地進行分類。某一類(例如檔案類)下面排列著屬于該類別的網站站名和網址鏈接,甚至還有各個網站的內容提要。用戶找尋需要的信息可按給定的分類一層層進入,最后到達目的地。關鍵字檢索用于查找包含一個或多個特定關鍵字的網站。關鍵字檢索提供一個文字輸入框和一個功能鍵。用戶可以在文字框中輸入要查找的字、詞或短語(如“檔案”),并可進行邏輯組合,然后點擊功能鍵,搜索引擎便會查找包含該字、詞或短語的網站的站名、網址和內容提要,然后根據一定的規則反饋給用戶,并提供指向這些網址的鏈接。搜索引擎還能起到其他的信息檢索作用,如檢索人名、地址、電話、查找軟件等。
搜索引擎一般由網絡服務商ISP提供。目前圖書館界提倡各館根據服務需求開發專指性更強,更加靈活、適用的搜索引擎。此外,很多大型網站都提供站內搜索引擎,也就是只搜索本網站內各個網頁上的相關內容。許多以頁面方式發布的檔案信息就依靠站內搜索引擎來進行檢索。
現階段,網絡信息檢索研究的重點正向某些“中間件”或“智能代理”方向發展。除了新興的自動標引、自動跟蹤、自動漫游等智能化檢索技術正在逐步走向完善外,網絡專家們又推出了智能瀏覽器、學習智能體、知識共享智能體等最新的網絡信息高度智能化檢索技術。網絡信息檢索將不僅代表著在網絡環境下發展起來的一種新型檢索模式,而且將發展成為信息檢索領域一個重要的學科分支。