版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-全文搜索引擎

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

全文搜索引擎就是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。

簡介全文檢索技術(shù),尤其是中文全文檢索技術(shù)的研究始于1987年左右,已經(jīng)有一些商品化的軟件。Internet的普及使得全文檢索技術(shù)日益成熟起來,其應(yīng)用已突破傳統(tǒng)的情報(bào)部門和信息中心的局限性,使該技術(shù)的最廣大用戶變成互聯(lián)網(wǎng)的用戶和桌面用戶,而不再僅局限于情報(bào)檢索專家。

全文檢索技術(shù)以各類數(shù)據(jù)如文本、聲音、圖像等為對象,提供按數(shù)據(jù)的內(nèi)容而不是外在特征來進(jìn)行的信息檢索,其特點(diǎn)是能對海量的數(shù)據(jù)進(jìn)行有效管理和快速檢索。它是搜索引擎的核心技術(shù),同時(shí)也是電子商務(wù)網(wǎng)站的支撐技術(shù)。全文檢索技術(shù)可應(yīng)用于企業(yè)信息網(wǎng)站、媒體網(wǎng)站、政府站點(diǎn)、商業(yè)網(wǎng)站、數(shù)字圖書館和搜索引擎中。我們知道,企業(yè)信息化是電子商務(wù)的基礎(chǔ),企業(yè)建立自己的商務(wù)站點(diǎn),構(gòu)建企業(yè)內(nèi)部信息發(fā)布平臺(tái),并與其他網(wǎng)站間建立安全的信息發(fā)布通道和交換通道,建立電子商務(wù)的應(yīng)用并以數(shù)據(jù)為中心建立應(yīng)用平臺(tái)等方面都離不開全文檢索。該檢索技術(shù)可跨越所有的數(shù)據(jù)源,支持多種數(shù)據(jù)和信息格式,對檢索結(jié)果可按商業(yè)分類規(guī)則進(jìn)行排列,也能滿足用戶特定的知識(shí)檢索請求,將所有不同信息查詢中的命中結(jié)果按相關(guān)性或分類排列,提供不同格式的信息瀏覽功能。1

從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如Google、Fast/AllThe Web、AltaVista、Inktomi、Teoma、WiseNut、百度等;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。

原理全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會(huì)回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有其他程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí),搜索結(jié)果也就不盡相同。2

組成全文搜索引擎主要由四大系統(tǒng)構(gòu)成。

(1)下載系統(tǒng),用于從Web上采集各種類型的網(wǎng)頁信息,并保持對Web變化的同步。

(2)分析系統(tǒng),用于對下載系統(tǒng)采集的信息進(jìn)行PageRank和分詞計(jì)算。

(3)索引系統(tǒng),用于將分析系統(tǒng)處理后的網(wǎng)頁對象索引入庫。

(4)查詢系統(tǒng),用于分析用戶提交的查詢請求,然后從索引庫中檢索出相關(guān)網(wǎng)頁并將網(wǎng)頁排序后,以查詢結(jié)果的形式返回給用戶。3

本詞條內(nèi)容貢獻(xiàn)者為:

徐恒山 - 講師 - 西北農(nóng)林科技大學(xué)