久久五月天综合网,囯国产a国产片国产

全文搜索引擎就是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息（以網(wǎng)頁文字為主）而建立的數(shù)據(jù)庫中，檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。

簡介全文檢索技術(shù)，尤其是中文全文檢索技術(shù)的研究始于1987年左右，已經(jīng)有一些商品化的軟件。Internet的普及使得全文檢索技術(shù)日益成熟起來，其應(yīng)用已突破傳統(tǒng)的情報(bào)部門和信息中心的局限性，使該技術(shù)的最廣大用戶變成互聯(lián)網(wǎng)的用戶和桌面用戶，而不再僅局限于情報(bào)檢索專家。

全文檢索技術(shù)以各類數(shù)據(jù)如文本、聲音、圖像等為對象，提供按數(shù)據(jù)的內(nèi)容而不是外在特征來進(jìn)行的信息檢索，其特點(diǎn)是能對海量的數(shù)據(jù)進(jìn)行有效管理和快速檢索。它是搜索引擎的核心技術(shù)，同時(shí)也是電子商務(wù)網(wǎng)站的支撐技術(shù)。全文檢索技術(shù)可應(yīng)用于企業(yè)信息網(wǎng)站、媒體網(wǎng)站、政府站點(diǎn)、商業(yè)網(wǎng)站、數(shù)字圖書館和搜索引擎中。我們知道，企業(yè)信息化是電子商務(wù)的基礎(chǔ)，企業(yè)建立自己的商務(wù)站點(diǎn)，構(gòu)建企業(yè)內(nèi)部信息發(fā)布平臺(tái)，并與其他網(wǎng)站間建立安全的信息發(fā)布通道和交換通道，建立電子商務(wù)的應(yīng)用并以數(shù)據(jù)為中心建立應(yīng)用平臺(tái)等方面都離不開全文檢索。該檢索技術(shù)可跨越所有的數(shù)據(jù)源，支持多種數(shù)據(jù)和信息格式，對檢索結(jié)果可按商業(yè)分類規(guī)則進(jìn)行排列，也能滿足用戶特定的知識(shí)檢索請求，將所有不同信息查詢中的命中結(jié)果按相關(guān)性或分類排列，提供不同格式的信息瀏覽功能。1

從搜索結(jié)果來源的角度，全文搜索引擎又可細(xì)分為兩種，一種是擁有自己的檢索程序（Indexer），俗稱“蜘蛛”（Spider）程序或“機(jī)器人”（Robot）程序，并自建網(wǎng)頁數(shù)據(jù)庫，搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用，如Google、Fast/AllThe Web、AltaVista、Inktomi、Teoma、WiseNut、百度等；另一種則是租用其他引擎的數(shù)據(jù)庫，并按自定的格式排列搜索結(jié)果，如Lycos引擎。

原理全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件，它遍歷Web空間，能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站，并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁，從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新，還會(huì)回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁，還要有其他程序進(jìn)行分析，根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁索引，才能添加到索引數(shù)據(jù)庫中。我們平時(shí)看到的全文搜索引擎，實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面，當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí)，搜索引擎會(huì)從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引，并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎，網(wǎng)頁索引數(shù)據(jù)庫不同，排名規(guī)則也不盡相同，所以，當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí)，搜索結(jié)果也就不盡相同。2

組成全文搜索引擎主要由四大系統(tǒng)構(gòu)成。

（1）下載系統(tǒng)，用于從Web上采集各種類型的網(wǎng)頁信息，并保持對Web變化的同步。

（2）分析系統(tǒng)，用于對下載系統(tǒng)采集的信息進(jìn)行PageRank和分詞計(jì)算。

（3）索引系統(tǒng)，用于將分析系統(tǒng)處理后的網(wǎng)頁對象索引入庫。

（4）查詢系統(tǒng)，用于分析用戶提交的查詢請求，然后從索引庫中檢索出相關(guān)網(wǎng)頁并將網(wǎng)頁排序后，以查詢結(jié)果的形式返回給用戶。3

本詞條內(nèi)容貢獻(xiàn)者為:

徐恒山 - 講師 - 西北農(nóng)林科技大學(xué)

[科普中國]-全文搜索引擎