版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-搜索引擎

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

所謂搜索引擎,就是根據(jù)用戶需求與一定算法,運(yùn)用特定策略從互聯(lián)網(wǎng)檢索出制定信息反饋給用戶的一門檢索技術(shù)。搜索引擎依托于多種技術(shù),如網(wǎng)絡(luò)爬蟲技術(shù)、檢索排序技術(shù)、網(wǎng)頁處理技術(shù)、大數(shù)據(jù)處理技術(shù)、自然語言處理技術(shù)等,為信息檢索用戶提供快速、高相關(guān)性的信息服務(wù)。搜索引擎技術(shù)的核心模塊一般包括爬蟲、索引、檢索和排序等,同時(shí)可添加其他一系列輔助模塊,以為用戶創(chuàng)造更好的網(wǎng)絡(luò)使用環(huán)境。1

定義搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上采集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將檢索的相關(guān)信息展示給用戶的系統(tǒng)。搜索引擎是工作于互聯(lián)網(wǎng)上的一門檢索技術(shù),它旨在提高人們獲取搜集信息的速度,為人們提供更好的網(wǎng)絡(luò)使用環(huán)境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。2

搜索引擎發(fā)展到今天,基礎(chǔ)架構(gòu)和算法在技術(shù)上都已經(jīng)基本成型和成熟。搜索引擎已經(jīng)發(fā)展成為根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。3

發(fā)展歷程搜索引擎是伴隨互聯(lián)網(wǎng)的發(fā)展而產(chǎn)生和發(fā)展的,互聯(lián)網(wǎng)已成為人們學(xué)習(xí)、工作和生活中不可缺少的平臺(tái),幾乎每個(gè)人上網(wǎng)都會(huì)使用搜索引擎。搜索引擎大致經(jīng)歷了四代的發(fā)展:4

1、第一代搜索引擎

1994年第一代真正基于互聯(lián)網(wǎng)的搜索引擎Lycos誕生,它以人工分類目錄為主,代表廠商是Yahoo, 特點(diǎn)是人工分類存放網(wǎng)站的各種目錄,用戶通過多種方式尋找網(wǎng)站,現(xiàn)在也還有這種方式存在。4

2、第二代搜索引擎

隨著網(wǎng)絡(luò)應(yīng)用技術(shù)的發(fā)展,用戶開始希望對內(nèi)容進(jìn)行查找,出現(xiàn)了第二代搜索引擎,也就是利用關(guān)鍵字來查詢,最其代表性最成功的是Google,它建立在網(wǎng)頁鏈接分析技術(shù)的基礎(chǔ)上,使用關(guān)鍵字對網(wǎng)頁搜索,能夠覆益互聯(lián)網(wǎng)的大量網(wǎng)頁內(nèi)容,該技術(shù)可以分析網(wǎng)頁的重要性后.將重要的結(jié)果呈現(xiàn)給用戶。4

3、第三代搜索引擎

隨著網(wǎng)絡(luò)信息的迅速膨脹,用戶希望能快速并且準(zhǔn)確的查找到自己所要的信息,因此出現(xiàn)了第三代搜索引擎。相比前兩代第三代搜索引擎更加注重個(gè)性化、專業(yè)化智能化使用自動(dòng)聚類、分類等人工智能技術(shù),采用區(qū)域智能識(shí)別及內(nèi)容分析技術(shù),利用人工介入,實(shí)現(xiàn)技術(shù)和人工的完美結(jié)合,增強(qiáng)了搜索引擎的查詢能力。第三代搜索引擎的代表是Google,它以寬廣的信息覆蓋率和優(yōu)秀的搜索性能為發(fā)展搜索引擎的技術(shù)開創(chuàng)了嶄新的局面。4

4、第四代搜索引

隨著信息多元化的快速發(fā)展,通用搜索引擎在目前的硬件條件下要得到互聯(lián)網(wǎng)上比較全面的信息是不太可能的,這時(shí),用戶就需要數(shù)據(jù)全面、更新及時(shí)、分類細(xì)致的面向主題搜索引擎,這種搜索引擎采用特征提取和文本智能化等策略,相比前三代搜索引擎更準(zhǔn)確有效,被稱為第四代搜索引擎。4

工作原理搜索引擎的整個(gè)工作過程視為三個(gè)部分:一是蜘蛛在互聯(lián)網(wǎng)上爬行和抓取網(wǎng)頁信息,并存入原始網(wǎng)頁數(shù)據(jù)庫;二是對原始網(wǎng)頁數(shù)據(jù)庫中的信息進(jìn)行提取和組織,并建立索引庫;三是根據(jù)用戶輸入的關(guān)鍵詞,快速找到相關(guān)文檔,并對找到的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。以下對其工作原理做進(jìn)一步分析:5

一、網(wǎng)頁抓取

Spider每遇到一個(gè)新文檔,都要搜索其頁面的鏈接網(wǎng)頁。搜索引擎蜘蛛訪問web頁面的過程類似普通用戶使用瀏覽器訪問其頁面,即B/S模式。引擎蜘蛛先向頁面提出訪問請求,服務(wù)器接受其訪問請求并返回HTML代碼后,把獲取的HTML代碼存入原始頁面數(shù)據(jù)庫。搜索引擎使用多個(gè)蜘蛛分布爬行以提高爬行速度。搜索引擎的服務(wù)器遍布世界各地,每一臺(tái)服務(wù)器都會(huì)派出多只蜘蛛同時(shí)去抓取網(wǎng)頁。如何做到一個(gè)頁面只訪問一次,從而提高搜索引擎的工作效率。在抓取網(wǎng)頁時(shí),搜索引擎會(huì)建立兩張不同的表,一張表記錄已經(jīng)訪問過的網(wǎng)站,一張表記錄沒有訪問過的網(wǎng)站。當(dāng)蜘蛛抓取某個(gè)外部鏈接頁面URL的時(shí)候,需把該網(wǎng)站的URL下載回來分析,當(dāng)蜘蛛全部分析完這個(gè)URL后,將這個(gè)URL存入相應(yīng)的表中,這時(shí)當(dāng)另外的蜘蛛從其他的網(wǎng)站或頁面又發(fā)現(xiàn)了這個(gè)URL時(shí),它會(huì)對比看看已訪問列表有沒有,如果有,蜘蛛會(huì)自動(dòng)丟棄該URL,不再訪問。5

二、預(yù)處理,建立索引

為了便于用戶在數(shù)萬億級別以上的原始網(wǎng)頁數(shù)據(jù)庫中快速便捷地找到搜索結(jié)果,搜索引擎必須將spider抓取的原始web頁面做預(yù)處理。網(wǎng)頁預(yù)處理最主要過程是為網(wǎng)頁建立全文索引,之后開始分析網(wǎng)頁,最后建立倒排文件(也稱反向索引)。Web頁面分析有以下步驟:判斷網(wǎng)頁類型,衡量其重要程度,豐富程度,對超鏈接進(jìn)行分析,分詞,把重復(fù)網(wǎng)頁去掉。經(jīng)過搜索引擎分析處理后,web網(wǎng)頁已經(jīng)不再是原始的網(wǎng)頁頁面,而是濃縮成能反映頁面主題內(nèi)容的、以詞為單位的文檔。數(shù)據(jù)索引中結(jié)構(gòu)最復(fù)雜的是建立索引庫,索引又分為文檔索引和關(guān)鍵詞索引。每個(gè)網(wǎng)頁唯一的docID號是有文檔索引分配的,每個(gè)wordID出現(xiàn)的次數(shù)、位置、大小格式都可以根據(jù)docID號在網(wǎng)頁中檢索出來。最終形成wordID的數(shù)據(jù)列表。倒排索引形成過程是這樣的:搜索引擎用分詞系統(tǒng)將文檔自動(dòng)切分成單詞序列-對每個(gè)單詞賦予唯一的單詞編號-記錄包含這個(gè)單詞的文檔。倒排索引是最簡單的,實(shí)用的倒排索引還需記載更多的信息。在單詞對應(yīng)的倒排列表除了記錄文檔編號之外,單詞頻率信息也被記錄進(jìn)去,便于以后計(jì)算查詢和文檔的相似度。5

三、查詢服務(wù)

在搜索引擎界面輸入關(guān)鍵詞,點(diǎn)擊“搜索”按鈕之后,搜索引擎程序開始對搜索詞進(jìn)行以下處理:分詞處理、根據(jù)情況對整合搜索是否需要啟動(dòng)進(jìn)行判斷、找出錯(cuò)別字和拼寫中出現(xiàn)的錯(cuò)誤、把停止詞去掉。接著搜索引擎程序便把包含搜索詞的相關(guān)網(wǎng)頁從索引數(shù)據(jù)庫中找出,而且對網(wǎng)頁進(jìn)行排序,最后按照一定格式返回到“搜索”頁面。查詢服務(wù)最核心的部分是搜索結(jié)果排序,其決定了搜索引擎的量好壞及用戶滿意度。實(shí)際搜索結(jié)果排序的因子很多,但最主要的因素之一是網(wǎng)頁內(nèi)容的相關(guān)度。影響相關(guān)性的主要因素包括如下五個(gè)方面。5

(1)關(guān)鍵詞常用程度。經(jīng)過分詞后的多個(gè)關(guān)鍵詞,對整個(gè)搜索字符串的意義貢獻(xiàn)并不相同。越常用的詞對搜索詞的意義貢獻(xiàn)越小,越不常用的詞對搜索詞的意義貢獻(xiàn)越大。常用詞發(fā)展到一定極限就是停止詞,對頁面不產(chǎn)生任何影響。所以搜索引擎用的詞加權(quán)系數(shù)高,常用詞加權(quán)系數(shù)低,排名算法更多關(guān)注的是不常用的詞。5

(2)詞頻及密度。通常情況下,搜索詞的密度和其在頁面中出現(xiàn)的次數(shù)成正相關(guān),次數(shù)越多,說明密度越大,頁面與搜索詞關(guān)系越密切。5

(3)關(guān)鍵詞位置及形式。關(guān)鍵詞出現(xiàn)在比較重要的位置,如標(biāo)題標(biāo)簽、黑體、H1等,說明頁面與關(guān)鍵詞越相關(guān)。在索引庫的建立中提到的,頁面關(guān)鍵詞出現(xiàn)的格式和位置都被記錄在索引庫中。5

(4)關(guān)鍵詞距離。關(guān)鍵詞被切分之后,如果匹配的出現(xiàn),說明其與搜索詞相關(guān)程度越大,當(dāng)“搜索引擎”在頁面上連續(xù)完整的出現(xiàn)或者“搜索”和“引擎”出現(xiàn)的時(shí)候距離比較近,都被認(rèn)為其與搜索詞相關(guān)。5

(5)鏈接分析及頁面權(quán)重。頁面之間的鏈接和權(quán)重關(guān)系也影響關(guān)鍵詞的相關(guān)性,其中最重要的是錨文字。頁面有越多以搜索詞為錨文字的導(dǎo)入鏈接,說明頁面的相關(guān)性越強(qiáng)。鏈接分析還包括了鏈接源頁面本身的主題、錨文字周圍的文字等。5

分類搜索方式是搜索引擎的一個(gè)關(guān)鍵環(huán)節(jié),大致可分為四種:全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎,它們各有特點(diǎn)并適用于不同的搜索環(huán)境。所以,靈活選用搜索方式是提高搜索引擎性能的重要途徑。全文搜索引擎是利用爬蟲程序抓取互聯(lián)網(wǎng)上所有相關(guān)文章予以索引的搜索方式;元搜索引擎是基于多個(gè)搜索引擎結(jié)果并對之整合處理的二次搜索方式;垂直搜索引擎是對某一特定行業(yè)內(nèi)數(shù)據(jù)進(jìn)行快速檢索的一種專業(yè)搜索方式;目錄搜索引擎是依賴人工收集處理數(shù)據(jù)并置于分類目錄鏈接下的搜索方式。1

全文搜索引擎一般網(wǎng)絡(luò)用戶適用于全文搜索引擎。這種搜索方式方便、簡捷,并容易獲得所有相關(guān)信息。但搜索到的信息過于龐雜,因此用戶需要逐一瀏覽并甄別出所需信息。尤其在用戶沒有明確檢索意圖情況下,這種搜索方式非常有效。1

元搜索引擎元搜索引擎適用于廣泛、準(zhǔn)確地收集信息。不同的全文搜索引擎由于其性能和信息反饋能力差異,導(dǎo)致其各有利弊。元搜索引擎的出現(xiàn)恰恰解決了這個(gè)問題,有利于各基本搜索引擎間的優(yōu)勢互補(bǔ)。而且本搜索方式有利于對基本搜索方式進(jìn)行全局控制,引導(dǎo)全文搜索引擎的持續(xù)改善。1

垂直搜索引擎垂直搜索引擎適用于有明確搜索意圖情況下進(jìn)行檢索。例如,用戶購買機(jī)票、火車票、汽車票時(shí),或想要瀏覽網(wǎng)絡(luò)視頻資源時(shí),都可以直接選用行業(yè)內(nèi)專用搜索引擎,以準(zhǔn)確、迅速獲得相關(guān)信息。1

目錄搜索引擎目錄搜索引擎是網(wǎng)站內(nèi)部常用的檢索方式。本搜索方式旨在對網(wǎng)站內(nèi)信息整合處理并分目錄呈現(xiàn)給用戶,但其缺點(diǎn)在于用戶需預(yù)先了解本網(wǎng)站的內(nèi)容,并熟悉其主要模塊構(gòu)成??偠^之,目錄搜索方式的適應(yīng)范圍非常有限,且需要較高的人工成本來支持維護(hù)。1

主要特點(diǎn)1、信息抓取迅速。

在大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)產(chǎn)生的信息浩如煙海,令人無所適從,難以得到自己需要的信息資源。在搜索引擎技術(shù)的幫助下,利用關(guān)鍵詞、高級語法等檢索方式就可以快速捕捉到相關(guān)度極高的匹配信息。1

2、深入開展信息挖掘。

搜索引擎在捕獲用戶需求的信息的同時(shí),還能對檢索的信息加以一定維度的分析,以引導(dǎo)其對信息的使用與認(rèn)識(shí)。例如,用戶可以根據(jù)檢索到的信息條目判斷檢索對象的熱度,還可以根據(jù)檢索到的信息分布給出高相關(guān)性的同類對象,還可以利用檢索到的信息智能化給出用戶解決方案,等等。1

3、檢索內(nèi)容的多樣化和廣泛性。

隨著搜索引擎技術(shù)的日益成熟,當(dāng)代搜索引擎技術(shù)幾乎可以支持各種數(shù)據(jù)類型的檢索,例如自然語言、智能語言、機(jī)器語言等各種語言。目前,不僅視頻、音頻、圖像可以被檢索,而且人類面部特征、指紋、特定動(dòng)作等也可以被檢索到??梢韵胂?,在未來幾乎一切數(shù)據(jù)類型都可能成為搜索引擎的檢索對象。1

體系結(jié)構(gòu)搜索引擎基本結(jié)構(gòu)一般包括:搜索器、索引器、檢索器、用戶接口等四個(gè)功能模塊。5

1、搜索器:

搜索器也叫網(wǎng)絡(luò)蜘蛛,是搜索引擎用來爬行和抓取網(wǎng)頁的一個(gè)自動(dòng)程序,在系統(tǒng)后臺(tái)不停歇地在互聯(lián)網(wǎng)各個(gè)節(jié)點(diǎn)爬行,在爬行過程中盡可能快的發(fā)現(xiàn)和抓取網(wǎng)頁。5

2、索引器。

它的主要功能是理解搜索器所采集的網(wǎng)頁信息,并從中抽取索引項(xiàng)。5

3、檢索器。

其功能是快速查找文檔,進(jìn)行文檔與查詢的相關(guān)度評價(jià),對要輸出的結(jié)果進(jìn)行排序。5

4、用戶接口。

它為用戶提供可視化的查詢輸入和結(jié)果輸出的界面。5

功能模塊搜索引擎中各關(guān)鍵功能模塊功能簡介如下:3

(1)爬蟲:從互聯(lián)網(wǎng)爬取原始網(wǎng)頁數(shù)據(jù),存儲(chǔ)于文檔知識(shí)庫服務(wù)器。3

(2)文檔知識(shí)庫服務(wù)器:存儲(chǔ)原始網(wǎng)頁數(shù)據(jù),通常是分布式Key-Value數(shù)據(jù)庫,能根據(jù)URL/UID快速獲取網(wǎng)頁內(nèi)容。3

(3)索引:讀取原始網(wǎng)頁數(shù)據(jù),解析網(wǎng)頁,抽取有效字段,生成索引數(shù)據(jù)。索引數(shù)據(jù)的生成方式通常是增量的,分塊/分片的,并會(huì)進(jìn)行索引合并、優(yōu)化和刪除。生成的索引數(shù)據(jù)通常包括:字典數(shù)據(jù)、倒排表、正排表、文檔屬性等。生成的索引存儲(chǔ)于索引服務(wù)器。3

(4)索引服務(wù)器:存儲(chǔ)索引數(shù)據(jù),主要是倒排表,通常是分塊、分片存儲(chǔ),并支持增量更新和刪除。數(shù)據(jù)內(nèi)容量非常大時(shí),還根據(jù)類別、主題、時(shí)間、網(wǎng)頁質(zhì)量劃分?jǐn)?shù)據(jù)分區(qū)和分布,更好地服務(wù)在線查詢。3

(5)檢索:讀取倒排表索引,響應(yīng)前端查詢請求,返回相關(guān)文檔列表數(shù)據(jù)。3

(6)排序:對檢索器返回的文檔列表進(jìn)行排序,基于文檔和查詢的相關(guān)性、文檔的鏈接權(quán)重等屬性。3

(7)鏈接分析:收集各網(wǎng)頁的鏈接數(shù)據(jù)和錨文本(Anchor Text),以此計(jì)算各網(wǎng)頁鏈接評分,最終會(huì)作為網(wǎng)頁屬性參與返回結(jié)果排序。3

(8)網(wǎng)頁去重:提取各網(wǎng)頁的相關(guān)特征屬性,計(jì)算相似網(wǎng)頁組,提供離線索引和在線查詢的去重服務(wù)。3

(9)網(wǎng)頁反垃圾:收集各網(wǎng)頁和網(wǎng)站歷史信息,提取垃圾網(wǎng)頁特征,從而對在線索引中的網(wǎng)頁進(jìn)行判定,去除垃圾網(wǎng)頁。3

(10)查詢分析:分析用戶查詢,生成結(jié)構(gòu)化查詢請求,指派到相應(yīng)的類別、主題數(shù)據(jù)服務(wù)器進(jìn)行查詢。3

(11)頁面描述/摘要:為檢索和排序完成的網(wǎng)頁列表提供相應(yīng)的描述和摘要。3

(12)前端:接受用戶請求,分發(fā)至相應(yīng)服務(wù)器,返回查詢結(jié)果。3

關(guān)鍵技術(shù)搜索引擎工作流程主要有數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)處理、結(jié)果展示等階段。在各工作階段分別使用了網(wǎng)絡(luò)爬蟲、中文分詞、大數(shù)據(jù)處理、數(shù)據(jù)挖掘等技術(shù)。2

網(wǎng)絡(luò)爬蟲也被稱為蜘蛛或者網(wǎng)絡(luò)機(jī)器人,它是搜索引擎抓取系統(tǒng)的重要組成部分。網(wǎng)絡(luò)爬蟲根據(jù)相應(yīng)的規(guī)則,以某些站點(diǎn)作為起始站點(diǎn)通過各頁面上的超鏈接遍歷整個(gè)互聯(lián)網(wǎng),利用URL弓I用根據(jù)廣度優(yōu)先遍歷策略從一個(gè)html文檔爬行到另一個(gè)html文檔來抓取信息。2

中文分詞是中文搜索引擎中一個(gè)相當(dāng)關(guān)鍵的技術(shù),在創(chuàng)建索引之前需要將中文內(nèi)容合理的進(jìn)行分詞。中文分詞是文本挖掘的基礎(chǔ),對于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。2

大數(shù)據(jù)處理技術(shù)是通過運(yùn)用大數(shù)據(jù)處理計(jì)算框架,對數(shù)據(jù)進(jìn)行分布式計(jì)算。由于互聯(lián)網(wǎng)數(shù)據(jù)量相當(dāng)龐大,需要利用大數(shù)據(jù)處理技術(shù)來提高數(shù)據(jù)處理的效率。在搜索引擎中,大數(shù)據(jù)處理技術(shù)主要用來執(zhí)行對網(wǎng)頁重要度進(jìn)行打分等數(shù)據(jù)計(jì)算。2

數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動(dòng)或半自動(dòng)的建模算法,尋找隱藏在數(shù)據(jù)中的信息,是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的過程。數(shù)據(jù)挖掘一般和計(jì)算機(jī)科學(xué)相關(guān),并通過機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)等方法來實(shí)現(xiàn)知識(shí)挖掘。在搜索引擎中主要是進(jìn)行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。2

面臨問題網(wǎng)頁時(shí)效性:互聯(lián)網(wǎng)上的用戶眾多,數(shù)據(jù)信息來源極廣,互聯(lián)網(wǎng)上的網(wǎng)頁是呈實(shí)時(shí)動(dòng)態(tài)變化的,網(wǎng)頁的更新、刪除等變動(dòng)極為頻繁,有時(shí)候會(huì)出現(xiàn)新更新的網(wǎng)頁在爬蟲程序還來不及抓取的時(shí)候卻已經(jīng)被刪除的情況,這將大大影響搜索結(jié)果的準(zhǔn)確性。2

大數(shù)據(jù)存儲(chǔ)問題:爬蟲抓取的數(shù)據(jù)在經(jīng)過預(yù)處理后數(shù)據(jù)量依然相當(dāng)龐大,這給大數(shù)據(jù)存儲(chǔ)技術(shù)帶來相當(dāng)大的挑戰(zhàn)。當(dāng)前大部分搜索引擎都是利用結(jié)構(gòu)化的數(shù)據(jù)庫來存儲(chǔ)數(shù)據(jù),結(jié)構(gòu)化的數(shù)據(jù)庫存儲(chǔ)的數(shù)據(jù)具有高共享、低冗余等特點(diǎn),然而由于結(jié)構(gòu)化的數(shù)據(jù)庫難以并發(fā)查詢所以存在查詢效率受限的問題。2

檢索結(jié)果可靠性:目前由于數(shù)據(jù)挖掘技術(shù)以及計(jì)算機(jī)硬件的限制使得數(shù)據(jù)處理準(zhǔn)確度未能達(dá)到理想程度,而且由于一些個(gè)人或公司利用搜索引擎現(xiàn)有的漏洞通過作弊手段來干擾檢索結(jié)果導(dǎo)致檢索結(jié)果的可靠性可能會(huì)有損失。2

發(fā)展趨勢1、社會(huì)化搜索

社交網(wǎng)絡(luò)平臺(tái)和應(yīng)用占據(jù)了互聯(lián)網(wǎng)的主流,社交網(wǎng)絡(luò)平臺(tái)強(qiáng)調(diào)用戶之間的聯(lián)系和交互,這對傳統(tǒng)的搜索技術(shù)提出了新的挑戰(zhàn)。3

傳統(tǒng)搜索技術(shù)強(qiáng)調(diào)搜索結(jié)果和用戶需求的相關(guān)性,社會(huì)化搜索除了相關(guān)性外,還額外增加了一個(gè)維度,即搜索結(jié)果的可信賴性。對某個(gè)搜索結(jié)果,傳統(tǒng)的結(jié)果可能成千上萬,但如果處于用戶社交網(wǎng)絡(luò)內(nèi)其他用戶發(fā)布的信息、點(diǎn)評或驗(yàn)證過的信息則更容易信賴,這是與用戶的心里密切相關(guān)的。社會(huì)化搜索為用戶提供更準(zhǔn)確、更值得信任的搜索結(jié)果。3

2、實(shí)時(shí)搜索

對搜索引擎的實(shí)時(shí)性要求日益增高,這也是搜索引擎未來的一個(gè)發(fā)展方向。3

實(shí)時(shí)搜索最突出的特點(diǎn)是時(shí)效性強(qiáng),越來越多的突發(fā)事件首次發(fā)布在微博上,實(shí)時(shí)搜索核心強(qiáng)調(diào)的就是“快”,用戶發(fā)布的信息第一時(shí)間能被搜索引擎搜索到。不過在國內(nèi),實(shí)時(shí)搜索由于各方面的原因無法普及使用,比如Google的實(shí)時(shí)搜索是被重置的,百度也沒有明顯的實(shí)時(shí)搜索入口。3

3、移動(dòng)搜索

隨著智能手機(jī)的快速發(fā)展,基于手機(jī)的移動(dòng)設(shè)備搜索日益流行,但移動(dòng)設(shè)備有很大的局限性,比如屏幕太小,可顯示的區(qū)域不多,計(jì)算資源能力有限,打開網(wǎng)頁速度很慢,手機(jī)輸入繁瑣等問題都需要解決。3

目前,隨著智能手機(jī)的快速普及,移動(dòng)搜索一定會(huì)更加快速的發(fā)展,所以移動(dòng)搜索的市場占有率會(huì)逐步上升,而對于沒有移動(dòng)版的網(wǎng)站來說,百度也提供了“百度移動(dòng)開放平臺(tái)”來彌補(bǔ)這個(gè)缺失。3

4、個(gè)性化搜索

個(gè)性化搜索主要面臨兩個(gè)問題:如何建立用戶的個(gè)人興趣模型?在搜索引擎里如何使用這種個(gè)人興趣模型?3

個(gè)性化搜索的核心是根據(jù)用戶的網(wǎng)絡(luò)行為,建立一套準(zhǔn)確的個(gè)人興趣模型。而建立這樣一套模型,就要全民收集與用戶相關(guān)的信息,包括用戶搜索歷史、點(diǎn)擊記錄、瀏覽過的網(wǎng)頁、用戶E-mail信息、收藏夾信息、用戶發(fā)布過的信息、博客、微博等內(nèi)容。比較常見的是從這些信息中提取出關(guān)鍵詞及其權(quán)重。為不同用戶提供個(gè)性化的搜索結(jié)果,是搜索引擎總的發(fā)展趨勢,但現(xiàn)有技術(shù)有很多問題,比如個(gè)人隱私的泄露,而且用戶的興趣會(huì)不斷變化,太依賴歷史信息,可能無法反映用戶的興趣變化。3

5、地理位置感知搜索

目前,很多手機(jī)已經(jīng)有GPS的應(yīng)用了,這是基于地理位置感知的搜索,而且可以通過陀螺儀等設(shè)備感知用戶的朝向,基于這種信息,可以為用戶提供準(zhǔn)確的地理位置服務(wù)以及相關(guān)搜索服務(wù)。目前,此類應(yīng)用已經(jīng)大行其道,比如手機(jī)地圖APP。3

6、跨語言搜索

如何將中文的用戶查詢翻譯為英文查詢,目前主流的方法有3種:機(jī)器翻譯、雙語詞典查詢和雙語語料挖掘。對于一個(gè)全球性的搜索引擎來說,具備跨語言搜索功能是必然的發(fā)展趨勢,而其基本的技術(shù)路線一般會(huì)采用查詢翻譯加上網(wǎng)頁的機(jī)器翻譯這兩種技術(shù)手段。3

7、多媒體搜索

目前,搜索引擎的查詢還是基于文字的,即使是圖片和視頻搜索也是基于文本方式。那么未來的多媒體搜索技術(shù)則會(huì)彌補(bǔ)查詢這一缺失。多媒體形式除了文字,主要包括圖片、音頻、視頻。多媒體搜索比純文本搜索要復(fù)雜許多,一般多媒體搜索包含4個(gè)主要步驟:多媒體特征提取、多媒體數(shù)據(jù)流分割、多媒體數(shù)據(jù)分類和多媒體數(shù)據(jù)搜索引擎。3

8、情境搜索

情境搜索是融合了多項(xiàng)技術(shù)的產(chǎn)品,上面介紹的社會(huì)化搜索、個(gè)性化搜索、地點(diǎn)感知搜索等都是支持情境搜索的,目前Google在大力提倡這一概念。所謂情境搜索,就是能夠感知人與人所處的環(huán)境,針對“此時(shí)此地此人”來建立模型,試圖理解用戶查詢的目的,根本目標(biāo)還是要理解人的信息需求。比如某個(gè)用戶在蘋果專賣店附近發(fā)出“蘋果”這個(gè)搜索請求,基于地點(diǎn)感知及用戶的個(gè)性化模型,搜索引擎就有可能認(rèn)為這個(gè)查詢是針對蘋果公司的產(chǎn)品,而非對水果的需求。3

本詞條內(nèi)容貢獻(xiàn)者為:

閆曉東 - 副教授 - 中央民族大學(xué)信息工程學(xué)院