国产超薄肉色丝袜一区二区,日韩在线最新国产

所謂搜索引擎，就是根據(jù)用戶需求與一定算法，運(yùn)用特定策略從互聯(lián)網(wǎng)檢索出制定信息反饋給用戶的一門檢索技術(shù)。搜索引擎依托于多種技術(shù)，如網(wǎng)絡(luò)爬蟲技術(shù)、檢索排序技術(shù)、網(wǎng)頁處理技術(shù)、大數(shù)據(jù)處理技術(shù)、自然語言處理技術(shù)等，為信息檢索用戶提供快速、高相關(guān)性的信息服務(wù)。搜索引擎技術(shù)的核心模塊一般包括爬蟲、索引、檢索和排序等，同時(shí)可添加其他一系列輔助模塊，以為用戶創(chuàng)造更好的網(wǎng)絡(luò)使用環(huán)境。1

定義搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上采集信息，在對信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)，將檢索的相關(guān)信息展示給用戶的系統(tǒng)。搜索引擎是工作于互聯(lián)網(wǎng)上的一門檢索技術(shù)，它旨在提高人們獲取搜集信息的速度，為人們提供更好的網(wǎng)絡(luò)使用環(huán)境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。2

搜索引擎發(fā)展到今天，基礎(chǔ)架構(gòu)和算法在技術(shù)上都已經(jīng)基本成型和成熟。搜索引擎已經(jīng)發(fā)展成為根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息，在對信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)，將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。3

發(fā)展歷程搜索引擎是伴隨互聯(lián)網(wǎng)的發(fā)展而產(chǎn)生和發(fā)展的，互聯(lián)網(wǎng)已成為人們學(xué)習(xí)、工作和生活中不可缺少的平臺(tái)，幾乎每個(gè)人上網(wǎng)都會(huì)使用搜索引擎。搜索引擎大致經(jīng)歷了四代的發(fā)展：4

1、第一代搜索引擎

1994年第一代真正基于互聯(lián)網(wǎng)的搜索引擎Lycos誕生，它以人工分類目錄為主，代表廠商是Yahoo，特點(diǎn)是人工分類存放網(wǎng)站的各種目錄，用戶通過多種方式尋找網(wǎng)站，現(xiàn)在也還有這種方式存在。4

2、第二代搜索引擎

隨著網(wǎng)絡(luò)應(yīng)用技術(shù)的發(fā)展，用戶開始希望對內(nèi)容進(jìn)行查找，出現(xiàn)了第二代搜索引擎，也就是利用關(guān)鍵字來查詢，最其代表性最成功的是Google，它建立在網(wǎng)頁鏈接分析技術(shù)的基礎(chǔ)上，使用關(guān)鍵字對網(wǎng)頁搜索，能夠覆益互聯(lián)網(wǎng)的大量網(wǎng)頁內(nèi)容，該技術(shù)可以分析網(wǎng)頁的重要性后.將重要的結(jié)果呈現(xiàn)給用戶。4

3、第三代搜索引擎

隨著網(wǎng)絡(luò)信息的迅速膨脹，用戶希望能快速并且準(zhǔn)確的查找到自己所要的信息，因此出現(xiàn)了第三代搜索引擎。相比前兩代第三代搜索引擎更加注重個(gè)性化、專業(yè)化智能化使用自動(dòng)聚類、分類等人工智能技術(shù)，采用區(qū)域智能識(shí)別及內(nèi)容分析技術(shù)，利用人工介入，實(shí)現(xiàn)技術(shù)和人工的完美結(jié)合，增強(qiáng)了搜索引擎的查詢能力。第三代搜索引擎的代表是Google，它以寬廣的信息覆蓋率和優(yōu)秀的搜索性能為發(fā)展搜索引擎的技術(shù)開創(chuàng)了嶄新的局面。4

4、第四代搜索引

隨著信息多元化的快速發(fā)展，通用搜索引擎在目前的硬件條件下要得到互聯(lián)網(wǎng)上比較全面的信息是不太可能的，這時(shí)，用戶就需要數(shù)據(jù)全面、更新及時(shí)、分類細(xì)致的面向主題搜索引擎，這種搜索引擎采用特征提取和文本智能化等策略，相比前三代搜索引擎更準(zhǔn)確有效，被稱為第四代搜索引擎。4

工作原理搜索引擎的整個(gè)工作過程視為三個(gè)部分：一是蜘蛛在互聯(lián)網(wǎng)上爬行和抓取網(wǎng)頁信息，并存入原始網(wǎng)頁數(shù)據(jù)庫；二是對原始網(wǎng)頁數(shù)據(jù)庫中的信息進(jìn)行提取和組織，并建立索引庫；三是根據(jù)用戶輸入的關(guān)鍵詞，快速找到相關(guān)文檔，并對找到的結(jié)果進(jìn)行排序，并將查詢結(jié)果返回給用戶。以下對其工作原理做進(jìn)一步分析：5

一、網(wǎng)頁抓取

Spider每遇到一個(gè)新文檔，都要搜索其頁面的鏈接網(wǎng)頁。搜索引擎蜘蛛訪問web頁面的過程類似普通用戶使用瀏覽器訪問其頁面，即B/S模式。引擎蜘蛛先向頁面提出訪問請求，服務(wù)器接受其訪問請求并返回HTML代碼后，把獲取的HTML代碼存入原始頁面數(shù)據(jù)庫。搜索引擎使用多個(gè)蜘蛛分布爬行以提高爬行速度。搜索引擎的服務(wù)器遍布世界各地，每一臺(tái)服務(wù)器都會(huì)派出多只蜘蛛同時(shí)去抓取網(wǎng)頁。如何做到一個(gè)頁面只訪問一次，從而提高搜索引擎的工作效率。在抓取網(wǎng)頁時(shí)，搜索引擎會(huì)建立兩張不同的表，一張表記錄已經(jīng)訪問過的網(wǎng)站，一張表記錄沒有訪問過的網(wǎng)站。當(dāng)蜘蛛抓取某個(gè)外部鏈接頁面URL的時(shí)候，需把該網(wǎng)站的URL下載回來分析，當(dāng)蜘蛛全部分析完這個(gè)URL后，將這個(gè)URL存入相應(yīng)的表中，這時(shí)當(dāng)另外的蜘蛛從其他的網(wǎng)站或頁面又發(fā)現(xiàn)了這個(gè)URL時(shí)，它會(huì)對比看看已訪問列表有沒有，如果有，蜘蛛會(huì)自動(dòng)丟棄該URL，不再訪問。5

二、預(yù)處理，建立索引

為了便于用戶在數(shù)萬億級別以上的原始網(wǎng)頁數(shù)據(jù)庫中快速便捷地找到搜索結(jié)果，搜索引擎必須將spider抓取的原始web頁面做預(yù)處理。網(wǎng)頁預(yù)處理最主要過程是為網(wǎng)頁建立全文索引，之后開始分析網(wǎng)頁，最后建立倒排文件（也稱反向索引）。Web頁面分析有以下步驟：判斷網(wǎng)頁類型，衡量其重要程度，豐富程度，對超鏈接進(jìn)行分析，分詞，把重復(fù)網(wǎng)頁去掉。經(jīng)過搜索引擎分析處理后，web網(wǎng)頁已經(jīng)不再是原始的網(wǎng)頁頁面，而是濃縮成能反映頁面主題內(nèi)容的、以詞為單位的文檔。數(shù)據(jù)索引中結(jié)構(gòu)最復(fù)雜的是建立索引庫，索引又分為文檔索引和關(guān)鍵詞索引。每個(gè)網(wǎng)頁唯一的docID號是有文檔索引分配的，每個(gè)wordID出現(xiàn)的次數(shù)、位置、大小格式都可以根據(jù)docID號在網(wǎng)頁中檢索出來。最終形成wordID的數(shù)據(jù)列表。倒排索引形成過程是這樣的：搜索引擎用分詞系統(tǒng)將文檔自動(dòng)切分成單詞序列-對每個(gè)單詞賦予唯一的單詞編號-記錄包含這個(gè)單詞的文檔。倒排索引是最簡單的，實(shí)用的倒排索引還需記載更多的信息。在單詞對應(yīng)的倒排列表除了記錄文檔編號之外，單詞頻率信息也被記錄進(jìn)去，便于以后計(jì)算查詢和文檔的相似度。5

三、查詢服務(wù)

在搜索引擎界面輸入關(guān)鍵詞，點(diǎn)擊“搜索”按鈕之后，搜索引擎程序開始對搜索詞進(jìn)行以下處理：分詞處理、根據(jù)情況對整合搜索是否需要啟動(dòng)進(jìn)行判斷、找出錯(cuò)別字和拼寫中出現(xiàn)的錯(cuò)誤、把停止詞去掉。接著搜索引擎程序便把包含搜索詞的相關(guān)網(wǎng)頁從索引數(shù)據(jù)庫中找出，而且對網(wǎng)頁進(jìn)行排序，最后按照一定格式返回到“搜索”頁面。查詢服務(wù)最核心的部分是搜索結(jié)果排序，其決定了搜索引擎的量好壞及用戶滿意度。實(shí)際搜索結(jié)果排序的因子很多，但最主要的因素之一是網(wǎng)頁內(nèi)容的相關(guān)度。影響相關(guān)性的主要因素包括如下五個(gè)方面。5

（1）關(guān)鍵詞常用程度。經(jīng)過分詞后的多個(gè)關(guān)鍵詞，對整個(gè)搜索字符串的意義貢獻(xiàn)并不相同。越常用的詞對搜索詞的意義貢獻(xiàn)越小，越不常用的詞對搜索詞的意義貢獻(xiàn)越大。常用詞發(fā)展到一定極限就是停止詞，對頁面不產(chǎn)生任何影響。所以搜索引擎用的詞加權(quán)系數(shù)高，常用詞加權(quán)系數(shù)低，排名算法更多關(guān)注的是不常用的詞。5

（2）詞頻及密度。通常情況下，搜索詞的密度和其在頁面中出現(xiàn)的次數(shù)成正相關(guān)，次數(shù)越多，說明密度越大，頁面與搜索詞關(guān)系越密切。5

（3）關(guān)鍵詞位置及形式。關(guān)鍵詞出現(xiàn)在比較重要的位置，如標(biāo)題標(biāo)簽、黑體、H1等，說明頁面與關(guān)鍵詞越相關(guān)。在索引庫的建立中提到的，頁面關(guān)鍵詞出現(xiàn)的格式和位置都被記錄在索引庫中。5

（4）關(guān)鍵詞距離。關(guān)鍵詞被切分之后，如果匹配的出現(xiàn)，說明其與搜索詞相關(guān)程度越大，當(dāng)“搜索引擎”在頁面上連續(xù)完整的出現(xiàn)或者“搜索”和“引擎”出現(xiàn)的時(shí)候距離比較近，都被認(rèn)為其與搜索詞相關(guān)。5

（5）鏈接分析及頁面權(quán)重。頁面之間的鏈接和權(quán)重關(guān)系也影響關(guān)鍵詞的相關(guān)性，其中最重要的是錨文字。頁面有越多以搜索詞為錨文字的導(dǎo)入鏈接，說明頁面的相關(guān)性越強(qiáng)。鏈接分析還包括了鏈接源頁面本身的主題、錨文字周圍的文字等。5

分類搜索方式是搜索引擎的一個(gè)關(guān)鍵環(huán)節(jié)，大致可分為四種：全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎，它們各有特點(diǎn)并適用于不同的搜索環(huán)境。所以，靈活選用搜索方式是提高搜索引擎性能的重要途徑。全文搜索引擎是利用爬蟲程序抓取互聯(lián)網(wǎng)上所有相關(guān)文章予以索引的搜索方式；元搜索引擎是基于多個(gè)搜索引擎結(jié)果并對之整合處理的二次搜索方式；垂直搜索引擎是對某一特定行業(yè)內(nèi)數(shù)據(jù)進(jìn)行快速檢索的一種專業(yè)搜索方式；目錄搜索引擎是依賴人工收集處理數(shù)據(jù)并置于分類目錄鏈接下的搜索方式。1

全文搜索引擎一般網(wǎng)絡(luò)用戶適用于全文搜索引擎。這種搜索方式方便、簡捷，并容易獲得所有相關(guān)信息。但搜索到的信息過于龐雜，因此用戶需要逐一瀏覽并甄別出所需信息。尤其在用戶沒有明確檢索意圖情況下，這種搜索方式非常有效。1

元搜索引擎元搜索引擎適用于廣泛、準(zhǔn)確地收集信息。不同的全文搜索引擎由于其性能和信息反饋能力差異，導(dǎo)致其各有利弊。元搜索引擎的出現(xiàn)恰恰解決了這個(gè)問題，有利于各基本搜索引擎間的優(yōu)勢互補(bǔ)。而且本搜索方式有利于對基本搜索方式進(jìn)行全局控制，引導(dǎo)全文搜索引擎的持續(xù)改善。1

垂直搜索引擎垂直搜索引擎適用于有明確搜索意圖情況下進(jìn)行檢索。例如，用戶購買機(jī)票、火車票、汽車票時(shí)，或想要瀏覽網(wǎng)絡(luò)視頻資源時(shí)，都可以直接選用行業(yè)內(nèi)專用搜索引擎，以準(zhǔn)確、迅速獲得相關(guān)信息。1

目錄搜索引擎目錄搜索引擎是網(wǎng)站內(nèi)部常用的檢索方式。本搜索方式旨在對網(wǎng)站內(nèi)信息整合處理并分目錄呈現(xiàn)給用戶，但其缺點(diǎn)在于用戶需預(yù)先了解本網(wǎng)站的內(nèi)容，并熟悉其主要模塊構(gòu)成?？偠^之，目錄搜索方式的適應(yīng)范圍非常有限，且需要較高的人工成本來支持維護(hù)。1

主要特點(diǎn)1、信息抓取迅速。

在大數(shù)據(jù)時(shí)代，網(wǎng)絡(luò)產(chǎn)生的信息浩如煙海，令人無所適從，難以得到自己需要的信息資源。在搜索引擎技術(shù)的幫助下，利用關(guān)鍵詞、高級語法等檢索方式就可以快速捕捉到相關(guān)度極高的匹配信息。1

2、深入開展信息挖掘。

搜索引擎在捕獲用戶需求的信息的同時(shí)，還能對檢索的信息加以一定維度的分析，以引導(dǎo)其對信息的使用與認(rèn)識(shí)。例如，用戶可以根據(jù)檢索到的信息條目判斷檢索對象的熱度，還可以根據(jù)檢索到的信息分布給出高相關(guān)性的同類對象，還可以利用檢索到的信息智能化給出用戶解決方案，等等。1

3、檢索內(nèi)容的多樣化和廣泛性。

隨著搜索引擎技術(shù)的日益成熟，當(dāng)代搜索引擎技術(shù)幾乎可以支持各種數(shù)據(jù)類型的檢索，例如自然語言、智能語言、機(jī)器語言等各種語言。目前，不僅視頻、音頻、圖像可以被檢索，而且人類面部特征、指紋、特定動(dòng)作等也可以被檢索到?？梢韵胂?，在未來幾乎一切數(shù)據(jù)類型都可能成為搜索引擎的檢索對象。1

體系結(jié)構(gòu)搜索引擎基本結(jié)構(gòu)一般包括：搜索器、索引器、檢索器、用戶接口等四個(gè)功能模塊。5

1、搜索器：

搜索器也叫網(wǎng)絡(luò)蜘蛛，是搜索引擎用來爬行和抓取網(wǎng)頁的一個(gè)自動(dòng)程序，在系統(tǒng)后臺(tái)不停歇地在互聯(lián)網(wǎng)各個(gè)節(jié)點(diǎn)爬行，在爬行過程中盡可能快的發(fā)現(xiàn)和抓取網(wǎng)頁。5

2、索引器。

它的主要功能是理解搜索器所采集的網(wǎng)頁信息，并從中抽取索引項(xiàng)。5

3、檢索器。

其功能是快速查找文檔，進(jìn)行文檔與查詢的相關(guān)度評價(jià)，對要輸出的結(jié)果進(jìn)行排序。5

4、用戶接口。

它為用戶提供可視化的查詢輸入和結(jié)果輸出的界面。5

功能模塊搜索引擎中各關(guān)鍵功能模塊功能簡介如下：3

（1）爬蟲：從互聯(lián)網(wǎng)爬取原始網(wǎng)頁數(shù)據(jù)，存儲(chǔ)于文檔知識(shí)庫服務(wù)器。3

（2）文檔知識(shí)庫服務(wù)器：存儲(chǔ)原始網(wǎng)頁數(shù)據(jù)，通常是分布式Key-Value數(shù)據(jù)庫，能根據(jù)URL/UID快速獲取網(wǎng)頁內(nèi)容。3

（3）索引：讀取原始網(wǎng)頁數(shù)據(jù)，解析網(wǎng)頁，抽取有效字段，生成索引數(shù)據(jù)。索引數(shù)據(jù)的生成方式通常是增量的，分塊/分片的，并會(huì)進(jìn)行索引合并、優(yōu)化和刪除。生成的索引數(shù)據(jù)通常包括：字典數(shù)據(jù)、倒排表、正排表、文檔屬性等。生成的索引存儲(chǔ)于索引服務(wù)器。3

（4）索引服務(wù)器：存儲(chǔ)索引數(shù)據(jù)，主要是倒排表，通常是分塊、分片存儲(chǔ)，并支持增量更新和刪除。數(shù)據(jù)內(nèi)容量非常大時(shí)，還根據(jù)類別、主題、時(shí)間、網(wǎng)頁質(zhì)量劃分?jǐn)?shù)據(jù)分區(qū)和分布，更好地服務(wù)在線查詢。3

（5）檢索：讀取倒排表索引，響應(yīng)前端查詢請求，返回相關(guān)文檔列表數(shù)據(jù)。3

（6）排序：對檢索器返回的文檔列表進(jìn)行排序，基于文檔和查詢的相關(guān)性、文檔的鏈接權(quán)重等屬性。3

（7）鏈接分析：收集各網(wǎng)頁的鏈接數(shù)據(jù)和錨文本（Anchor Text），以此計(jì)算各網(wǎng)頁鏈接評分，最終會(huì)作為網(wǎng)頁屬性參與返回結(jié)果排序。3

（8）網(wǎng)頁去重：提取各網(wǎng)頁的相關(guān)特征屬性，計(jì)算相似網(wǎng)頁組，提供離線索引和在線查詢的去重服務(wù)。3

（9）網(wǎng)頁反垃圾：收集各網(wǎng)頁和網(wǎng)站歷史信息，提取垃圾網(wǎng)頁特征，從而對在線索引中的網(wǎng)頁進(jìn)行判定，去除垃圾網(wǎng)頁。3

（10）查詢分析：分析用戶查詢，生成結(jié)構(gòu)化查詢請求，指派到相應(yīng)的類別、主題數(shù)據(jù)服務(wù)器進(jìn)行查詢。3

（11）頁面描述/摘要：為檢索和排序完成的網(wǎng)頁列表提供相應(yīng)的描述和摘要。3

（12）前端：接受用戶請求，分發(fā)至相應(yīng)服務(wù)器，返回查詢結(jié)果。3

關(guān)鍵技術(shù)搜索引擎工作流程主要有數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)處理、結(jié)果展示等階段。在各工作階段分別使用了網(wǎng)絡(luò)爬蟲、中文分詞、大數(shù)據(jù)處理、數(shù)據(jù)挖掘等技術(shù)。2

網(wǎng)絡(luò)爬蟲也被稱為蜘蛛或者網(wǎng)絡(luò)機(jī)器人，它是搜索引擎抓取系統(tǒng)的重要組成部分。網(wǎng)絡(luò)爬蟲根據(jù)相應(yīng)的規(guī)則，以某些站點(diǎn)作為起始站點(diǎn)通過各頁面上的超鏈接遍歷整個(gè)互聯(lián)網(wǎng)，利用URL弓I用根據(jù)廣度優(yōu)先遍歷策略從一個(gè)html文檔爬行到另一個(gè)html文檔來抓取信息。2

中文分詞是中文搜索引擎中一個(gè)相當(dāng)關(guān)鍵的技術(shù)，在創(chuàng)建索引之前需要將中文內(nèi)容合理的進(jìn)行分詞。中文分詞是文本挖掘的基礎(chǔ)，對于輸入的一段中文，成功的進(jìn)行中文分詞，可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。2

大數(shù)據(jù)處理技術(shù)是通過運(yùn)用大數(shù)據(jù)處理計(jì)算框架，對數(shù)據(jù)進(jìn)行分布式計(jì)算。由于互聯(lián)網(wǎng)數(shù)據(jù)量相當(dāng)龐大，需要利用大數(shù)據(jù)處理技術(shù)來提高數(shù)據(jù)處理的效率。在搜索引擎中，大數(shù)據(jù)處理技術(shù)主要用來執(zhí)行對網(wǎng)頁重要度進(jìn)行打分等數(shù)據(jù)計(jì)算。2

數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動(dòng)或半自動(dòng)的建模算法，尋找隱藏在數(shù)據(jù)中的信息，是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的過程。數(shù)據(jù)挖掘一般和計(jì)算機(jī)科學(xué)相關(guān)，并通過機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)等方法來實(shí)現(xiàn)知識(shí)挖掘。在搜索引擎中主要是進(jìn)行文本挖掘，搜索文本信息需要理解人類的自然語言，文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。2

面臨問題網(wǎng)頁時(shí)效性：互聯(lián)網(wǎng)上的用戶眾多，數(shù)據(jù)信息來源極廣，互聯(lián)網(wǎng)上的網(wǎng)頁是呈實(shí)時(shí)動(dòng)態(tài)變化的，網(wǎng)頁的更新、刪除等變動(dòng)極為頻繁，有時(shí)候會(huì)出現(xiàn)新更新的網(wǎng)頁在爬蟲程序還來不及抓取的時(shí)候卻已經(jīng)被刪除的情況，這將大大影響搜索結(jié)果的準(zhǔn)確性。2

大數(shù)據(jù)存儲(chǔ)問題：爬蟲抓取的數(shù)據(jù)在經(jīng)過預(yù)處理后數(shù)據(jù)量依然相當(dāng)龐大，這給大數(shù)據(jù)存儲(chǔ)技術(shù)帶來相當(dāng)大的挑戰(zhàn)。當(dāng)前大部分搜索引擎都是利用結(jié)構(gòu)化的數(shù)據(jù)庫來存儲(chǔ)數(shù)據(jù)，結(jié)構(gòu)化的數(shù)據(jù)庫存儲(chǔ)的數(shù)據(jù)具有高共享、低冗余等特點(diǎn)，然而由于結(jié)構(gòu)化的數(shù)據(jù)庫難以并發(fā)查詢所以存在查詢效率受限的問題。2

檢索結(jié)果可靠性：目前由于數(shù)據(jù)挖掘技術(shù)以及計(jì)算機(jī)硬件的限制使得數(shù)據(jù)處理準(zhǔn)確度未能達(dá)到理想程度，而且由于一些個(gè)人或公司利用搜索引擎現(xiàn)有的漏洞通過作弊手段來干擾檢索結(jié)果導(dǎo)致檢索結(jié)果的可靠性可能會(huì)有損失。2

發(fā)展趨勢1、社會(huì)化搜索

社交網(wǎng)絡(luò)平臺(tái)和應(yīng)用占據(jù)了互聯(lián)網(wǎng)的主流，社交網(wǎng)絡(luò)平臺(tái)強(qiáng)調(diào)用戶之間的聯(lián)系和交互，這對傳統(tǒng)的搜索技術(shù)提出了新的挑戰(zhàn)。3

傳統(tǒng)搜索技術(shù)強(qiáng)調(diào)搜索結(jié)果和用戶需求的相關(guān)性，社會(huì)化搜索除了相關(guān)性外，還額外增加了一個(gè)維度，即搜索結(jié)果的可信賴性。對某個(gè)搜索結(jié)果，傳統(tǒng)的結(jié)果可能成千上萬，但如果處于用戶社交網(wǎng)絡(luò)內(nèi)其他用戶發(fā)布的信息、點(diǎn)評或驗(yàn)證過的信息則更容易信賴，這是與用戶的心里密切相關(guān)的。社會(huì)化搜索為用戶提供更準(zhǔn)確、更值得信任的搜索結(jié)果。3

2、實(shí)時(shí)搜索

對搜索引擎的實(shí)時(shí)性要求日益增高，這也是搜索引擎未來的一個(gè)發(fā)展方向。3

實(shí)時(shí)搜索最突出的特點(diǎn)是時(shí)效性強(qiáng)，越來越多的突發(fā)事件首次發(fā)布在微博上，實(shí)時(shí)搜索核心強(qiáng)調(diào)的就是“快”，用戶發(fā)布的信息第一時(shí)間能被搜索引擎搜索到。不過在國內(nèi)，實(shí)時(shí)搜索由于各方面的原因無法普及使用，比如Google的實(shí)時(shí)搜索是被重置的，百度也沒有明顯的實(shí)時(shí)搜索入口。3

3、移動(dòng)搜索

隨著智能手機(jī)的快速發(fā)展，基于手機(jī)的移動(dòng)設(shè)備搜索日益流行，但移動(dòng)設(shè)備有很大的局限性，比如屏幕太小，可顯示的區(qū)域不多，計(jì)算資源能力有限，打開網(wǎng)頁速度很慢，手機(jī)輸入繁瑣等問題都需要解決。3

目前，隨著智能手機(jī)的快速普及，移動(dòng)搜索一定會(huì)更加快速的發(fā)展，所以移動(dòng)搜索的市場占有率會(huì)逐步上升，而對于沒有移動(dòng)版的網(wǎng)站來說，百度也提供了“百度移動(dòng)開放平臺(tái)”來彌補(bǔ)這個(gè)缺失。3

4、個(gè)性化搜索

個(gè)性化搜索主要面臨兩個(gè)問題：如何建立用戶的個(gè)人興趣模型?在搜索引擎里如何使用這種個(gè)人興趣模型?3

個(gè)性化搜索的核心是根據(jù)用戶的網(wǎng)絡(luò)行為，建立一套準(zhǔn)確的個(gè)人興趣模型。而建立這樣一套模型，就要全民收集與用戶相關(guān)的信息，包括用戶搜索歷史、點(diǎn)擊記錄、瀏覽過的網(wǎng)頁、用戶E-mail信息、收藏夾信息、用戶發(fā)布過的信息、博客、微博等內(nèi)容。比較常見的是從這些信息中提取出關(guān)鍵詞及其權(quán)重。為不同用戶提供個(gè)性化的搜索結(jié)果，是搜索引擎總的發(fā)展趨勢，但現(xiàn)有技術(shù)有很多問題，比如個(gè)人隱私的泄露，而且用戶的興趣會(huì)不斷變化，太依賴歷史信息，可能無法反映用戶的興趣變化。3

5、地理位置感知搜索

目前，很多手機(jī)已經(jīng)有GPS的應(yīng)用了，這是基于地理位置感知的搜索，而且可以通過陀螺儀等設(shè)備感知用戶的朝向，基于這種信息，可以為用戶提供準(zhǔn)確的地理位置服務(wù)以及相關(guān)搜索服務(wù)。目前，此類應(yīng)用已經(jīng)大行其道，比如手機(jī)地圖APP。3

6、跨語言搜索

如何將中文的用戶查詢翻譯為英文查詢，目前主流的方法有3種：機(jī)器翻譯、雙語詞典查詢和雙語語料挖掘。對于一個(gè)全球性的搜索引擎來說，具備跨語言搜索功能是必然的發(fā)展趨勢，而其基本的技術(shù)路線一般會(huì)采用查詢翻譯加上網(wǎng)頁的機(jī)器翻譯這兩種技術(shù)手段。3

7、多媒體搜索

目前，搜索引擎的查詢還是基于文字的，即使是圖片和視頻搜索也是基于文本方式。那么未來的多媒體搜索技術(shù)則會(huì)彌補(bǔ)查詢這一缺失。多媒體形式除了文字，主要包括圖片、音頻、視頻。多媒體搜索比純文本搜索要復(fù)雜許多，一般多媒體搜索包含4個(gè)主要步驟：多媒體特征提取、多媒體數(shù)據(jù)流分割、多媒體數(shù)據(jù)分類和多媒體數(shù)據(jù)搜索引擎。3

8、情境搜索

情境搜索是融合了多項(xiàng)技術(shù)的產(chǎn)品，上面介紹的社會(huì)化搜索、個(gè)性化搜索、地點(diǎn)感知搜索等都是支持情境搜索的，目前Google在大力提倡這一概念。所謂情境搜索，就是能夠感知人與人所處的環(huán)境，針對“此時(shí)此地此人”來建立模型，試圖理解用戶查詢的目的，根本目標(biāo)還是要理解人的信息需求。比如某個(gè)用戶在蘋果專賣店附近發(fā)出“蘋果”這個(gè)搜索請求，基于地點(diǎn)感知及用戶的個(gè)性化模型，搜索引擎就有可能認(rèn)為這個(gè)查詢是針對蘋果公司的產(chǎn)品，而非對水果的需求。3

本詞條內(nèi)容貢獻(xiàn)者為:

閆曉東 - 副教授 - 中央民族大學(xué)信息工程學(xué)院

[科普中國]-搜索引擎