版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-“萬能”的搜索引擎

科普中國-綠色雙碳
原創(chuàng)
聚焦綠色低碳技術(shù)理念 科普助力“雙碳”目標(biāo)實現(xiàn)
收藏

每當(dāng)我們需要查什么資料或者新聞的時候,都會打開搜索引擎,輸入詞組就可以直接搜出自己想要的內(nèi)容。搜索引擎不但能搜索出海量內(nèi)容,而且搜索速度很快。它到底是怎么工作的呢?這就要從兩個方面單獨(dú)來分析,一方面是為什么搜索引擎的速度這么快,另一個方面就是搜索引擎是怎么搜到這么多海量資源的。

書籍自古以來都是人類進(jìn)步和文明的重要標(biāo)志之一,因為書籍可以不受時間、空間的限制,流傳和保存信息。在沒有網(wǎng)絡(luò)以前,書籍是我們獲取信息的主要工具。隨著網(wǎng)絡(luò)的普及,我們越來越多地通過網(wǎng)絡(luò)搜索信息,網(wǎng)絡(luò)成了獲取信息的主要渠道。截止到2012年4月,互聯(lián)網(wǎng)上被收錄的網(wǎng)頁已有五百多億個。如果按照一本書有500頁來估算,這就相當(dāng)于一億冊圖書的信息量。

當(dāng)我們在網(wǎng)上搜索一個詞語時,搜索引擎會快速給我們展示結(jié)果。例如,我們在百度上搜索雞蛋一次,百度搜索結(jié)果有幾千萬個。搜索引擎的服務(wù)器是怎么工作的?為什么能在一瞬間搜索出這么多結(jié)果?搜索引擎是逐個打開檢索的網(wǎng)頁嗎?就算搜索引擎的服務(wù)器1秒鐘能夠打開并檢索1萬個網(wǎng)頁,這五百億的網(wǎng)頁就需要檢索將近兩個月。我們?yōu)榱说玫揭粋€信息居然要等兩個月,這顯然不是搜索引擎服務(wù)器的工作方式。

服務(wù)器能夠快速得出結(jié)果,是因為它利用了“關(guān)鍵詞索引”。服務(wù)器會將所有網(wǎng)頁掃描一遍,然后為網(wǎng)頁中的每個詞語都建立一個跟這個詞語有關(guān)的關(guān)鍵詞索引。如果一個詞組在這個網(wǎng)頁中多次出現(xiàn),那就建立同一個關(guān)鍵字的多個索引,這就形成了關(guān)鍵字索引表。這個關(guān)鍵字索引表可以查到包含這個關(guān)鍵字的網(wǎng)頁和位置。因為詞組數(shù)量有限,其數(shù)目要遠(yuǎn)遠(yuǎn)小于網(wǎng)頁數(shù)量。只要找到關(guān)鍵字的索引表之后,搜索引擎就能將對應(yīng)的網(wǎng)頁內(nèi)容顯示出來。

人們越來越依賴網(wǎng)絡(luò),所以就把越來越多的內(nèi)容放在互聯(lián)網(wǎng)上。據(jù)估計,互聯(lián)網(wǎng)上有數(shù)萬億的獨(dú)立Web頁面,人們利用搜索引擎從互聯(lián)網(wǎng)上獲取信息內(nèi)容。我們知道了搜索引擎利用關(guān)鍵字索引表,而關(guān)鍵字索引表又是用關(guān)鍵字索引建立的,關(guān)鍵字索引則是服務(wù)器掃描網(wǎng)頁時檢索出關(guān)鍵字設(shè)立的。那么搜索引擎是怎么自動完成這些工作的?

搜索引擎的工作一般分三步完成:

一、 信息抓取。搜索引擎用被稱為“網(wǎng)絡(luò)爬蟲”的程序來抓取網(wǎng)頁上的所有鏈接。因為互聯(lián)網(wǎng)上的網(wǎng)頁存在互通性,大多數(shù)網(wǎng)頁都可以通過其他頁面的鏈接訪問,網(wǎng)絡(luò)爬蟲就通過一個點(diǎn)爬遍大多數(shù)互聯(lián)網(wǎng)網(wǎng)頁。

二、 建立索引。搜索引擎從網(wǎng)頁頁面中提取關(guān)鍵字,并把整個頁面信息內(nèi)容按照一定的規(guī)則保存到自己的數(shù)據(jù)庫里。

三、 結(jié)果顯示。因為服務(wù)器早已經(jīng)建立好了關(guān)鍵字索引,并把信息保存到了自己的數(shù)據(jù)庫,所以當(dāng)我們搜索某個詞組時,服務(wù)器只需要檢索自己的數(shù)據(jù)庫就可以了。

萬能的搜索引擎像一個優(yōu)秀的魔術(shù)師,讓苦于解開某個難題的我們瞬間找到了解鎖答案的鑰匙。相信隨著科技的進(jìn)步,搜索引擎能為我們提供更為便捷的信息檢索。

本作品為“科普中國-科學(xué)原理一點(diǎn)通”原創(chuàng) 轉(zhuǎn)載時務(wù)請注明出處

內(nèi)容資源由項目單位提供