版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-混合型搜索引擎

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

如何從Intemet浩瀚的網(wǎng)絡(luò)信息資源中,快速、全面而準(zhǔn)確地獲取檢索者所感興趣的信息,一直是網(wǎng)站建設(shè)者最關(guān)心的問題之一。搜索引擎作為最有效、最常用的檢索工具,更是他們研究和應(yīng)用的重點(diǎn)。但在實(shí)踐中發(fā)現(xiàn),單個常規(guī)搜索引擎很難獲得全面的檢索結(jié)果,并且發(fā)現(xiàn)不同的常規(guī)搜索引擎搜索的結(jié)果有很大的不同,這樣,元搜索引擎就適時地出現(xiàn)了。元搜索引擎集成了多搜索引擎的搜索結(jié)果,在一定的程度上提高了查全率和查準(zhǔn)率,但效果并不是太顯著,所以提出了混合型搜索引擎1。

混合型搜索引擎的工作原理元搜索引擎的工作原理為:元搜索引擎通過一個統(tǒng)一的檢索界面,將檢索詞發(fā)給所配置好的多個搜索引擎,由這些搜索引擎實(shí)現(xiàn)初步檢索操作,然后把初步檢索結(jié)果經(jīng)過合并、篩選等特殊處理,生成更全面、更準(zhǔn)確的結(jié)果再發(fā)送給用戶。元搜索引擎沒有自己獨(dú)立的數(shù)據(jù)庫,他借助其他搜索引擎形成一個具有獨(dú)立功能的虛擬邏輯體,通過元搜索引擎的功能,實(shí)現(xiàn)對這個虛擬邏輯體中各搜索引擎數(shù)據(jù)庫的查詢等一切操作。

混合型搜索引擎采用了元搜索引擎集成性的特點(diǎn),但也采用了全文搜索引擎的Robot網(wǎng)絡(luò)搜索程序和工作原理。不同的是,混合搜索引擎的查詢重點(diǎn)是元搜索引擎的查詢結(jié)果所指的鏈接url,并對此鏈接所在網(wǎng)站作更細(xì)致、更深入以及更多層次的站內(nèi)搜索,然后再把最終結(jié)果返回給用戶。

混合型搜索引擎不僅可以利用其他獨(dú)立搜索引擎查詢數(shù)據(jù),而且可以根據(jù)查詢結(jié)果所在網(wǎng)站上目標(biāo)資料相對較多的特點(diǎn),采用更為復(fù)雜、智能的搜索程序?qū)Υ司W(wǎng)站作更深入、更細(xì)致的站內(nèi)全文搜索?;旌纤阉饕娴哪康氖?,力圖幫助用戶獲得更高的查全率和查準(zhǔn)率?;旌闲退阉饕娴腞obot網(wǎng)絡(luò)搜索程序與獨(dú)立搜索引擎的不同,它更具有靈活性、針對性。還有,它是現(xiàn)場查詢的,面對的是最新的狀態(tài)1。

混合型搜索引擎的體系結(jié)構(gòu)混合型搜索引擎的體系結(jié)構(gòu)包括以下幾個部分:

1.客戶向客戶代理提交查詢對象請求,客戶代理負(fù)責(zé)查詢處理調(diào)用,并對客戶隱藏全部實(shí)現(xiàn)細(xì)節(jié);

2.查詢對象被送到外部搜索引擎進(jìn)行初步查詢,并把查詢結(jié)果送至數(shù)據(jù)預(yù)處理模塊;

3.數(shù)據(jù)預(yù)處理模塊把送到的初步查詢結(jié)果數(shù)據(jù)進(jìn)行過濾、篩選、重新組織等預(yù)處理后,交由Robot網(wǎng)絡(luò)檢索程序進(jìn)行細(xì)致的再搜索;

4.Robot網(wǎng)絡(luò)檢索程序利用文本檢索、Web挖掘等技術(shù)對目標(biāo)網(wǎng)站進(jìn)行更專業(yè)、更智能的搜索。由于Robot網(wǎng)絡(luò)檢索程序搜索的力度和智能性進(jìn)一步得到提高,所以再搜索的結(jié)果更加全面、準(zhǔn)確;

5.結(jié)果數(shù)據(jù)終處理模塊把再搜索的結(jié)果數(shù)據(jù)按重要程度等參數(shù)進(jìn)一步作排序、索引等最后處理,并把處理的結(jié)果經(jīng)客戶代理以網(wǎng)頁的形式傳給客戶1。

混合型搜索引擎的評價評價搜索引擎的標(biāo)準(zhǔn)有:搜索引擎分類系統(tǒng)的合理性、查詢網(wǎng)站的廣泛性、查詢功能的便利性、搜索結(jié)果的滿意度和搜索資料的時效性。

混合型搜索引擎集成數(shù)個獨(dú)立搜索引擎,使它能查詢比較多的網(wǎng)頁和文檔,而且它集成的搜索引擎有著很好的分類系統(tǒng),使它的虛擬分類系統(tǒng)有著比較理想的深度和廣度;它采用了基于全文檢索的技術(shù)作進(jìn)一步的站內(nèi)搜索,這也保證了它檢索的資料是最新、最細(xì)致、最全面的;它采用了信息格式支持、轉(zhuǎn)換和信息過濾等數(shù)據(jù)預(yù)處理技術(shù)以及信息索引、排序等處理技術(shù),雖然查詢時間相對多了一些,但增加了結(jié)果的滿意度,再加上機(jī)器學(xué)習(xí)、人工智能、神經(jīng)網(wǎng)絡(luò)、知識挖掘等技術(shù)的應(yīng)用,搜索引擎的查準(zhǔn)率和查全率得到相當(dāng)程度的提高1。