
搜索引擎面對的挑戰(zhàn)有實(shí)力軟件開發(fā) 搜索引擎系統(tǒng)是Z復(fù)雜的計(jì)算系統(tǒng)之一,當(dāng)今主流搜索引擎服務(wù)商都是有財(cái)力、人力的大公司。即使有技術(shù)、人力、財(cái)力的保證,搜索引擎還是面臨很多技術(shù)挑戰(zhàn)。搜索引擎誕生后的十多年中,軟件開發(fā)哪家好技術(shù)已經(jīng)得到了長足的進(jìn)步。我們今天看到的搜索結(jié)果質(zhì)量與10年前相比已經(jīng)好得太多了。不過這還只是一個(gè)開始,搜索引擎必然還會(huì)有更多創(chuàng)新,提供更多、更準(zhǔn)確的內(nèi)容??傮w來說,搜索引擎主要會(huì)面對以下幾方面的挑戰(zhàn)。

有實(shí)力軟件開發(fā)實(shí)際上用戶并不需要知道所有匹配的幾十萬、幾百萬個(gè)頁面,絕大部分用戶只會(huì)查看前兩頁,也就是前20個(gè)結(jié)果。搜索引擎也并不需要計(jì)算這么多頁面的相關(guān)性,而只要計(jì)算Z重要的一部分頁面就可以了。常用搜索引擎的人都會(huì)注意到,搜索結(jié)果頁面通常Z多顯示100個(gè)。軟件開發(fā)哪家好用戶點(diǎn)擊搜索結(jié)果頁面底部的“下一頁”鏈接,Z多也只能看到第100頁,也就是1000個(gè)搜索結(jié)果但問題在于,還沒有計(jì)算相關(guān)性時(shí),搜索引擎又怎么知道哪一千個(gè)文件是晟相關(guān)的?所以用于Z后相關(guān)性計(jì)算的初始頁面子集的選擇,必須依靠其他特征而不是相關(guān)性,其中Z主要的就是頁面權(quán)重。

海量數(shù)據(jù)存儲(chǔ)有實(shí)力軟件開發(fā)一些大型網(wǎng)站單是一個(gè)網(wǎng)站就有百萬千萬個(gè)頁面,可以想象網(wǎng)上所有網(wǎng)站的頁面加起來是一個(gè)什么數(shù)據(jù)量。搜索引擎蜘蛛抓取頁面后,還必須有效存儲(chǔ)這些數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)必須合理,具備極高的擴(kuò)展性,寫入及訪問速度要求也很高。軟件開發(fā)哪家好除了頁面數(shù)據(jù),搜索引擎還需要存儲(chǔ)頁面之間的鏈接關(guān)系及大量歷史數(shù)據(jù),這樣的數(shù)據(jù)量是用戶無法想象的。據(jù)說Google有幾十個(gè)數(shù)據(jù)中心,上百萬臺服務(wù)器。這樣大規(guī)模的數(shù)據(jù)存儲(chǔ)和訪問必然存在很多技術(shù)挑戰(zhàn)。

指令處理。有實(shí)力軟件開發(fā)查詢詞完成分詞后,搜索引擎的默認(rèn)處理方式是在關(guān)鍵詞之間使用“與”邏輯。也就是說用戶搜索“減肥方法”時(shí),程序分詞為“減肥”和“方法”兩個(gè)詞,搜索引擎排序時(shí)默認(rèn)認(rèn)為,用戶尋找的是既包含“減肥”,軟件開發(fā)哪家好也包含“方法”的頁面。只包含“減肥”不包含“方法”,或者只包含“方法”不包含“減肥”的頁面,被認(rèn)為是不符合搜索條件的。當(dāng)然,這只是極為簡化的為了說明原理的說法,實(shí)際上我們還是會(huì)看到只包含一部分關(guān)鍵詞的搜索結(jié)果。

有實(shí)力軟件開發(fā)基于統(tǒng)計(jì)的分詞方法指的是分析大量文字樣本,計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率,幾個(gè)字相鄰出現(xiàn)越多,就越可能形成一個(gè)單詞?;诮y(tǒng)計(jì)的方法的優(yōu)勢是對新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧義。軟件開發(fā)哪家好基于詞典匹配和基于統(tǒng)計(jì)的分詞方法各有優(yōu)劣,實(shí)際使用中的分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識別生詞、新詞,消除歧義。中文分詞的準(zhǔn)確性往往影響搜索引擎排名的相關(guān)性。比如在百度搜索“搜索引擎優(yōu)化”

有實(shí)力軟件開發(fā)文件存儲(chǔ)搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。每個(gè)URL都有一個(gè)獨(dú)特的文件編號。爬行時(shí)的復(fù)制內(nèi)容檢測軟件開發(fā)哪家好 檢測并刪除復(fù)制內(nèi)容通常是在下面介紹的預(yù)處理過程中進(jìn)行的,但現(xiàn)在的蜘蛛在爬行和抓取文件時(shí)也會(huì)進(jìn)行一定程度的復(fù)制內(nèi)容檢測。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時(shí),很可能不再繼續(xù)爬行。這也就是有的站長在日志文件中發(fā)現(xiàn)了蜘蛛,但頁面從來沒有被真正收錄過的原因。