
搜索引擎面對的挑戰(zhàn)正規(guī)石家莊制作網(wǎng)站 搜索引擎系統(tǒng)是Z復(fù)雜的計算系統(tǒng)之一,當(dāng)今主流搜索引擎服務(wù)商都是有財力、人力的大公司。即使有技術(shù)、人力、財力的保證,搜索引擎還是面臨很多技術(shù)挑戰(zhàn)。搜索引擎誕生后的十多年中,石家莊制作網(wǎng)站多少錢技術(shù)已經(jīng)得到了長足的進步。我們今天看到的搜索結(jié)果質(zhì)量與10年前相比已經(jīng)好得太多了。不過這還只是一個開始,搜索引擎必然還會有更多創(chuàng)新,提供更多、更準(zhǔn)確的內(nèi)容??傮w來說,搜索引擎主要會面對以下幾方面的挑戰(zhàn)。

藁城正規(guī)石家莊制作網(wǎng)站同一篇文章經(jīng)常會重復(fù)出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時,如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗就太差了,雖然都是內(nèi)容相關(guān)的。石家莊制作網(wǎng)站多少錢搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪隙重復(fù)內(nèi)容,這個過程就稱為“去重”。去重的基本方法是對頁面特征關(guān)鍵詞計算指紋,也就是說從頁面主體內(nèi)容中選取Z有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率Z高的關(guān)鍵詞),然后計算這些關(guān)鍵詞的數(shù)字指紋。

正規(guī)石家莊制作網(wǎng)站實際上用戶并不需要知道所有匹配的幾十萬、幾百萬個頁面,絕大部分用戶只會查看前兩頁,也就是前20個結(jié)果。搜索引擎也并不需要計算這么多頁面的相關(guān)性,而只要計算Z重要的一部分頁面就可以了。常用搜索引擎的人都會注意到,搜索結(jié)果頁面通常Z多顯示100個。石家莊制作網(wǎng)站多少錢用戶點擊搜索結(jié)果頁面底部的“下一頁”鏈接,Z多也只能看到第100頁,也就是1000個搜索結(jié)果但問題在于,還沒有計算相關(guān)性時,搜索引擎又怎么知道哪一千個文件是晟相關(guān)的?所以用于Z后相關(guān)性計算的初始頁面子集的選擇,必須依靠其他特征而不是相關(guān)性,其中Z主要的就是頁面權(quán)重。

正規(guī)石家莊制作網(wǎng)站文件存儲搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。每個URL都有一個獨特的文件編號。爬行時的復(fù)制內(nèi)容檢測石家莊制作網(wǎng)站多少錢 檢測并刪除復(fù)制內(nèi)容通常是在下面介紹的預(yù)處理過程中進行的,但現(xiàn)在的蜘蛛在爬行和抓取文件時也會進行一定程度的復(fù)制內(nèi)容檢測。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時,很可能不再繼續(xù)爬行。這也就是有的站長在日志文件中發(fā)現(xiàn)了蜘蛛,但頁面從來沒有被真正收錄過的原因。

正規(guī)石家莊制作網(wǎng)站由于頁面和鏈接數(shù)量巨大,網(wǎng)上的鏈接關(guān)系又時時處在更新中,因此鏈接關(guān)系及PR的計算要耗費很長時間。關(guān)子PR和鏈接分析,后面還有專門的章節(jié)介紹。9.特殊文件處理 除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。石家莊制作網(wǎng)站多少錢我們在搜索結(jié)果中也經(jīng)常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。

搜索引擎對頁面的分詞取決于詞庫的規(guī)模、準(zhǔn)確性和分詞算法的好壞,而不是取決于頁面本身如何,所以網(wǎng)站優(yōu)化人員對分詞所能做的很少。藁城正規(guī)石家莊制作網(wǎng)站唯一能做的是在頁面上用某種形式提示搜索引擎,某幾個字應(yīng)該被當(dāng)做一個詞處理,尤其是可能產(chǎn)生歧義的時候,比如在頁面標(biāo)題、hl標(biāo)簽及黑體中出現(xiàn)關(guān)鍵詞。石家莊制作網(wǎng)站多少錢如果頁面是關(guān)于“和服”的內(nèi)容,那么可以把“和服”這兩個字特意標(biāo)為黑體。如果頁面是關(guān)于“化妝利服裝”,可以把“服裝”兩個字標(biāo)為黑體。