
搜索引擎面對的挑戰(zhàn)正規(guī)網(wǎng)站建設(shè) 搜索引擎系統(tǒng)是Z復(fù)雜的計算系統(tǒng)之一,當(dāng)今主流搜索引擎服務(wù)商都是有財力、人力的大公司。即使有技術(shù)、人力、財力的保證,搜索引擎還是面臨很多技術(shù)挑戰(zhàn)。搜索引擎誕生后的十多年中,網(wǎng)站建設(shè)哪家好技術(shù)已經(jīng)得到了長足的進步。我們今天看到的搜索結(jié)果質(zhì)量與10年前相比已經(jīng)好得太多了。不過這還只是一個開始,搜索引擎必然還會有更多創(chuàng)新,提供更多、更準(zhǔn)確的內(nèi)容??傮w來說,搜索引擎主要會面對以下幾方面的挑戰(zhàn)。

網(wǎng)站的優(yōu)化包括站內(nèi)和站外兩部分。站內(nèi)優(yōu)化指的是站長能控制的所有網(wǎng)站本身的調(diào)整,深澤網(wǎng)站建設(shè)如網(wǎng)站結(jié)構(gòu)、頁面HTML代碼。站外優(yōu)化指的是外部鏈接建設(shè)及行業(yè)社群的參與互動,這些活動不是在網(wǎng)站本身進行的。網(wǎng)站建設(shè)正規(guī)網(wǎng)站優(yōu)化的研究對蒙是搜索引擎結(jié)果頁面上的自然排名部分,通常在頁面左側(cè),所以有百度左側(cè)排名、Google左側(cè)排名等說法,與付費的搜索廣告沒有直接關(guān)系。獲得和提高關(guān)鍵詞自然排名是網(wǎng)站優(yōu)化效果的表現(xiàn)之一,但Z終目的是獲得搜索流量,沒有流量的排名是沒有意義的。

用戶搜索“歷史”、“分類”這些關(guān)鍵詞時僅僅因為頁面上有這些詞出現(xiàn)而返回博客帖子是毫無意義的,完全不相關(guān)。正規(guī)網(wǎng)站建設(shè)所以這些區(qū)塊都屬于噪聲,對頁面主題只能起到分散作用。搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。網(wǎng)站建設(shè)哪家好消噪的基本方法是根據(jù)HTML標(biāo)簽對頁面分塊,區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主體內(nèi)容。

正規(guī)網(wǎng)站建設(shè)只有在深入了解搜索引擎蜘蛛爬行原理的基礎(chǔ)上,才能盡量使蜘蛛抓得快而全面。上面所舉的幾個例子,讀者看完搜索引擎原理簡介這一節(jié)后,會有更深入的認(rèn)識。搜索引擎與目錄,網(wǎng)站建設(shè)哪家好早期的網(wǎng)站優(yōu)化資料經(jīng)常把真正的搜索引擎與目錄放在一起討論,甚至把目錄也稱為搜索引擎的一種,這種講法并不準(zhǔn)確。真正的搜索引擎指的是由蜘蛛程序沿著鏈接爬行和抓取網(wǎng)上的大量頁面,存進數(shù)據(jù)庫,經(jīng)過預(yù)處理,用戶在搜索框輸入關(guān)鍵詞后,搜索引擎排序程序從數(shù)據(jù)庫中挑選出符合搜索關(guān)鍵詞要求的頁面。

正規(guī)網(wǎng)站建設(shè)基于統(tǒng)計的分詞方法指的是分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,幾個字相鄰出現(xiàn)越多,就越可能形成一個單詞?;诮y(tǒng)計的方法的優(yōu)勢是對新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧義。網(wǎng)站建設(shè)哪家好基于詞典匹配和基于統(tǒng)計的分詞方法各有優(yōu)劣,實際使用中的分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識別生詞、新詞,消除歧義。中文分詞的準(zhǔn)確性往往影響搜索引擎排名的相關(guān)性。比如在百度搜索“搜索引擎優(yōu)化”

正規(guī)網(wǎng)站建設(shè)關(guān)鍵詞常用程度。經(jīng)過分詞后的多個關(guān)鍵詞,對整個搜索字符串的意義貢獻并不相同。越常用的詞對搜索詞的意義貢獻越小,越不常用的詞對搜索詞的意義貢獻越大。舉個例子,假設(shè)用戶輸入的搜索詞是“我們冥王星”。網(wǎng)站建設(shè)哪家好“我們”這個詞常用程度非常高,在很多頁面上會出現(xiàn),它對“我們冥王星”這個搜索詞的辨識程度和意義相關(guān)度貢獻就很小。找出那些包含“我們”這個詞的頁面,對搜索排名相關(guān)性幾乎沒有什么影響,有太鄉(xiāng)頁面包含“我們”這個詞。而“冥王星”這個詞常用程度就比較低,對“我們冥王星”這個搜索詞的意義貢獻要大得多。