
用戶搜索“歷史”、“分類”這些關(guān)鍵詞時僅僅因為頁面上有這些詞出現(xiàn)而返回博客帖子是毫無意義的,完全不相關(guān)。正規(guī)石家莊制作網(wǎng)站所以這些區(qū)塊都屬于噪聲,對頁面主題只能起到分散作用。搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。石家莊制作網(wǎng)站價格消噪的基本方法是根據(jù)HTML標(biāo)簽對頁面分塊,區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對頁面進(jìn)行消噪后,剩下的才是頁面主體內(nèi)容。

正規(guī)石家莊制作網(wǎng)站文件存儲搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。每個URL都有一個獨特的文件編號。爬行時的復(fù)制內(nèi)容檢測石家莊制作網(wǎng)站價格 檢測并刪除復(fù)制內(nèi)容通常是在下面介紹的預(yù)處理過程中進(jìn)行的,但現(xiàn)在的蜘蛛在爬行和抓取文件時也會進(jìn)行一定程度的復(fù)制內(nèi)容檢測。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時,很可能不再繼續(xù)爬行。這也就是有的站長在日志文件中發(fā)現(xiàn)了蜘蛛,但頁面從來沒有被真正收錄過的原因。

正規(guī)石家莊制作網(wǎng)站由于頁面和鏈接數(shù)量巨大,網(wǎng)上的鏈接關(guān)系又時時處在更新中,因此鏈接關(guān)系及PR的計算要耗費很長時間。關(guān)子PR和鏈接分析,后面還有專門的章節(jié)介紹。9.特殊文件處理 除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。石家莊制作網(wǎng)站價格我們在搜索結(jié)果中也經(jīng)常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。

指令處理。正規(guī)石家莊制作網(wǎng)站查詢詞完成分詞后,搜索引擎的默認(rèn)處理方式是在關(guān)鍵詞之間使用“與”邏輯。也就是說用戶搜索“減肥方法”時,程序分詞為“減肥”和“方法”兩個詞,搜索引擎排序時默認(rèn)認(rèn)為,用戶尋找的是既包含“減肥”,石家莊制作網(wǎng)站價格也包含“方法”的頁面。只包含“減肥”不包含“方法”,或者只包含“方法”不包含“減肥”的頁面,被認(rèn)為是不符合搜索條件的。當(dāng)然,這只是極為簡化的為了說明原理的說法,實際上我們還是會看到只包含一部分關(guān)鍵詞的搜索結(jié)果。

蜘蛛的爬行、頁面的收錄及排序都是自動處理。網(wǎng)站目錄則是一套人工編輯的分類目錄,新華區(qū)正規(guī)石家莊制作網(wǎng)站由編輯人員人工創(chuàng)建多個層次的分類,站長可以在不同分類里提交網(wǎng)站,目錄編輯在后臺審核所提交的網(wǎng)站,將網(wǎng)站放置于相應(yīng)的分類頁面。有的時候編輯也主動收錄網(wǎng)站。石家莊制作網(wǎng)站價格典型的網(wǎng)站目錄包括雅虎目錄、開放目錄、好123等。目錄并不是本書中所討論的SEO所關(guān)注的真正的搜索引擎。雖然網(wǎng)站目錄也常有一個搜索框,但目錄的數(shù)據(jù)來源是人工編輯得到的。

正規(guī)石家莊制作網(wǎng)站由此可見,雖然理論上蜘蛛能爬行和抓取所有頁面,但實際上不能、也不會這么做。網(wǎng)站優(yōu)化人員要想讓自己的更多頁面被收錄,就要想方設(shè)法吸引蜘蛛來抓取。既然不能抓取所有頁面,蜘蛛所要做的就是盡量抓取重要頁面。石家莊制作網(wǎng)站價格哪些頁面被認(rèn)為比較重要呢?有幾方面影響因素。網(wǎng)站優(yōu)化網(wǎng)站和頁面權(quán)重。質(zhì)量高、資格老的網(wǎng)站被認(rèn)為權(quán)重比較高,這種網(wǎng)站上的頁面被爬行的深度也會比較高,所以會有更多內(nèi)頁被收錄。 網(wǎng)站優(yōu)化頁面更新度。