
靠譜建設(shè)網(wǎng)站不了解搜索引擎工作原理,也就無(wú)從替搜索引擎解決一些網(wǎng)站優(yōu)化力所能及的技術(shù)問(wèn)題。當(dāng)搜索引擎面對(duì)一個(gè)網(wǎng)站,發(fā)現(xiàn)要處理的問(wèn)題太多、難度太大時(shí),搜索引擎可能就對(duì)這樣的網(wǎng)站敬而遠(yuǎn)之了。很多網(wǎng)站優(yōu)化技巧是基于對(duì)搜索引擎的理解。下面舉幾個(gè)例子。我們都知道網(wǎng)站域名和頁(yè)面權(quán)重非常重要,這是知其然,建設(shè)網(wǎng)站哪家好很多人不一定知其所以然。權(quán)重除了意味著權(quán)威度高、內(nèi)容可靠,因而容易獲得好排名外,獲得一個(gè)Z基本的權(quán)重,也是頁(yè)面能參與相關(guān)性計(jì)算的Z基本條件。一些權(quán)重太慨的頁(yè)面,就算有很高的相關(guān)性也很可能無(wú)法獲得排名,因?yàn)楦緵](méi)有機(jī)會(huì)參與排名。

靠譜建設(shè)網(wǎng)站這里的關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。實(shí)驗(yàn)表明,通常選取10個(gè)特征關(guān)鍵詞就可以達(dá)到比較高的計(jì)算準(zhǔn)確性,再選取更多詞對(duì)去重準(zhǔn)確性提高的貢獻(xiàn)也就不大了。典型的指紋計(jì)算方法如MD5算法(信息摘要算法第五版)。建設(shè)網(wǎng)站哪家好這類(lèi)指紋算法的特點(diǎn)是,輸入(特征關(guān)鍵詞)有任何微小的變化,都會(huì)導(dǎo)致計(jì)算出的指紋有很大差距。了解了搜索引擎的去重算法,網(wǎng)站優(yōu)化人員就應(yīng)該知道簡(jiǎn)單地“的”、“地”、“得”、調(diào)換段落順序這種所謂偽原創(chuàng),并不能逃過(guò)搜索引擎的去重算法,因?yàn)檫@樣的操作無(wú)法改變文章的特征關(guān)鍵詞。

靠譜建設(shè)網(wǎng)站文件存儲(chǔ)搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)。其中的頁(yè)面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。每個(gè)URL都有一個(gè)獨(dú)特的文件編號(hào)。爬行時(shí)的復(fù)制內(nèi)容檢測(cè)建設(shè)網(wǎng)站哪家好 檢測(cè)并刪除復(fù)制內(nèi)容通常是在下面介紹的預(yù)處理過(guò)程中進(jìn)行的,但現(xiàn)在的蜘蛛在爬行和抓取文件時(shí)也會(huì)進(jìn)行一定程度的復(fù)制內(nèi)容檢測(cè)。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時(shí),很可能不再繼續(xù)爬行。這也就是有的站長(zhǎng)在日志文件中發(fā)現(xiàn)了蜘蛛,但頁(yè)面從來(lái)沒(méi)有被真正收錄過(guò)的原因。

海量數(shù)據(jù)存儲(chǔ)靠譜建設(shè)網(wǎng)站一些大型網(wǎng)站單是一個(gè)網(wǎng)站就有百萬(wàn)千萬(wàn)個(gè)頁(yè)面,可以想象網(wǎng)上所有網(wǎng)站的頁(yè)面加起來(lái)是一個(gè)什么數(shù)據(jù)量。搜索引擎蜘蛛抓取頁(yè)面后,還必須有效存儲(chǔ)這些數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)必須合理,具備極高的擴(kuò)展性,寫(xiě)入及訪問(wèn)速度要求也很高。建設(shè)網(wǎng)站哪家好除了頁(yè)面數(shù)據(jù),搜索引擎還需要存儲(chǔ)頁(yè)面之間的鏈接關(guān)系及大量歷史數(shù)據(jù),這樣的數(shù)據(jù)量是用戶無(wú)法想象的。據(jù)說(shuō)Google有幾十個(gè)數(shù)據(jù)中心,上百萬(wàn)臺(tái)服務(wù)器。這樣大規(guī)模的數(shù)據(jù)存儲(chǔ)和訪問(wèn)必然存在很多技術(shù)挑戰(zhàn)。

靠譜建設(shè)網(wǎng)站鏈接關(guān)系計(jì)算也是預(yù)處理中很重要的一部分?,F(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁(yè)之間的鏈接流動(dòng)信息。搜索引擎在抓取頁(yè)面內(nèi)容后,必須事前計(jì)算出:頁(yè)面上有哪些鏈接指向哪些其他頁(yè)面,每個(gè)頁(yè)面有哪些導(dǎo)入鏈接,鏈接使用了什么錨文字,建設(shè)網(wǎng)站哪家好這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁(yè)面的鏈接權(quán)重。Google PR值就是這種鏈接關(guān)系的Z主要體現(xiàn)之一。其他搜索引擎也都進(jìn)行類(lèi)似計(jì)算,雖然它們并不稱(chēng)為PR。

靠譜建設(shè)網(wǎng)站只有在深入了解搜索引擎蜘蛛爬行原理的基礎(chǔ)上,才能盡量使蜘蛛抓得快而全面。上面所舉的幾個(gè)例子,讀者看完搜索引擎原理簡(jiǎn)介這一節(jié)后,會(huì)有更深入的認(rèn)識(shí)。搜索引擎與目錄,建設(shè)網(wǎng)站哪家好早期的網(wǎng)站優(yōu)化資料經(jīng)常把真正的搜索引擎與目錄放在一起討論,甚至把目錄也稱(chēng)為搜索引擎的一種,這種講法并不準(zhǔn)確。真正的搜索引擎指的是由蜘蛛程序沿著鏈接爬行和抓取網(wǎng)上的大量頁(yè)面,存進(jìn)數(shù)據(jù)庫(kù),經(jīng)過(guò)預(yù)處理,用戶在搜索框輸入關(guān)鍵詞后,搜索引擎排序程序從數(shù)據(jù)庫(kù)中挑選出符合搜索關(guān)鍵詞要求的頁(yè)面。