
正規(guī)石家莊網(wǎng)站建設(shè)只有在深入了解搜索引擎蜘蛛爬行原理的基礎(chǔ)上,才能盡量使蜘蛛抓得快而全面。上面所舉的幾個例子,讀者看完搜索引擎原理簡介這一節(jié)后,會有更深入的認識。搜索引擎與目錄,石家莊網(wǎng)站建設(shè)價格早期的網(wǎng)站優(yōu)化資料經(jīng)常把真正的搜索引擎與目錄放在一起討論,甚至把目錄也稱為搜索引擎的一種,這種講法并不準確。真正的搜索引擎指的是由蜘蛛程序沿著鏈接爬行和抓取網(wǎng)上的大量頁面,存進數(shù)據(jù)庫,經(jīng)過預(yù)處理,用戶在搜索框輸入關(guān)鍵詞后,搜索引擎排序程序從數(shù)據(jù)庫中挑選出符合搜索關(guān)鍵詞要求的頁面。

海量數(shù)據(jù)存儲正規(guī)石家莊網(wǎng)站建設(shè)一些大型網(wǎng)站單是一個網(wǎng)站就有百萬千萬個頁面,可以想象網(wǎng)上所有網(wǎng)站的頁面加起來是一個什么數(shù)據(jù)量。搜索引擎蜘蛛抓取頁面后,還必須有效存儲這些數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)必須合理,具備極高的擴展性,寫入及訪問速度要求也很高。石家莊網(wǎng)站建設(shè)價格除了頁面數(shù)據(jù),搜索引擎還需要存儲頁面之間的鏈接關(guān)系及大量歷史數(shù)據(jù),這樣的數(shù)據(jù)量是用戶無法想象的。據(jù)說Google有幾十個數(shù)據(jù)中心,上百萬臺服務(wù)器。這樣大規(guī)模的數(shù)據(jù)存儲和訪問必然存在很多技術(shù)挑戰(zhàn)。

正規(guī)石家莊網(wǎng)站建設(shè)雖然搜索引擎在識別圖片及從Flash中提取文字內(nèi)容方面有些進步,不過距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標還很遠。對圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容,詳細情況可以參考后面的整合搜索部分。石家莊網(wǎng)站建設(shè)價格排名 經(jīng)過搜索引擎蜘蛛抓取頁面,索引程序計算得到倒排索引后,搜索引擎就準備好可以隨時處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算排名顯示給用戶,排名過程是與用戶直接互動的。

正規(guī)石家莊網(wǎng)站建設(shè)結(jié)果列表中加粗顯示搜索詞在百度列表中 日錄部分加粗顯示,上面討論的是Z經(jīng)典的結(jié)果列表格式。搜索引擎近幾年也在不停嘗試不同格式的搜索結(jié)果格式,尤其是Google,推出了很多特色結(jié)果列表,下面選幾個主要的進行簡單介紹。整合搜索結(jié)果 在前面的Google搜索結(jié)果頁面抓圖中,大家就能看到兩個整合搜索結(jié)果:中間的資訊結(jié)果和頁面底部的博客搜索結(jié)果。根據(jù)搜索關(guān)鍵詞的不同,石家莊網(wǎng)站建設(shè)價格Google還經(jīng)常把其他垂直搜索結(jié)果混合在正常網(wǎng)頁搜索結(jié)果中,比如圖片結(jié)果、視頻結(jié)果

正規(guī)石家莊網(wǎng)站建設(shè)鏈接關(guān)系計算也是預(yù)處理中很重要的一部分。現(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁之間的鏈接流動信息。搜索引擎在抓取頁面內(nèi)容后,必須事前計算出:頁面上有哪些鏈接指向哪些其他頁面,每個頁面有哪些導(dǎo)入鏈接,鏈接使用了什么錨文字,石家莊網(wǎng)站建設(shè)價格這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重。Google PR值就是這種鏈接關(guān)系的Z主要體現(xiàn)之一。其他搜索引擎也都進行類似計算,雖然它們并不稱為PR。