
有實(shí)力建設(shè)網(wǎng)站站長通過搜索引擎網(wǎng)頁提交表格提交進(jìn)來的網(wǎng)址。蜘蛛按重要性從待訪問地址庫中提取URL,訪問并抓取頁面,然后把這個(gè)URL從待訪問地址庫中刪除,放進(jìn)己訪問地址庫中。大部分主流搜索引擎都提供一個(gè)表格,讓站長提交網(wǎng)址。建設(shè)網(wǎng)站多少錢不過這些提交來的網(wǎng)址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的??梢哉f提交頁面基本上是毫無用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁面。

有實(shí)力建設(shè)網(wǎng)站只有在深入了解搜索引擎蜘蛛爬行原理的基礎(chǔ)上,才能盡量使蜘蛛抓得快而全面。上面所舉的幾個(gè)例子,讀者看完搜索引擎原理簡介這一節(jié)后,會(huì)有更深入的認(rèn)識(shí)。搜索引擎與目錄,建設(shè)網(wǎng)站多少錢早期的網(wǎng)站優(yōu)化資料經(jīng)常把真正的搜索引擎與目錄放在一起討論,甚至把目錄也稱為搜索引擎的一種,這種講法并不準(zhǔn)確。真正的搜索引擎指的是由蜘蛛程序沿著鏈接爬行和抓取網(wǎng)上的大量頁面,存進(jìn)數(shù)據(jù)庫,經(jīng)過預(yù)處理,用戶在搜索框輸入關(guān)鍵詞后,搜索引擎排序程序從數(shù)據(jù)庫中挑選出符合搜索關(guān)鍵詞要求的頁面。

在排名中計(jì)入鏈接因素,不僅有助于減少垃圾,提高結(jié)果相關(guān)性,也使傳統(tǒng)關(guān)鍵詞匹 配無法排名的文件能夠被處理。有實(shí)力建設(shè)網(wǎng)站比如圖片、視頻文件無法進(jìn)行關(guān)鍵詞匹配,但是卻可能有 外部鏈接,通過鏈接信息,搜索引擎就可以了解圖片和視頻的內(nèi)容從而排名。不同文字的頁面排名也成為可能。比如在百度或google.cn搜索“SEO”,建設(shè)網(wǎng)站多少錢都可以看到 英文和其他文字的SEO網(wǎng)站。甚至搜索“搜索引擎優(yōu)化”,也可以看到非中文頁面,原因 就在于有的鏈接可能使用“搜索引擎優(yōu)化”為錨文字指向英文頁面。

海量數(shù)據(jù)存儲(chǔ)有實(shí)力建設(shè)網(wǎng)站一些大型網(wǎng)站單是一個(gè)網(wǎng)站就有百萬千萬個(gè)頁面,可以想象網(wǎng)上所有網(wǎng)站的頁面加起來是一個(gè)什么數(shù)據(jù)量。搜索引擎蜘蛛抓取頁面后,還必須有效存儲(chǔ)這些數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)必須合理,具備極高的擴(kuò)展性,寫入及訪問速度要求也很高。建設(shè)網(wǎng)站多少錢除了頁面數(shù)據(jù),搜索引擎還需要存儲(chǔ)頁面之間的鏈接關(guān)系及大量歷史數(shù)據(jù),這樣的數(shù)據(jù)量是用戶無法想象的。據(jù)說Google有幾十個(gè)數(shù)據(jù)中心,上百萬臺(tái)服務(wù)器。這樣大規(guī)模的數(shù)據(jù)存儲(chǔ)和訪問必然存在很多技術(shù)挑戰(zhàn)。

有實(shí)力建設(shè)網(wǎng)站文件存儲(chǔ)搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。每個(gè)URL都有一個(gè)獨(dú)特的文件編號(hào)。爬行時(shí)的復(fù)制內(nèi)容檢測建設(shè)網(wǎng)站多少錢 檢測并刪除復(fù)制內(nèi)容通常是在下面介紹的預(yù)處理過程中進(jìn)行的,但現(xiàn)在的蜘蛛在爬行和抓取文件時(shí)也會(huì)進(jìn)行一定程度的復(fù)制內(nèi)容檢測。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時(shí),很可能不再繼續(xù)爬行。這也就是有的站長在日志文件中發(fā)現(xiàn)了蜘蛛,但頁面從來沒有被真正收錄過的原因。