
正規(guī)系統(tǒng)開發(fā)由于頁面和鏈接數(shù)量巨大,網(wǎng)上的鏈接關(guān)系又時(shí)時(shí)處在更新中,因此鏈接關(guān)系及PR的計(jì)算要耗費(fèi)很長時(shí)間。關(guān)子PR和鏈接分析,后面還有專門的章節(jié)介紹。9.特殊文件處理 除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。系統(tǒng)開發(fā)價(jià)格我們在搜索結(jié)果中也經(jīng)常會(huì)看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。

正規(guī)系統(tǒng)開發(fā)只有在深入了解搜索引擎蜘蛛爬行原理的基礎(chǔ)上,才能盡量使蜘蛛抓得快而全面。上面所舉的幾個(gè)例子,讀者看完搜索引擎原理簡介這一節(jié)后,會(huì)有更深入的認(rèn)識。搜索引擎與目錄,系統(tǒng)開發(fā)價(jià)格早期的網(wǎng)站優(yōu)化資料經(jīng)常把真正的搜索引擎與目錄放在一起討論,甚至把目錄也稱為搜索引擎的一種,這種講法并不準(zhǔn)確。真正的搜索引擎指的是由蜘蛛程序沿著鏈接爬行和抓取網(wǎng)上的大量頁面,存進(jìn)數(shù)據(jù)庫,經(jīng)過預(yù)處理,用戶在搜索框輸入關(guān)鍵詞后,搜索引擎排序程序從數(shù)據(jù)庫中挑選出符合搜索關(guān)鍵詞要求的頁面。

靈壽正規(guī)系統(tǒng)開發(fā)同一篇文章經(jīng)常會(huì)重復(fù)出現(xiàn)在不同網(wǎng)站及同一個(gè)網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時(shí),如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗(yàn)就太差了,雖然都是內(nèi)容相關(guān)的。系統(tǒng)開發(fā)價(jià)格搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識別和刪隙重復(fù)內(nèi)容,這個(gè)過程就稱為“去重”。去重的基本方法是對頁面特征關(guān)鍵詞計(jì)算指紋,也就是說從頁面主體內(nèi)容中選取Z有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率Z高的關(guān)鍵詞),然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。

正規(guī)系統(tǒng)開發(fā)這種快速收錄和更新也只能局限于高權(quán)重網(wǎng)站。很多頁面幾個(gè)月不被重新抓取和更新,也是非常常見的。系統(tǒng)開發(fā)價(jià)格要返回Z好的結(jié)果,搜索引擎也必須抓取盡量全面的頁面,這就需要解決很多技術(shù)問題。一些網(wǎng)站并不利于搜索引擎蜘蛛爬行和抓取,諸如網(wǎng)站鏈接結(jié)構(gòu)的缺陷、大量使用Flash、JavaScript腳本,或者把內(nèi)容放在用戶必須登錄以后才能訪問的部分,都培大了搜索引擎抓取內(nèi)容的難度。

正規(guī)系統(tǒng)開發(fā)搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r(shí)對這么多頁面分析相關(guān)性,計(jì)算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。系統(tǒng)開發(fā)價(jià)格因此抓取來的頁面必須經(jīng)過預(yù)處理,為Z后的查詢排名做好準(zhǔn)備。和爬行抓取一樣,預(yù)處理也是在后臺提前完成的,用戶搜索時(shí)感覺不到這個(gè)過程。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。

正規(guī)系統(tǒng)開發(fā)結(jié)果列表中加粗顯示搜索詞在百度列表中 日錄部分加粗顯示,上面討論的是Z經(jīng)典的結(jié)果列表格式。搜索引擎近幾年也在不停嘗試不同格式的搜索結(jié)果格式,尤其是Google,推出了很多特色結(jié)果列表,下面選幾個(gè)主要的進(jìn)行簡單介紹。整合搜索結(jié)果 在前面的Google搜索結(jié)果頁面抓圖中,大家就能看到兩個(gè)整合搜索結(jié)果:中間的資訊結(jié)果和頁面底部的博客搜索結(jié)果。根據(jù)搜索關(guān)鍵詞的不同,系統(tǒng)開發(fā)價(jià)格Google還經(jīng)常把其他垂直搜索結(jié)果混合在正常網(wǎng)頁搜索結(jié)果中,比如圖片結(jié)果、視頻結(jié)果