
指令處理。有實(shí)力石家莊建設(shè)網(wǎng)站查詢詞完成分詞后,搜索引擎的默認(rèn)處理方式是在關(guān)鍵詞之間使用“與”邏輯。也就是說用戶搜索“減肥方法”時(shí),程序分詞為“減肥”和“方法”兩個(gè)詞,搜索引擎排序時(shí)默認(rèn)認(rèn)為,用戶尋找的是既包含“減肥”,石家莊建設(shè)網(wǎng)站哪家好也包含“方法”的頁面。只包含“減肥”不包含“方法”,或者只包含“方法”不包含“減肥”的頁面,被認(rèn)為是不符合搜索條件的。當(dāng)然,這只是極為簡化的為了說明原理的說法,實(shí)際上我們還是會看到只包含一部分關(guān)鍵詞的搜索結(jié)果。

蜘蛛的爬行、頁面的收錄及排序都是自動處理。網(wǎng)站目錄則是一套人工編輯的分類目錄,承德有實(shí)力石家莊建設(shè)網(wǎng)站由編輯人員人工創(chuàng)建多個(gè)層次的分類,站長可以在不同分類里提交網(wǎng)站,目錄編輯在后臺審核所提交的網(wǎng)站,將網(wǎng)站放置于相應(yīng)的分類頁面。有的時(shí)候編輯也主動收錄網(wǎng)站。石家莊建設(shè)網(wǎng)站哪家好典型的網(wǎng)站目錄包括雅虎目錄、開放目錄、好123等。目錄并不是本書中所討論的SEO所關(guān)注的真正的搜索引擎。雖然網(wǎng)站目錄也常有一個(gè)搜索框,但目錄的數(shù)據(jù)來源是人工編輯得到的。

有實(shí)力石家莊建設(shè)網(wǎng)站搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r(shí)對這么多頁面分析相關(guān)性,計(jì)算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。石家莊建設(shè)網(wǎng)站哪家好因此抓取來的頁面必須經(jīng)過預(yù)處理,為Z后的查詢排名做好準(zhǔn)備。和爬行抓取一樣,預(yù)處理也是在后臺提前完成的,用戶搜索時(shí)感覺不到這個(gè)過程。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。

承德有實(shí)力石家莊建設(shè)網(wǎng)站蜘蛛每次爬行都會把頁面數(shù)據(jù)存儲起來。如果第二次爬行發(fā)現(xiàn)頁面與第一次收錄的完全一樣,說明頁面沒有更新,蜘蛛也就沒有必要經(jīng)常抓取。如 果頁面內(nèi)容經(jīng)常更新,蜘蛛就會更加頻繁地訪問這種頁面,頁面上出現(xiàn)的新鏈接,石家莊建設(shè)網(wǎng)站哪家好也自然會被蜘蛛更快地跟蹤,抓取新頁面。導(dǎo)入鏈接。無論是外部鏈接還是同一個(gè)網(wǎng)站的內(nèi)部鏈接,要被蜘蛛抓取,就必須 有導(dǎo)入鏈接進(jìn)入頁面,否則蜘蛛根本沒有機(jī)會知道頁面的存在。高質(zhì)量的導(dǎo)入鏈 接也經(jīng)常使頁面上的導(dǎo)出鏈接被爬行深度增加。

有實(shí)力石家莊建設(shè)網(wǎng)站雖然搜索引擎在識別圖片及從Flash中提取文字內(nèi)容方面有些進(jìn)步,不過距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還很遠(yuǎn)。對圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容,詳細(xì)情況可以參考后面的整合搜索部分。石家莊建設(shè)網(wǎng)站哪家好排名 經(jīng)過搜索引擎蜘蛛抓取頁面,索引程序計(jì)算得到倒排索引后,搜索引擎就準(zhǔn)備好可以隨時(shí)處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計(jì)算排名顯示給用戶,排名過程是與用戶直接互動的。

有實(shí)力石家莊建設(shè)網(wǎng)站位置(如頁面第一段文字等)。這樣,每一個(gè)頁面都可以記錄為一串關(guān)鍵詞集合,其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鏈詞形成詞表結(jié)構(gòu)存儲進(jìn)索引庫。石家莊建設(shè)網(wǎng)站哪家好簡化的索引詞表形式簡化的索引詞表結(jié)構(gòu) 每個(gè)文件都對應(yīng)一個(gè)文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實(shí)際上在搜索引擎索引庫中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID。這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。