
有實(shí)力石家莊建設(shè)網(wǎng)站搜索引擎蜘蛛抓取的原始頁(yè)面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫(kù)中的頁(yè)面數(shù)都在數(shù)萬(wàn)億級(jí)別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r(shí)對(duì)這么多頁(yè)面分析相關(guān)性,計(jì)算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。石家莊建設(shè)網(wǎng)站價(jià)格因此抓取來(lái)的頁(yè)面必須經(jīng)過(guò)預(yù)處理,為Z后的查詢排名做好準(zhǔn)備。和爬行抓取一樣,預(yù)處理也是在后臺(tái)提前完成的,用戶搜索時(shí)感覺(jué)不到這個(gè)過(guò)程。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁(yè)面文字內(nèi)容。

有實(shí)力石家莊建設(shè)網(wǎng)站中文分詞,分詞是中文搜索引擎特有的步驟。搜索引擎存儲(chǔ)和處理頁(yè)面及用戶搜索都是以詞為基礎(chǔ)的。英文等語(yǔ)言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒(méi)有任何分隔符,一個(gè)句子中的所有字和詞都是連在一起的。石家莊建設(shè)網(wǎng)站價(jià)格搜索引擎必須首先分辨哪幾個(gè)字組成一個(gè)詞,哪些字本身就是一個(gè)詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個(gè)詞。中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是墓于統(tǒng)計(jì)。

有實(shí)力石家莊建設(shè)網(wǎng)站而且搜索引擎的去重算法很可能不止于頁(yè)面級(jí)別,而是進(jìn)行到段落級(jí)別,混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。正向索引 正向索引也可以簡(jiǎn)稱為索引。石家莊建設(shè)網(wǎng)站價(jià)格經(jīng)過(guò)文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨(dú)特的、能反映頁(yè)面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來(lái)搜索引擎索引程序就可以提取關(guān)鍵詞,按照分詞程序劃分好的詞,把頁(yè)面轉(zhuǎn)換為一個(gè)關(guān)鍵詞組成的集合,同時(shí)記錄每一個(gè)關(guān)鍵詞在頁(yè)面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等)

有實(shí)力石家莊建設(shè)網(wǎng)站雖然搜索引擎在識(shí)別圖片及從Flash中提取文字內(nèi)容方面有些進(jìn)步,不過(guò)距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還很遠(yuǎn)。對(duì)圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容,詳細(xì)情況可以參考后面的整合搜索部分。石家莊建設(shè)網(wǎng)站價(jià)格排名 經(jīng)過(guò)搜索引擎蜘蛛抓取頁(yè)面,索引程序計(jì)算得到倒排索引后,搜索引擎就準(zhǔn)備好可以隨時(shí)處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算排名顯示給用戶,排名過(guò)程是與用戶直接互動(dòng)的。

有實(shí)力石家莊建設(shè)網(wǎng)站詞頻及密度。一般認(rèn)為在沒(méi)有關(guān)鍵詞堆積的情況下,搜索詞在頁(yè)面中出現(xiàn)的次數(shù)多,密度越高,說(shuō)明頁(yè)面與搜索詞越相關(guān)。當(dāng)然這只是一個(gè)大致規(guī)律,實(shí)際情況未必如此,所以相關(guān)性計(jì)算還有其他因素。石家莊建設(shè)網(wǎng)站價(jià)格出現(xiàn)頻率及密度只是因素的一部分,而且重要程度越來(lái)越低。關(guān)鍵詞位置及形式。就像在索引部分中提到的,頁(yè)面關(guān)鍵詞出現(xiàn)的格武和位置都被記錄在索引庫(kù)中。關(guān)鍵詞出現(xiàn)在比較重要的位置,如標(biāo)題標(biāo)簽、黑體、Hl等,說(shuō)明頁(yè)面與關(guān)鍵詞越相關(guān)。這一部分就是頁(yè)面網(wǎng)站優(yōu)化所要解決的。