
蜘蛛的爬行、頁(yè)面的收錄及排序都是自動(dòng)處理。網(wǎng)站目錄則是一套人工編輯的分類目錄,天津正規(guī)網(wǎng)站建設(shè)公司由編輯人員人工創(chuàng)建多個(gè)層次的分類,站長(zhǎng)可以在不同分類里提交網(wǎng)站,目錄編輯在后臺(tái)審核所提交的網(wǎng)站,將網(wǎng)站放置于相應(yīng)的分類頁(yè)面。有的時(shí)候編輯也主動(dòng)收錄網(wǎng)站。網(wǎng)站建設(shè)公司多少錢典型的網(wǎng)站目錄包括雅虎目錄、開(kāi)放目錄、好123等。目錄并不是本書(shū)中所討論的SEO所關(guān)注的真正的搜索引擎。雖然網(wǎng)站目錄也常有一個(gè)搜索框,但目錄的數(shù)據(jù)來(lái)源是人工編輯得到的。

正規(guī)網(wǎng)站建設(shè)公司基于統(tǒng)計(jì)的分詞方法指的是分析大量文字樣本,計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率,幾個(gè)字相鄰出現(xiàn)越多,就越可能形成一個(gè)單詞?;诮y(tǒng)計(jì)的方法的優(yōu)勢(shì)是對(duì)新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧義。網(wǎng)站建設(shè)公司多少錢基于詞典匹配和基于統(tǒng)計(jì)的分詞方法各有優(yōu)劣,實(shí)際使用中的分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識(shí)別生詞、新詞,消除歧義。中文分詞的準(zhǔn)確性往往影響搜索引擎排名的相關(guān)性。比如在百度搜索“搜索引擎優(yōu)化”

天津正規(guī)網(wǎng)站建設(shè)公司傳統(tǒng)百度左側(cè)廣告既沒(méi)有明確標(biāo)注為推廣鏈接,也沒(méi)有使用任何背景顏色,與下面的自然搜索結(jié)果更不容易分辨。唯一能分辨出上面3個(gè)是廣告的,是結(jié)果列表Z后一行Z右側(cè)標(biāo)有“推廣”兩個(gè)字。百度廣告結(jié)果在背景顏色、文字標(biāo)注上,都比較難以與自然結(jié)果區(qū)分。網(wǎng)站建設(shè)公司多少錢網(wǎng)站優(yōu)化人員當(dāng)然很清楚這兩者之間的區(qū)別,普通網(wǎng)民卻難以察覺(jué),尤其是百度傳統(tǒng)左側(cè)廣告。這也是百度搜索結(jié)果常為人詬病的原因之一。我們?cè)賮?lái)看看每一個(gè)搜索結(jié)果頁(yè)面的展現(xiàn)格式。

正規(guī)網(wǎng)站建設(shè)公司正向索引還不能直接用于排名。假設(shè)用戶搜索關(guān)鍵詞2,如果只存在正向索引,排名程序需要掃描所有索引庫(kù)中的文件,找出包含關(guān)鍵詞2的文件,再進(jìn)行相關(guān)性計(jì)算。這樣的計(jì)算量無(wú)法滿足實(shí)時(shí)返回排名結(jié)果的要求。網(wǎng)站建設(shè)公司多少錢所以搜索引擎會(huì)將正向索引數(shù)據(jù)庫(kù)重新構(gòu)造為倒排索引,把文件對(duì)應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射,在倒排索引中關(guān)鍵詞是主鍵,每介關(guān)鍵詞都對(duì)應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí),排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞,就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。

天津正規(guī)網(wǎng)站建設(shè)公司同一篇文章經(jīng)常會(huì)重復(fù)出現(xiàn)在不同網(wǎng)站及同一個(gè)網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時(shí),如果在前兩頁(yè)看到的都是來(lái)自不同網(wǎng)站的同一篇文章,用戶體驗(yàn)就太差了,雖然都是內(nèi)容相關(guān)的。網(wǎng)站建設(shè)公司多少錢搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識(shí)別和刪隙重復(fù)內(nèi)容,這個(gè)過(guò)程就稱為“去重”。去重的基本方法是對(duì)頁(yè)面特征關(guān)鍵詞計(jì)算指紋,也就是說(shuō)從頁(yè)面主體內(nèi)容中選取Z有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率Z高的關(guān)鍵詞),然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。

基于詞典匹配的方法是指,將待分析的一段漢字與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配,正規(guī)網(wǎng)站建設(shè)公司在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說(shuō)切分出一個(gè)單詞。按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。網(wǎng)站建設(shè)公司多少錢按照匹配長(zhǎng)度優(yōu)先級(jí)的不同,又可以分為Z大匹配和Z小匹配。將掃描方向和長(zhǎng)度優(yōu)先混合,又可以產(chǎn)生正向Z大匹配、逆向Z大匹配等不同方法。詞典匹配方法計(jì)算簡(jiǎn)單,其準(zhǔn)確度在很大程度上取決于詞典的完整性和更新情況。