
另外用戶輸入的查詢詞還可能包含一些高級搜索指令,如加號、減號等,搜索引擎都需要做出識別和相應(yīng)處理。有關(guān)高級搜索指令,后面還有詳細說明。有實力石家莊建設(shè)網(wǎng)站寫錯誤矯正。用戶如果輸入了明顯錯誤的字或英文單詞拼錯,搜索引擎會提示用戶正確的用字或拼法,輸入的錯拼、錯字矯正,整合搜索觸發(fā)。某些搜索詞會觸發(fā)整合搜索,比如明星姓名就經(jīng)常觸發(fā)圖片和視頻內(nèi)容,石家莊建設(shè)網(wǎng)站多少錢當前的熱門話題又容易觸發(fā)資訊內(nèi)容。哪些詞觸發(fā)哪些整合搜索,也需要在搜索詞處理階段計算。

有實力石家莊建設(shè)網(wǎng)站只有在深入了解搜索引擎蜘蛛爬行原理的基礎(chǔ)上,才能盡量使蜘蛛抓得快而全面。上面所舉的幾個例子,讀者看完搜索引擎原理簡介這一節(jié)后,會有更深入的認識。搜索引擎與目錄,石家莊建設(shè)網(wǎng)站多少錢早期的網(wǎng)站優(yōu)化資料經(jīng)常把真正的搜索引擎與目錄放在一起討論,甚至把目錄也稱為搜索引擎的一種,這種講法并不準確。真正的搜索引擎指的是由蜘蛛程序沿著鏈接爬行和抓取網(wǎng)上的大量頁面,存進數(shù)據(jù)庫,經(jīng)過預(yù)處理,用戶在搜索框輸入關(guān)鍵詞后,搜索引擎排序程序從數(shù)據(jù)庫中挑選出符合搜索關(guān)鍵詞要求的頁面。

有實力石家莊建設(shè)網(wǎng)站基于統(tǒng)計的分詞方法指的是分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,幾個字相鄰出現(xiàn)越多,就越可能形成一個單詞?;诮y(tǒng)計的方法的優(yōu)勢是對新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧義。石家莊建設(shè)網(wǎng)站多少錢基于詞典匹配和基于統(tǒng)計的分詞方法各有優(yōu)劣,實際使用中的分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識別生詞、新詞,消除歧義。中文分詞的準確性往往影響搜索引擎排名的相關(guān)性。比如在百度搜索“搜索引擎優(yōu)化”

搜索引擎對頁面的分詞取決于詞庫的規(guī)模、準確性和分詞算法的好壞,而不是取決于頁面本身如何,所以網(wǎng)站優(yōu)化人員對分詞所能做的很少。橋東區(qū)有實力石家莊建設(shè)網(wǎng)站唯一能做的是在頁面上用某種形式提示搜索引擎,某幾個字應(yīng)該被當做一個詞處理,尤其是可能產(chǎn)生歧義的時候,比如在頁面標題、hl標簽及黑體中出現(xiàn)關(guān)鍵詞。石家莊建設(shè)網(wǎng)站多少錢如果頁面是關(guān)于“和服”的內(nèi)容,那么可以把“和服”這兩個字特意標為黑體。如果頁面是關(guān)于“化妝利服裝”,可以把“服裝”兩個字標為黑體。

橋東區(qū)有實力石家莊建設(shè)網(wǎng)站搜索引擎和目錄兩者各有優(yōu)劣。搜索引擎收錄的頁面數(shù)遠遠高于目錄能收錄的頁面數(shù)。但搜索引擎收錄的頁面質(zhì)量參差不齊,對網(wǎng)站內(nèi)容和關(guān)鍵詞提取的準確性通常也沒有目錄高。限于人力,目錄能收錄的通常只是網(wǎng)蛄首頁,石家莊建設(shè)網(wǎng)站多少錢而且規(guī)模十分有限,不過收錄的網(wǎng)站通常質(zhì)量比較高。像雅虎、開放目錄、好123這些大型目錄,收錄標準非常高。目錄收錄網(wǎng)站時存儲的頁面標題、說明文字都是人工編輯的,比較準確。搜索引擎數(shù)據(jù)更新快,而目錄中收錄的很多網(wǎng)站內(nèi)容十分陳1日,甚至網(wǎng)站可能已經(jīng)不再存在了。

有實力石家莊建設(shè)網(wǎng)站搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r對這么多頁面分析相關(guān)性,計算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。石家莊建設(shè)網(wǎng)站多少錢因此抓取來的頁面必須經(jīng)過預(yù)處理,為Z后的查詢排名做好準備。和爬行抓取一樣,預(yù)處理也是在后臺提前完成的,用戶搜索時感覺不到這個過程。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。