
正規(guī)石家莊建設(shè)網(wǎng)站文件存儲(chǔ)搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。每個(gè)URL都有一個(gè)獨(dú)特的文件編號(hào)。爬行時(shí)的復(fù)制內(nèi)容檢測(cè)石家莊建設(shè)網(wǎng)站多少錢 檢測(cè)并刪除復(fù)制內(nèi)容通常是在下面介紹的預(yù)處理過程中進(jìn)行的,但現(xiàn)在的蜘蛛在爬行和抓取文件時(shí)也會(huì)進(jìn)行一定程度的復(fù)制內(nèi)容檢測(cè)。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時(shí),很可能不再繼續(xù)爬行。這也就是有的站長在日志文件中發(fā)現(xiàn)了蜘蛛,但頁面從來沒有被真正收錄過的原因。

正規(guī)石家莊建設(shè)網(wǎng)站由于頁面和鏈接數(shù)量巨大,網(wǎng)上的鏈接關(guān)系又時(shí)時(shí)處在更新中,因此鏈接關(guān)系及PR的計(jì)算要耗費(fèi)很長時(shí)間。關(guān)子PR和鏈接分析,后面還有專門的章節(jié)介紹。9.特殊文件處理 除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。石家莊建設(shè)網(wǎng)站多少錢我們?cè)谒阉鹘Y(jié)果中也經(jīng)常會(huì)看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。

正規(guī)石家莊建設(shè)網(wǎng)站這里的關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。實(shí)驗(yàn)表明,通常選取10個(gè)特征關(guān)鍵詞就可以達(dá)到比較高的計(jì)算準(zhǔn)確性,再選取更多詞對(duì)去重準(zhǔn)確性提高的貢獻(xiàn)也就不大了。典型的指紋計(jì)算方法如MD5算法(信息摘要算法第五版)。石家莊建設(shè)網(wǎng)站多少錢這類指紋算法的特點(diǎn)是,輸入(特征關(guān)鍵詞)有任何微小的變化,都會(huì)導(dǎo)致計(jì)算出的指紋有很大差距。了解了搜索引擎的去重算法,網(wǎng)站優(yōu)化人員就應(yīng)該知道簡(jiǎn)單地“的”、“地”、“得”、調(diào)換段落順序這種所謂偽原創(chuàng),并不能逃過搜索引擎的去重算法,因?yàn)檫@樣的操作無法改變文章的特征關(guān)鍵詞。

靈壽正規(guī)石家莊建設(shè)網(wǎng)站搜索引擎和目錄兩者各有優(yōu)劣。搜索引擎收錄的頁面數(shù)遠(yuǎn)遠(yuǎn)高于目錄能收錄的頁面數(shù)。但搜索引擎收錄的頁面質(zhì)量參差不齊,對(duì)網(wǎng)站內(nèi)容和關(guān)鍵詞提取的準(zhǔn)確性通常也沒有目錄高。限于人力,目錄能收錄的通常只是網(wǎng)蛄首頁,石家莊建設(shè)網(wǎng)站多少錢而且規(guī)模十分有限,不過收錄的網(wǎng)站通常質(zhì)量比較高。像雅虎、開放目錄、好123這些大型目錄,收錄標(biāo)準(zhǔn)非常高。目錄收錄網(wǎng)站時(shí)存儲(chǔ)的頁面標(biāo)題、說明文字都是人工編輯的,比較準(zhǔn)確。搜索引擎數(shù)據(jù)更新快,而目錄中收錄的很多網(wǎng)站內(nèi)容十分陳1日,甚至網(wǎng)站可能已經(jīng)不再存在了。

基于詞典匹配的方法是指,將待分析的一段漢字與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配,正規(guī)石家莊建設(shè)網(wǎng)站在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個(gè)單詞。按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。石家莊建設(shè)網(wǎng)站多少錢按照匹配長度優(yōu)先級(jí)的不同,又可以分為Z大匹配和Z小匹配。將掃描方向和長度優(yōu)先混合,又可以產(chǎn)生正向Z大匹配、逆向Z大匹配等不同方法。詞典匹配方法計(jì)算簡(jiǎn)單,其準(zhǔn)確度在很大程度上取決于詞典的完整性和更新情況。

另外用戶輸入的查詢?cè)~還可能包含一些高級(jí)搜索指令,如加號(hào)、減號(hào)等,搜索引擎都需要做出識(shí)別和相應(yīng)處理。有關(guān)高級(jí)搜索指令,后面還有詳細(xì)說明。正規(guī)石家莊建設(shè)網(wǎng)站寫錯(cuò)誤矯正。用戶如果輸入了明顯錯(cuò)誤的字或英文單詞拼錯(cuò),搜索引擎會(huì)提示用戶正確的用字或拼法,輸入的錯(cuò)拼、錯(cuò)字矯正,整合搜索觸發(fā)。某些搜索詞會(huì)觸發(fā)整合搜索,比如明星姓名就經(jīng)常觸發(fā)圖片和視頻內(nèi)容,石家莊建設(shè)網(wǎng)站多少錢當(dāng)前的熱門話題又容易觸發(fā)資訊內(nèi)容。哪些詞觸發(fā)哪些整合搜索,也需要在搜索詞處理階段計(jì)算。