
正規(guī)軟件開發(fā)公司鏈接關系計算也是預處理中很重要的一部分?,F(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁之間的鏈接流動信息。搜索引擎在抓取頁面內(nèi)容后,必須事前計算出:頁面上有哪些鏈接指向哪些其他頁面,每個頁面有哪些導入鏈接,鏈接使用了什么錨文字,軟件開發(fā)公司價格這些復雜的鏈接指向關系形成了網(wǎng)站和頁面的鏈接權重。Google PR值就是這種鏈接關系的Z主要體現(xiàn)之一。其他搜索引擎也都進行類似計算,雖然它們并不稱為PR。

正規(guī)軟件開發(fā)公司中文分詞,分詞是中文搜索引擎特有的步驟。搜索引擎存儲和處理頁面及用戶搜索都是以詞為基礎的。英文等語言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒有任何分隔符,一個句子中的所有字和詞都是連在一起的。軟件開發(fā)公司價格搜索引擎必須首先分辨哪幾個字組成一個詞,哪些字本身就是一個詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個詞。中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是墓于統(tǒng)計。

正規(guī)軟件開發(fā)公司如果每次搜索都重新處理排名可以說是很大的浪費。搜索引擎會把Z常見的搜索詞存入緩存,用戶搜索時直接從緩存中調(diào)用,而不必經(jīng)過文件匹配和相關性計算,大大提高了排名效率,縮短了搜索反應時間。軟件開發(fā)公司價格查詢及點擊日志 搜索用戶的IP地址、搜索的關鍵詞、搜索時間,以及點擊了哪些結果頁面,搜索引擎都記錄形成日志。這些日志文件中的數(shù)據(jù)對搜索引擎判斷搜索結果質(zhì)量、調(diào)整搜索算法、預期搜索趨勢等都有重要意義。

正規(guī)軟件開發(fā)公司這種快速收錄和更新也只能局限于高權重網(wǎng)站。很多頁面幾個月不被重新抓取和更新,也是非常常見的。軟件開發(fā)公司價格要返回Z好的結果,搜索引擎也必須抓取盡量全面的頁面,這就需要解決很多技術問題。一些網(wǎng)站并不利于搜索引擎蜘蛛爬行和抓取,諸如網(wǎng)站鏈接結構的缺陷、大量使用Flash、JavaScript腳本,或者把內(nèi)容放在用戶必須登錄以后才能訪問的部分,都培大了搜索引擎抓取內(nèi)容的難度。

正規(guī)軟件開發(fā)公司實際上用戶并不需要知道所有匹配的幾十萬、幾百萬個頁面,絕大部分用戶只會查看前兩頁,也就是前20個結果。搜索引擎也并不需要計算這么多頁面的相關性,而只要計算Z重要的一部分頁面就可以了。常用搜索引擎的人都會注意到,搜索結果頁面通常Z多顯示100個。軟件開發(fā)公司價格用戶點擊搜索結果頁面底部的“下一頁”鏈接,Z多也只能看到第100頁,也就是1000個搜索結果但問題在于,還沒有計算相關性時,搜索引擎又怎么知道哪一千個文件是晟相關的?所以用于Z后相關性計算的初始頁面子集的選擇,必須依靠其他特征而不是相關性,其中Z主要的就是頁面權重。

正規(guī)軟件開發(fā)公司由于頁面和鏈接數(shù)量巨大,網(wǎng)上的鏈接關系又時時處在更新中,因此鏈接關系及PR的計算要耗費很長時間。關子PR和鏈接分析,后面還有專門的章節(jié)介紹。9.特殊文件處理 除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。軟件開發(fā)公司價格我們在搜索結果中也經(jīng)常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。