
唐山正規(guī)小程序開發(fā)同一篇文章經(jīng)常會重復(fù)出現(xiàn)在不同網(wǎng)站及同一個(gè)網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時(shí),如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗(yàn)就太差了,雖然都是內(nèi)容相關(guān)的。小程序開發(fā)哪家好搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識別和刪隙重復(fù)內(nèi)容,這個(gè)過程就稱為“去重”。去重的基本方法是對頁面特征關(guān)鍵詞計(jì)算指紋,也就是說從頁面主體內(nèi)容中選取Z有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率Z高的關(guān)鍵詞),然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。

正規(guī)小程序開發(fā)位置(如頁面第一段文字等)。這樣,每一個(gè)頁面都可以記錄為一串關(guān)鍵詞集合,其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鏈詞形成詞表結(jié)構(gòu)存儲進(jìn)索引庫。小程序開發(fā)哪家好簡化的索引詞表形式簡化的索引詞表結(jié)構(gòu) 每個(gè)文件都對應(yīng)一個(gè)文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實(shí)際上在搜索引擎索引庫中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID。這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。

把別人的文章拿來加一些“的、地、得”,段落換換順序就當(dāng)成自己的原創(chuàng)放在網(wǎng)站上,這是令人鄙視的抄襲行為。理解搜索引擎原理的話,唐山正規(guī)小程序開發(fā)就會知道這樣的偽原創(chuàng)也不管用。搜索引擎并不會因?yàn)閮善恼虏顜讉€(gè)字、段落順序不同,就真的把它們當(dāng)成不同的內(nèi)容。搜索引擎的權(quán)重算法要先進(jìn)、準(zhǔn)確得多。再比如,小程序開發(fā)哪家好對大型網(wǎng)站來說,Z關(guān)鍵的問題是解決收錄。只有收錄充分,才能帶動大量長尾關(guān)鍵詞。就算是有人力、財(cái)力的大公司,當(dāng)面對幾百萬幾千萬頁面的網(wǎng)站時(shí),也不容易處理好充分收錄的問題。

指令處理。正規(guī)小程序開發(fā)查詢詞完成分詞后,搜索引擎的默認(rèn)處理方式是在關(guān)鍵詞之間使用“與”邏輯。也就是說用戶搜索“減肥方法”時(shí),程序分詞為“減肥”和“方法”兩個(gè)詞,搜索引擎排序時(shí)默認(rèn)認(rèn)為,用戶尋找的是既包含“減肥”,小程序開發(fā)哪家好也包含“方法”的頁面。只包含“減肥”不包含“方法”,或者只包含“方法”不包含“減肥”的頁面,被認(rèn)為是不符合搜索條件的。當(dāng)然,這只是極為簡化的為了說明原理的說法,實(shí)際上我們還是會看到只包含一部分關(guān)鍵詞的搜索結(jié)果。

唐山正規(guī)小程序開發(fā)不同用戶搜索相同的關(guān)鍵詞,很可能是在尋找不同的東西。比如搜索“蘋果”,用戶到底是想了解蘋果這個(gè)水果,還是蘋果電腦?還是電影《蘋果》的信息?沒有上下文,沒有對用戶個(gè)人搜索習(xí)慣的了解,就完全無從判斷。小程序開發(fā)哪家好搜索引擎目前正在致力于基于用戶搜索習(xí)慣及歷史數(shù)據(jù)的了解上,判斷搜索意圖,返回更相關(guān)的結(jié)果。今后搜索引擎是否能達(dá)到人工智能水平,真正了解用戶搜索詞的意義和目的,讓我們拭目以待。