可能大家在優(yōu)化自己網站的時候,還從來沒有認真分析過或者系統(tǒng)的學習過搜索引擎的搜索規(guī)則和其中的原理。深圳網絡公司【創(chuàng)絡】通過一些渠道了解到的資料可能會對大家展開更高層次的網站優(yōu)化有一定幫助,如果您現在正在朝著這樣的方向發(fā)展,那么僅僅知道網站內容和外鏈是遠遠不夠的。因此,本文將是技術角度出發(fā)的一些文字,希望能對讀者有一定的幫助。
搜索引擎之所以可以在數秒鐘甚至一秒鐘內完成數億級別的數據處理,并不是因為搜索引擎具備多么強大的計算能力,而是全部的網頁都是經過預處理,為排名做好了足夠的準備的。網站要有排名,就必須被索引,而搜索引擎現在就主要是對網站文字進行提取后進行預處理,預處理的過程就是去除從HTML代碼中抓取的標簽、JS程序等不可以用來排名的內容,提取可以用于排名的頁面文字內容。
其中,中文和英文的索引還有一個很重要的區(qū)別,那就是中文會有一個分詞技術。搜索引擎儲存和處理頁面以及用戶搜索都是以詞為基礎的。
分詞技術主要包括兩種,一種是詞典匹配,也就是將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,如果發(fā)現詞典中已有詞條那么說明匹配成功,就分出一個關鍵詞來。
第二種分詞技術是基于統(tǒng)計的智能方法,也就是通過分析大量文字樣本,計算出字與字相鄰出現的統(tǒng)計概率,幾個字相鄰出現越多,就越可能成為一個單詞。這種方法的優(yōu)勢是對新出現的詞反應更快速,有利于消除歧義,詞典匹配和智能匹配這兩種分詞技術通常是互相協(xié)調,搭配使用,以提高搜索引擎的精確度。