大部分SEOer在考慮這個問題時往往會以SEO為出發(fā)點,感覺百度就是通過自己布局關鍵詞的幾個地方來判斷頁面關鍵詞的。拋開sEO,假設一個網站沒有做 SEO,任何SEO細節(jié)都沒有考慮,甚至頁面Tile. H、加粗之類的標簽都沒有使用,但是頁面中有對用戶十分有用的內容(比如一些政府或組織的網站),那百度還需要索引這樣的網站和頁面嗎?還需要判斷這些頁面的核心關鍵詞嗎?答案顯然是“需要”那么這些在大眾SEO眼中的一些重要位置沒有布局關鍵詞的頁面,百度還能判斷其核心關鍵詞嗎?答案當然是“可以”,不然百度和其他搜索引擎都不要混了。
搜索引擎判斷頁面的核心關鍵詞時,會比較注重頁面Title、H標簽、內容中加粗變色標簽、主體內容靠前部分中關鍵詞的出現頻率等,但是這并不是搜索引擎判斷頁面關鍵詞的主要渠道,而只是促進搜索引擎認為這個頁面和SEO人員在這些地方所布局的關鍵詞更相關而已。從在采集內容中硬性插入關鍵詞,單純以頁面幾個重要地方著重關鍵詞和硬性提升內容中關鍵詞密度的所謂“偽原創(chuàng)”方法已經基本失效,就可以了解到搜索引擎并不只是根據大眾SEO所注重的幾個地方來判斷頁面關鍵詞的。
搜索引擎判斷一個頁面的核心關鍵詞的流程應該有:
(1) 抽取頁面內容部分,對內容進行分詞處理
(2)根據各個關鍵詞在頁面中的頻率以及在全網中的頻率來判斷哪些詞是該頁面的主要關鍵詞,這里一般使用的是TF-IDF 。
(3) 根據更為先進的語義識別算法進行判定。
(4) 把頁面Title、H1標簽、內容開頭部分內容(有時甚至只是第一句)、內容中加粗變色文字中所提取的關鍵詞與其他算法判定的關鍵詞進行加權計算,從而最后得出這個頁面和哪些關鍵詞相關,并按照相關度把關鍵詞進行排序,前幾個關鍵詞一般就可以被判定為該頁面的核心關鍵詞。
作為對SEO的指導是:需要特別注意在頁面重要位置和標簽內突出我們心中的核心關鍵詞,但是更要注重內容的自然建設,而不是為了堆積關鍵詞而堆積關鍵詞,不能把工作重心本末倒置。搜索引擎已經不像當年那樣容易騙了,“他們已經被SEO通得沒有那么單純了”。