對于網(wǎng)站優(yōu)化來說,搜索引擎日志分析是必不可少的一塊,無論你是收錄上百的小型網(wǎng)站,還是收錄上百萬的大中型網(wǎng)站,SEO要想做得好,都必需進行科學(xué)的日志分析,日志是發(fā)生在網(wǎng)站服務(wù)器上的所有事件的記錄,包括用戶訪問記錄,搜索引擎抓取記錄,對于一些大型網(wǎng)站來說,每天的日志都有好幾個G大小的,我們可以使用linux命令去進行分離的,在大型網(wǎng)站日志文件往往是機密文件,一般人是看不到的,因為從日志里邊可以分析訪客趨勢、地區(qū)趨勢等,我們做SEO的不需要那么多數(shù)據(jù),我們只要分析搜索引擎的抓取記錄這一塊就可以了,所以再大的數(shù)據(jù)量,如果經(jīng)過處理后,也就不會特別大了,況且現(xiàn)在的硬盤這么便宜,存儲日志文件還是可以考慮的。那么我們主要分析日志的什么數(shù)據(jù)呢?
1、每個搜索引擎的總體抓取量(以及趨勢)
在日志文件中,明確的記錄了每個搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取記錄,我們都可以進行記錄,使用DOS命令或者Linux命令都可以去實現(xiàn)的,搜索引擎的收錄是由抓取量以及文章質(zhì)量來決定的,當文章質(zhì)量不變的情況下,蜘蛛抓取量越大,那么收錄的就會越多,我們在進行日志分析 時候,一定要清楚的知道蜘蛛每天的抓取量到底是一個什么情況,而且每天都要記錄,也許絕對值說明不了什么,我們可以去看它的趨勢,當某一天抓取量的趨勢在下降時,我們就要去找原因了。
2、記錄搜索引擎蜘蛛的不重復(fù)抓取量
上一步我們把蜘蛛的抓取量數(shù)據(jù)給分析出來了,然后我們要進行去重,也就是搜索引擎的唯一不重復(fù)抓取量,其實對于收錄來說,許多頁面只要抓取一次就可以了,可是在實際操作的過程當中,許多頁面都是被重復(fù)抓取的,谷歌的技術(shù)比較先進一些,重復(fù)抓取率也許會低一些,可是百度等搜索引擎,重復(fù)抓取率卻非常高,你通過日志分析就可以看出來了,一天如果抓取量上百萬,可能好幾萬次都是抓取首頁的,所以許多數(shù)據(jù)你一定要去分析的,當你分析了后,你才會知道問題的嚴重性。
3、每個目錄、每個搜索引擎的抓取量
上邊兩步把總體抓取量、不重復(fù)抓取量記錄下來了,然后我們要分析出每個搜索引擎對每一個目錄的抓取情況是怎么樣的,這樣利于進行分塊優(yōu)化,例如當你網(wǎng)站流量上升時,你可以知道是哪個目錄的流量上升了,然后再往下推,看看是哪個目錄的抓取量上升了,哪個目錄的抓取量下降了,為什么下降,都可以進行分析的,然后在網(wǎng)站中進行適當?shù)逆溄咏Y(jié)構(gòu)調(diào)整,例如使用nofollow標簽等。

