教你查看日志中蜘蛛的訪問行為

網(wǎng)站日志,是服務(wù)器端自動生成的一個文本記錄,詳細記載了網(wǎng)站的訪問詳情,做為站長的你,如果是需要查看訪問統(tǒng)計數(shù)據(jù),那用#或者百度統(tǒng)計 工具就可以了,但是如果你想查看各搜索引擎的蜘蛛是否準時來爬行自己的網(wǎng)站,那就要學會自己查看網(wǎng)站日志文件了。結(jié)合我們自己的網(wǎng)站做為一個實例來做一個介紹:首先利用FTP工具登錄服務(wù)器端,一般在服務(wù)器根目錄之下存在一個logs文件夾,這里面裝的就是網(wǎng)站日志,當然不同的服務(wù)器類型,日志文件的文件夾名稱和我介紹的不一樣,但沒關(guān)系,日志文件的擴展名是log。進入日志文件夾,你會發(fā)

網(wǎng)站日志,是服務(wù)器端自動生成的一個文本記錄,詳細記載了網(wǎng)站的訪問詳情,做為站長的你,如果是需要查看訪問統(tǒng)計數(shù)據(jù),那用#或者百度統(tǒng)計 工具就可以了,但是如果你想查看各搜索引擎的蜘蛛是否準時來爬行自己的網(wǎng)站,那就要學會自己查看網(wǎng)站日志文件了。結(jié)合我們自己的網(wǎng)站做為一個實例來做一個介紹:

首先利用FTP工具登錄服務(wù)器端,一般在服務(wù)器根目錄之下存在一個logs文件夾,這里面裝的就是網(wǎng)站日志,當然不同的服務(wù)器類型,日志文件的文件夾名稱和我介紹的不一樣,但沒關(guān)系,日志文件的擴展名是log。
樹華網(wǎng)絡(luò)科技有限公司
進入日志文件夾,你會發(fā)現(xiàn),日志文件是按每一天的訪問情況為一個文件保存的:
樹華網(wǎng)絡(luò)科技有限公司
好吧,我的服務(wù)器只保留最近三天的日志文件,真小氣,我還用過一個國外的服務(wù)器,人家是按月記錄,并且當月結(jié)束后會將當月的日志打包供下載,只要你不人為刪除,該日志文件會永遠存在,這才叫個性化,但是沒辦法,誰叫我們只能用國內(nèi)的服務(wù)器。
OK,報怨了幾句,隨便下載一天的日志文件,用Windows文本工具打開該日志文件,會看到一堆酷似代碼的字符,祝文件大小打開速度也不同:
樹華網(wǎng)絡(luò)科技有限公司
注意看有背景的這一小部分,我用CTRL+F搜索功能查找baiduspider,好吧,為什么要查找baiduspider,這里先普及一下關(guān)于搜索引擎蜘蛛的一點小知識,各大搜索引擎的蜘蛛都有名字:

百度的叫baiduspider;

谷歌的叫Googlebot;

微軟的叫bingbot;

搜狐的叫Sogou web spider;

騰訊的叫Sosospider;

因為國內(nèi)主要是以百度為優(yōu)化對象,我們來看看關(guān)于百度蜘蛛爬行記錄的信息分析,在日志記錄中隨便找一個百度蜘蛛的信息:

125.90.88.96 - - [07/Sep/2012:19:16:21 +0800] "GET / HTTP/1.1" 200 5374 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

怎么解讀這些信息呢?蜘蛛IP--【訪問時間】“獲取路徑”HTTP反饋值200 反饋字節(jié)數(shù)5357 百度蜘蛛標記。

好吧,這里面獲取路徑與HTTP反饋值是非常重要的信息,200為正常讀取,讀取了5374個字節(jié)。我們再分析一條記錄:

220.181.51.118 - - [07/Sep/2012:09:54:15 +0800] "GET /product/disp.php?id=93 HTTP/1.1" 301 249 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

認真看獲取路徑這一項,因為我的網(wǎng)站是老域名,原來的主人被收錄的路徑/product/disp.php?id=93,百度蜘蛛同樣爬行,結(jié)果我的 新網(wǎng)站里肯定不會有這一條信息,由于HTTP反饋了301,而301代表已移動 — 請求的數(shù)據(jù)具有新的位置且更改是永久的。其實這對于我來說是一件好事,蜘蛛爬行不通,知道這條收錄記錄已經(jīng)失效,慢慢就會從百度的收錄數(shù)據(jù)庫中刪除?,F(xiàn)在 百度正在審核我的新站點,一天爬行只有23次,也很不錯了的。

好了,大家是不是可以舉一反三的學會看其它搜索引擎蜘蛛的爬行記錄了呢?下次,筆者將重點再分享一下HTTP的反饋值,大家通過這個反饋值可以獲悉自己網(wǎng)站的健康狀態(tài)哦,非常重要。

當然,有朋友會說為什么不利用一些日志查看工具,人工手動察看費時費力,是的,有些不錯的工具可以提供更便捷的操作,今天筆者所述內(nèi)容旨在用最初級的方法教會大家學會察看自己網(wǎng)站的日志。希望以上內(nèi)容能對你有點幫助。

本篇文章地址:http://www.wxdgfg.cn/html/xinwenzixun/seozhishi/90.html,轉(zhuǎn)載請注明鏈接謝謝。