[點晴永久免費OA]百度/360/頭條/搜狗/bing/Google搜索引擎用到的網(wǎng)絡(luò)爬蟲介紹與識別
當(dāng)前位置:點晴教程→點晴OA辦公管理信息系統(tǒng)
→『 經(jīng)驗分享&問題答疑 』
網(wǎng)絡(luò)爬蟲是一種自動化程序,可以按照一定的規(guī)則和算法在互聯(lián)網(wǎng)上抓取網(wǎng)頁信息。爬蟲通過訪問網(wǎng)頁的超鏈接、解析頁面內(nèi)容等方式,收集網(wǎng)頁數(shù)據(jù)并存儲在本地或數(shù)據(jù)庫中。爬蟲的主要功能包括發(fā)現(xiàn)新網(wǎng)頁、下載網(wǎng)頁內(nèi)容、解析網(wǎng)頁結(jié)構(gòu)、提取有用信息等。 然而爬蟲訪問網(wǎng)站可能會占用服務(wù)器資源,浪費流量,甚至可能造成服務(wù)器宕機(jī),為了應(yīng)對這些問題,識別爬蟲并進(jìn)行攔截屏蔽是至關(guān)重要的。 一種常見的識別爬蟲的方法是通過User Agent(簡稱 UA),即用戶代理,這是一個特殊的字符串頭,使服務(wù)器能夠識別客戶端的操作系統(tǒng)、瀏覽器等信息。不同的爬蟲有不同的User Agent,比如百度蜘蛛(Baiduspider)、360蜘蛛(360 Spider)、頭條搜索蜘蛛(Bytespider)等,不同的爬蟲通常會有其獨特的User Agent標(biāo)識,通過識別這些標(biāo)識,網(wǎng)站管理員可以初步判斷來訪者是否為爬蟲,并據(jù)此采取相應(yīng)的攔截措施。 以下國內(nèi)外常見的UA特征: 國內(nèi)BaiduspiderMozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 360Spider Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider 以下為360搜索的蜘蛛IP段: 180.153.232.* 180.153.234.* 180.153.236.* 180.163.220.* 42.236.101.* 42.236.102.* 42.236.103.* 42.236.10.* 42.236.12.* 42.236.13.* 42.236.14.* 42.236.15.* 42.236.16.* 42.236.17.* 42.236.46.* 42.236.48.* 42.236.49.* 42.236.50.* 42.236.51.* 42.236.52.* 42.236.53.* 42.236.54.* 42.236.55.* 42.236.99.* Bytespider 頭條搜索(字節(jié)跳動)Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36 Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/) Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Version/7.0 Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/) 頭條搜索ip字段介紹 頭條搜索的ip字段總共涉及10個ip,具體字段如下:
sougou spidersogou spider User-Agent字段: Sogou web spider 和 Sogou inst spider 國外bingbotMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/ Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)W.X.Y.Z Safari/537.36 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Googlebot
[Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
YanDexBotMozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 除了User Agent外,還有robots協(xié)議,即爬蟲協(xié)議,網(wǎng)站可以通過robots.txt文件告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。正常搜索引擎均遵守robots協(xié)議,但是,這個robots協(xié)議不是防火墻,也沒有強(qiáng)制執(zhí)行力強(qiáng)制執(zhí)行力,惡意搜索引擎完全可以忽視robots.txt文件去抓取網(wǎng)頁的快照。因此,我們不能僅僅依賴robots.txt來保護(hù)網(wǎng)站資源安全。相反,我們應(yīng)該采取多種手段相結(jié)合的策略,包括識別User Agent、分析IP地址、監(jiān)控爬蟲行為等,以實現(xiàn)對惡意爬蟲的有效攔截。 參考鏈接: https://help.baidu.com/question?prod_id=99&class=0&id=3001 https://zhanzhang.toutiao.com/page/outer/docs/26899 http://www.so.com/help/spider_ip.html https://help.sogou.com/guide.html http://www.bing.com/webmasters/help/which-crawlers-does-bing-use-8c184ec0 https://www.pdflibr.com/crawler/googlebot https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html 該文章在 2024/4/11 10:25:00 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |