close
很多人都寫過爬蟲
但往往最後都請求不到想要的資料
畢竟開發人員也不是白痴,一定會盡量保護自家的資料
所以會多許多判斷,去過濾掉不是由瀏覽器產生的請求
要讓伺服器以為你是瀏覽器,你就必須裝得夠像瀏覽器的樣子
以下是要注意的地方
----------------------------
Post和Get的字串中是否有編碼問題
1.Origin有無設置
2.Refer有無設置
3.user-agent有無設置
4.網頁中埋Token
4.1.可能埋在html form
4.2.藏在js
5.確定請求資料中間沒有其他額外的請求
6.確定沒被ban
大概就這些吧~以後有機會在實戰給大家看
通常越難爬的網站,開發者通常也是爬蟲高手 因為他知道別人會怎麼進攻
文章標籤
全站熱搜