很多人都寫過爬蟲

但往往最後都請求不到想要的資料

畢竟開發人員也不是白痴,一定會盡量保護自家的資料

所以會多許多判斷,去過濾掉不是由瀏覽器產生的請求

要讓伺服器以為你是瀏覽器,你就必須裝得夠像瀏覽器的樣子

以下是要注意的地方

----------------------------

Post和Get的字串中是否有編碼問題
1.Origin有無設置
2.Refer有無設置
3.user-agent有無設置
4.網頁中埋Token
   4.1.可能埋在html form
   4.2.藏在js
5.確定請求資料中間沒有其他額外的請求
6.確定沒被ban

大概就這些吧~以後有機會在實戰給大家看

通常越難爬的網站,開發者通常也是爬蟲高手 因為他知道別人會怎麼進攻

arrow
arrow
    文章標籤
    爬蟲 crawler
    全站熱搜

    天縱奇才 發表在 痞客邦 留言(0) 人氣()