主页 分类 关于

爬虫 状态码(吃牢饭集合)

每天一个入狱小技巧

状态码

常见的状态码 (了解就行)

  • 200: 成功
  • 302: 跳转, 新的url在响应的Location头中给出
  • 303: 浏览器对于POST的响应进行重新定向至新的url
  • 307: 浏览器对应GET响应进行重新定向至新的url
  • 403: 资源不可用; 服务器理解客户的请求, 但拒绝处理它(没有权限)
  • 404: 找不到资源
  • 500: 服务器内部错误
  • 503: 服务器又有维护或者负载过重未能应答, 在响应中可能会携带Retry-After响应头; 有可能是因为爬虫频繁访问url, 使得服务器忽视爬虫的请求, 最终返回503响应状态码

常见状态码表格形式 (了解就行)

状态码 代表意思
200 成功
302 跳转, 新的url在响应的Location头中给出
303 浏览器对于POST的响应进行重新定向至新的url
307 浏览器对应GET响应进行重新定向至新的url
403 资源不可用; 服务器理解客户的请求, 但拒绝处理它(没有权限)
404 找不到资源
500 服务器内部错误
503 服务器又有维护或者负载过重未能应答, 在响应中可能会携带Retry-After响应头; 有可能是因为爬虫频繁访问url, 使得服务器忽视爬虫的请求, 最终返回503响应状态码

总结 所有的状态码都不可信, 一切以是否从抓包得到的响应中获得到的数据为准 network中抓包得到的源码才是判断依据, elements中的源码是渲染之后的源码

请求过程
浏览器 发送所有请求, 进行渲染
爬虫 发送所有请求, 不会渲染
请页面可分为
骨骼文件 html静态文件
肌肉文件 js/ajax请求
皮肤文件 css/font/图片等

抓包过程: 根据发送请求的流程分别在 骨骼 / 肌肉 / 皮肤 响应中查找数据










作者: 我叫史迪奇
本文来自于: https://sdq3.link/reptile-state.html博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议