爬虫状态码(吃牢饭集合)

每天一个入狱小技巧

状态码

常见的状态码 (了解就行)

200: 成功
302: 跳转, 新的url在响应的Location头中给出
303: 浏览器对于POST的响应进行重新定向至新的url
307: 浏览器对应GET响应进行重新定向至新的url
403: 资源不可用; 服务器理解客户的请求, 但拒绝处理它(没有权限)
404: 找不到资源
500: 服务器内部错误
503: 服务器又有维护或者负载过重未能应答, 在响应中可能会携带Retry-After响应头; 有可能是因为爬虫频繁访问url, 使得服务器忽视爬虫的请求, 最终返回503响应状态码

常见状态码表格形式 (了解就行)

状态码	代表意思
200	成功
302	跳转, 新的url在响应的Location头中给出
303	浏览器对于POST的响应进行重新定向至新的url
307	浏览器对应GET响应进行重新定向至新的url
403	资源不可用; 服务器理解客户的请求, 但拒绝处理它(没有权限)
404	找不到资源
500	服务器内部错误
503	服务器又有维护或者负载过重未能应答, 在响应中可能会携带Retry-After响应头; 有可能是因为爬虫频繁访问url, 使得服务器忽视爬虫的请求, 最终返回503响应状态码

总结所有的状态码都不可信, 一切以是否从抓包得到的响应中获得到的数据为准 network中抓包得到的源码才是判断依据, elements中的源码是渲染之后的源码

请求过程
浏览器	发送所有请求, 进行渲染
爬虫	发送所有请求, 不会渲染

抓包过程: 根据发送请求的流程分别在骨骼 / 肌肉 / 皮肤响应中查找数据

作者: 我叫史迪奇
本文来自于: https://sdq3.link/reptile-state.html博客内容遵循署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议