每天一个入狱小技巧
常见的状态码 (了解就行)
常见状态码表格形式 (了解就行)
状态码 | 代表意思 | ||
---|---|---|---|
200 | 成功 | ||
302 | 跳转, 新的url在响应的Location头中给出 | ||
303 | 浏览器对于POST的响应进行重新定向至新的url | ||
307 | 浏览器对应GET响应进行重新定向至新的url | ||
403 | 资源不可用; 服务器理解客户的请求, 但拒绝处理它(没有权限) | ||
404 | 找不到资源 | ||
500 | 服务器内部错误 | ||
503 | 服务器又有维护或者负载过重未能应答, 在响应中可能会携带Retry-After响应头; 有可能是因为爬虫频繁访问url, 使得服务器忽视爬虫的请求, 最终返回503响应状态码 |
总结 所有的状态码都不可信, 一切以是否从抓包得到的响应中获得到的数据为准 network中抓包得到的源码才是判断依据, elements中的源码是渲染之后的源码
请求过程 | |
---|---|
浏览器 | 发送所有请求, 进行渲染 |
爬虫 | 发送所有请求, 不会渲染 |
请页面可分为 | |
---|---|
骨骼文件 | html静态文件 |
肌肉文件 | js/ajax请求 |
皮肤文件 | css/font/图片等 |
抓包过程: 根据发送请求的流程分别在 骨骼 / 肌肉 / 皮肤 响应中查找数据
作者: 我叫史迪奇
本文来自于:
https://sdq3.link/reptile-state.html博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议