主页 分类 关于

爬虫 概念(牢饭吃到饱)

每天一个入狱小技巧

服务器渲染

其实就是在服务器那边直接把数据和HTMl整合在一起, 统一返回浏览器, 其实源代码就是网站的基本面貌, 之所以有可视化界面都是浏览器的功劳

客户端渲染

第一次只是请求HTMl骨架, 第二次请求拿到数据, 然后在你的浏览器中组合变形

HTTP协议

HTTP协议传输的就是网站源代码

HTTP协议把一条消息分为三大块内容

请求:

请求行 -> 请求方式(get/post) 请求url地址 协议

请求头 -> 放一些服务器要使用的附加信息

请求体 -> 一般放一些请求参数

响应:

状态行 ->  协议 状态码 例如:404

响应头 -> 放一些客户端要使用的附加信息

响应体 -> 服务器返回的真正客户端要使用的内容 例如:HTML, json等等

请求头中最常见的一些重要内容

User-Agent: 请求载体的身份标识(用啥发送的请求)

Referer: 防盗链(这次请求是从哪个页面来的? 防爬会用到)

cookie: 本地字符串数据信息(用户登陆信息, 防爬的token)

响应头中一些重要的内容

cookie: 本地字符串数据信息(用户登陆信息, 防爬的token)

各种神奇的莫名其妙的字符串(一般都是yoken字样,防止各种攻击和防爬)

请求方式

GET: 显示提交

查询用的多

POST: 隐示提交

增加,修改,上传服务器里面的数据

数据解析的三种方式

re解析

bs4解析

xpath解析










作者: 我叫史迪奇
本文来自于: https://sdq3.link/reptile-concept.html博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议