主页 分类 关于

爬虫 数据提取(吃牢饭集合)

每天一个入狱小技巧

响应内容分类

结构化的响应内容

json字符串(高频出现)

  • 可以使用re,json等模块来提取特定数据

xml数据(低频出现)

  • 可以使用re,lxml等模块来提取特定数据

非结构化的响应内容

html字符串

  • 可以使用re,lxml等模块来提取特定数据

xml与html区别

数据格式 描述 设计目标 个人总结
XML Extensible Markup Language(可扩展标记语言) 被设计为传输和存储数据, 其焦点是数据的内容 xml传输和储存数据
HTML HyperText Markup Language(超文本标记语言) 显示数据已经然后更好显示数据 html展示数据

xml

  • 可扩展标记语言

  • 为了传输和储存数据, 侧重点是在于数据内容本身

  • xml是一种可扩展标记语言, 样子和html很像, 功能更专注对传输和储存数据

html

  • 超文本记语言

  • 为了更好的显示数据, 侧重点是为显示

  • html是显示效果更好, 用于展示数据

常用的数据解析方法







jsonpath模块

详细说明

lxml模块

详细说明

xpath模

详细说明










作者: 我叫史迪奇
本文来自于: https://sdq3.link/reptile-Extraction.html博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议