当前位置：网站首页 > python教程 > 文章当前位置： python教程 > 文章

python爬虫入门教程(非常详细)烟雨江湖药王谷python爬虫入门教程

时间：2022-05-13 点击：次来源：网络作者：佚名 - 小 + 大

python爬虫入门教程(非常详细)烟雨江湖药王谷python爬虫入门教程

下载地址

https://share.weiyun.com/0UhC6msn

资料目录
30个小时搞定Python网络爬虫视频课程（全套详细版）
Python网络爬虫工程师系列培训视频课程（65集全）
廖雪峰商业爬虫（含课件、案例和练习）
零基础Python实战四周实现爬虫网站
《Python 3网络爬虫开发实战》崔庆才著.pdf
《Python网络爬虫从入门到实践》庄培杰编著.pdf
Python 3爬虫、数据清洗与可视化实战_零一等编著.pdf
Python3网络爬虫数据采集陶俊杰翻译.pdf
Python爬虫开发与项目实战范传辉编著.pdf
Python爬虫大数据采集与挖掘-微课视频版曹剑平编著.pdf
python网络爬虫从入门到实践唐松等.pdf
网络爬虫－Python和数据分析王澎著.pdf
用Python写网络爬虫李斌翻译.pdf
自己动手写网络爬虫罗刚等编著.pdf
Python项目案例开发从入门到实战：爬虫、游戏和机器学习 by 郑秋生夏敏捷

举例

Beautiful Soup 的四大对象
1. Tag（标签）
如果查找的标签是在所有内容中第一个符合要求的标签，比较常用的两个属性如下。
 tag.name：获得标签的名称。
 tag.attrs：获取标签内的所有属性，返回一个字典，可以根据键取值，也可以直接调用 get('xxx')获到属性。还有一个方法是根据标签层级的形式查找到标签，如soup.body.div.div.a 就是绝对定位，实用性不高。
2. NavigableString（内部文字）
如果想获取标签的内部文字，可直接调用.string。
3. BeautifulSoup（文档的全部内容）
可以把它当作一个 Tag 对象，只是可以分别获取它的类型、名称，具有一级属性。
4. Comment（特殊的 NavigableString）
这种对象调用.string 来输出内容，会把注释符号去掉，直接把注释里的内容打印出来，需要加以判断，示例如下：
if type(soup.a.string)==bs4.element.Comment:
print soup.a.string

Beautiful Soup 的各种节点
当目标节点不好定位时，我们可以找到目标节点附近的节点，然后顺藤摸瓜找到目标节点。可以通过下述字段获取附近节点。
1. 子节点与子孙节点
 contents：把标签下的所有子标签存入列表，返回列表。
 children：和 contents 一样，但是返回的不是一个列表，而是一个迭代器，只能通过循环的方式获取信息，类型是 list_iterator，仅包含 tag 的直接子节点，如果想找出子孙节点，可以使用 descendants，会把所有节点都剥离出来，生成一个生成器对象<class 'generator'>。
2. 父节点与祖先节点
 parent：返回父节点 tag。
 parents：返回祖先节点，返回一个生成器对象。
3. 兄弟节点
兄弟节点是处于同一层级的节点，节点不存在则返回 None。
 next_sibling：下一个兄弟节点。
 previous_sibling：上一个兄弟节点。
所有兄弟节点 next_siblings 和 previous_sibling，返回一个生成器对象。
4. 前后节点
 next_element：下一个节点。
 previous_element：上一个节点。
所有前后节点 next_elements 和 previous_elements，返回一个生成器对象。

上一篇：python爬虫最全教程爬虫python视频教程超详细实战攻略快速入门

下一篇：没有了