python爬虫入门教程(非常详细)烟雨江湖药王谷python爬虫入门教程
下载地址 https://share.weiyun.com/0UhC6msn
资料目录 30个小时搞定Python网络爬虫视频课程(全套详细版) Python网络爬虫工程师系列培训视频课程(65集全) 廖雪峰商业爬虫(含课件、案例和练习) 零基础Python实战 四周实现爬虫网站 《Python 3网络爬虫开发实战 》崔庆才著.pdf 《Python网络爬虫从入门到实践》 庄培杰编著.pdf Python 3爬虫、数据清洗与可视化实战_零一等编著.pdf Python3网络爬虫数据采集 陶俊杰 翻译.pdf Python爬虫开发与项目实战 范传辉 编著.pdf Python爬虫大数据采集与挖掘-微课视频版 曹剑平 编著.pdf python网络爬虫从入门到实践 唐松等.pdf 网络爬虫-Python和数据分析 王澎著.pdf 用Python写网络爬虫 李斌 翻译.pdf 自己动手写网络爬虫 罗刚等 编著.pdf Python项目案例开发从入门到实战:爬虫、游戏和机器学习 by 郑秋生 夏敏捷 举例 Beautiful Soup 的四大对象 1. Tag(标签) 如果查找的标签是在所有内容中第一个符合要求的标签,比较常用的两个属性如下。 tag.name:获得标签的名称。 tag.attrs:获取标签内的所有属性,返回一个字典,可以根据键取值,也可以直接调用 get('xxx')获到属性。还有一个方法是根据标签层级的形式查找到标签,如soup.body.div.div.a 就是绝对定位,实用性不高。 2. NavigableString(内部文字) 如果想获取标签的内部文字,可直接调用.string。 3. BeautifulSoup(文档的全部内容) 可以把它当作一个 Tag 对象,只是可以分别获取它的类型、名称,具有一级属性。 4. Comment(特殊的 NavigableString) 这种对象调用.string 来输出内容,会把注释符号去掉,直接把注释里的内容打印出来,需要加以判断,示例如下: if type(soup.a.string)==bs4.element.Comment: print soup.a.string
Beautiful Soup 的各种节点 当目标节点不好定位时,我们可以找到目标节点附近的节点,然后顺藤摸瓜找到目标节点。可以通过下述字段获取附近节点。 1. 子节点与子孙节点 contents:把标签下的所有子标签存入列表,返回列表。 children:和 contents 一样,但是返回的不是一个列表,而是一个迭代器,只能通过循环的方式获取信息,类型是 list_iterator,仅包含 tag 的直接子节点,如果想找出子孙节点,可以使用 descendants,会把所有节点都剥离出来,生成一个生成器对象<class 'generator'>。 2. 父节点与祖先节点 parent:返回父节点 tag。 parents:返回祖先节点,返回一个生成器对象。 3. 兄弟节点 兄弟节点是处于同一层级的节点,节点不存在则返回 None。 next_sibling:下一个兄弟节点。 previous_sibling:上一个兄弟节点。 所有兄弟节点 next_siblings 和 previous_sibling,返回一个生成器对象。 4. 前后节点 next_element:下一个节点。 previous_element:上一个节点。 所有前后节点 next_elements 和 previous_elements,返回一个生成器对象。
|