手机版 | 登陆 | 注册 | 留言 | 设首页 | 加收藏
当前位置: 网站首页 > python教程 > 文章 当前位置: python教程 > 文章

python爬虫入门教程书籍大纲python爬虫入门教程(非常详细)pdf

时间:2022-05-13    点击: 次    来源:网络    作者:佚名 - 小 + 大

python爬虫入门教程书籍大纲python爬虫入门教程(非常详细)pdf


下载地址

https://share.weiyun.com/0UhC6msn


资料目录
30个小时搞定Python网络爬虫视频课程(全套详细版)
Python网络爬虫工程师系列培训视频课程(65集全)
廖雪峰商业爬虫(含课件、案例和练习)
零基础Python实战 四周实现爬虫网站
《Python 3网络爬虫开发实战 》崔庆才著.pdf
《Python网络爬虫从入门到实践》 庄培杰编著.pdf
Python 3爬虫、数据清洗与可视化实战_零一等编著.pdf
Python3网络爬虫数据采集 陶俊杰 翻译.pdf
Python爬虫开发与项目实战 范传辉 编著.pdf
Python爬虫大数据采集与挖掘-微课视频版 曹剑平 编著.pdf
python网络爬虫从入门到实践  唐松等.pdf
网络爬虫-Python和数据分析 王澎著.pdf
用Python写网络爬虫 李斌 翻译.pdf
自己动手写网络爬虫 罗刚等 编著.pdf
Python项目案例开发从入门到实战:爬虫、游戏和机器学习 by 郑秋生 夏敏捷


举例

边界
正则表达式中的边界规则如表 3.7 所示。
表 3.7 正则边界规则
字 符  作 用
^  字符串开头
$  字符串结尾
\b  单词边界,即单词和空格间的位置,如'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'
\B  非单词边界,和上面的\b 相反
\A  匹配字符串的开始位置
\Z  匹配字符串的结束位置

分组
用()表示的就是要提取的分组,一般用于提取子串,如^(\d{3})-(\d{3,8})$,从匹配的字符串中提取出区号和本地号码,具体规则如表 3.8 所示。
表 3.8 正则分组规则
字 符  作 用
l  匹配左右任意一个表达式
(re)  匹配括号内的表达式,也表示一个组
(?:re)  同上,但是不表示一个组
(?P<name>)
分组起别名,group 可以根据别名取出,如(?P<first>\d) match 后的结果调用 m.group('first')可以拿到第一个分组中匹配的结果
(?=re)
前向肯定断言,如果当前的正则表达式在当前位置成功匹配,则代表成功,否则失败。一旦该部分正则表达式被匹配引擎尝试过,就不会继续进行匹配了,剩下的模式在此断言开始的地方继续尝试(?!re)  前向否定断言,作用与上面的相反
(?<=re)  后向肯定断言,作用和(?=re)相同,只是方向相反
(?<!re)  后向否定断言,作用与(?!re)相同,只是方向相反

group()方法与其他方法详解
如果将整个表达式作为一个组,可以使用 group(0)或 group();如果作为多个分组,可以传入对应组的序号,获取对应匹配的子串,代码示例如下,如下面的例子:
import re
ret = re.match(r'^(\d{4})-(\d{3,8})$','0756-3890993')
print(ret.group())
print(ret.group(0))
print(ret.group(1))
print(ret.group(2))
代码执行结果如下:
0756-3890993
0756-3890993
0756
3890993
除 group()方法外,还有以下四个常用的方法。
 groups():从 group(1)开始往后的所有的值,返回一个元组。
 start():返回匹配的开始位置。
 end():返回匹配的结束位置。
 span():返回一个元组,表示匹配位置(开始,结束)。

上一篇:python爬虫入门教程(二):开始一个简单的爬虫python爬虫入门41

下一篇:没有了

推荐阅读
声明 | 联系我们 | 关于我们
备案ICP编号  |   QQ:2151239526  |  地址:北京市东城区  |  电话:16605168200  |