python爬虫最全教程爬虫python视频教程超详细实战攻略快速入门
下载地址 https://share.weiyun.com/0UhC6msn
资料目录 30个小时搞定Python网络爬虫视频课程(全套详细版) Python网络爬虫工程师系列培训视频课程(65集全) 廖雪峰商业爬虫(含课件、案例和练习) 零基础Python实战 四周实现爬虫网站 《Python 3网络爬虫开发实战 》崔庆才著.pdf 《Python网络爬虫从入门到实践》 庄培杰编著.pdf Python 3爬虫、数据清洗与可视化实战_零一等编著.pdf Python3网络爬虫数据采集 陶俊杰 翻译.pdf Python爬虫开发与项目实战 范传辉 编著.pdf Python爬虫大数据采集与挖掘-微课视频版 曹剑平 编著.pdf python网络爬虫从入门到实践 唐松等.pdf 网络爬虫-Python和数据分析 王澎著.pdf 用Python写网络爬虫 李斌 翻译.pdf 自己动手写网络爬虫 罗刚等 编著.pdf Python项目案例开发从入门到实战:爬虫、游戏和机器学习 by 郑秋生 夏敏捷 举例 Requests 重定向与请求历史 除了 HEAD 请求,Requests 会自动处理所有重定向,可以在执行请求时使用allow_redirects=False 禁止重定向,也可以使用响应对象的 history 属性来追踪请求历史。该属性是一个 Response 对象的列表,该对象列表按照请求时间的先后顺序进行排序。
Requests 错误与异常处理 使用 Requests 的常见异常如下: 遇到网络问题,会抛出 requests.ConnectionError 异常。 请求超时,会抛出 requests.Timeout 异常。 请求超过了设定的最大重定向次数,会抛出 requests.TooManyRedirects 异常。 HTTP 错误,会抛出 requests.HTTPError 异常。 URL 缺失,会抛出 requests.URLRequired 异常。 连接远程服务器超时,会抛出 requests.ConnectTimeout 异常。 另外,Requests 显式抛出的异常都继承自 requests.exceptions.RequestException。
Requests Session 会话对象 用于跨请求保持一些参数,最常见的就是保留 Cookies,Session 对象还提供了 Cookies持久化和连接池功能。Session 使用代码示例如下: s = request.Session() # 建立会话 s.post('http://xxx.login',data={'xx':'xx'}) # 登录网址 s.get('http://xxx.user') # 登录后才能访问的网址 s.close() # 关闭会话
Requests SSL 证书验证 现在大部分站点都采用 HTTPS,不可避免会涉及证书问题。如果遇到 12306 这种自发CA 证书的站点,会抛出 requests.exception.SSLError 异常。可以添加参数 verify=False,但是设置后还是会有下面这样的提示: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage. html#ssl-warnings InsecureRequestWarning) 此时还需要添加 urllib3.disable_warnings(),也可以通过 cert 参数放入证书路径。代码示例如下: import requests # 忽略证书 from requests.packages import urllib3 urllib3.disable_warnings() resp = requests.get("https://www.12306.cn",verify=False) print(response.status_code) # 设置本地证书 resp = requests.get('https://www.12306.cn', cert=('**.crt', '**.key'))
|