手机版 | 登陆 | 注册 | 留言 | 设首页 | 加收藏
当前位置: 网站首页 > python教程 > 文章 当前位置: python教程 > 文章

python爬虫最全教程爬虫python视频教程超详细实战攻略快速入门

时间:2022-05-12    点击: 次    来源:网络    作者:佚名 - 小 + 大

python爬虫最全教程爬虫python视频教程超详细实战攻略快速入门


下载地址

https://share.weiyun.com/0UhC6msn


资料目录
30个小时搞定Python网络爬虫视频课程(全套详细版)
Python网络爬虫工程师系列培训视频课程(65集全)
廖雪峰商业爬虫(含课件、案例和练习)
零基础Python实战 四周实现爬虫网站
《Python 3网络爬虫开发实战 》崔庆才著.pdf
《Python网络爬虫从入门到实践》 庄培杰编著.pdf
Python 3爬虫、数据清洗与可视化实战_零一等编著.pdf
Python3网络爬虫数据采集 陶俊杰 翻译.pdf
Python爬虫开发与项目实战 范传辉 编著.pdf
Python爬虫大数据采集与挖掘-微课视频版 曹剑平 编著.pdf
python网络爬虫从入门到实践  唐松等.pdf
网络爬虫-Python和数据分析 王澎著.pdf
用Python写网络爬虫 李斌 翻译.pdf
自己动手写网络爬虫 罗刚等 编著.pdf
Python项目案例开发从入门到实战:爬虫、游戏和机器学习 by 郑秋生 夏敏捷


举例

Requests 重定向与请求历史
除了 HEAD 请求,Requests 会自动处理所有重定向,可以在执行请求时使用allow_redirects=False 禁止重定向,也可以使用响应对象的 history 属性来追踪请求历史。该属性是一个 Response 对象的列表,该对象列表按照请求时间的先后顺序进行排序。

Requests 错误与异常处理
使用 Requests 的常见异常如下:
 遇到网络问题,会抛出 requests.ConnectionError 异常。
  请求超时,会抛出 requests.Timeout 异常。
  请求超过了设定的最大重定向次数,会抛出 requests.TooManyRedirects 异常。
  HTTP 错误,会抛出 requests.HTTPError 异常。
  URL 缺失,会抛出 requests.URLRequired 异常。
  连接远程服务器超时,会抛出 requests.ConnectTimeout 异常。
另外,Requests 显式抛出的异常都继承自 requests.exceptions.RequestException。

Requests Session 会话对象
用于跨请求保持一些参数,最常见的就是保留 Cookies,Session 对象还提供了 Cookies持久化和连接池功能。Session 使用代码示例如下:
s = request.Session() # 建立会话
s.post('http://xxx.login',data={'xx':'xx'}) # 登录网址
s.get('http://xxx.user') # 登录后才能访问的网址
s.close() # 关闭会话

Requests SSL 证书验证
现在大部分站点都采用 HTTPS,不可避免会涉及证书问题。如果遇到 12306 这种自发CA 证书的站点,会抛出 requests.exception.SSLError 异常。可以添加参数 verify=False,但是设置后还是会有下面这样的提示:
InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate
verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.
html#ssl-warnings InsecureRequestWarning)
此时还需要添加 urllib3.disable_warnings(),也可以通过 cert 参数放入证书路径。代码示例如下:
import requests
# 忽略证书
from requests.packages import urllib3
urllib3.disable_warnings()
resp = requests.get("https://www.12306.cn",verify=False)
print(response.status_code)
# 设置本地证书
resp = requests.get('https://www.12306.cn', cert=('**.crt', '**.key'))

上一篇:python网页爬虫教程代码用python爬虫爬取网页信息抓取网站数据

下一篇:没有了

推荐阅读
声明 | 联系我们 | 关于我们
备案ICP编号  |   QQ:2151239526  |  地址:北京市东城区  |  电话:16605168200  |