乐学Python编程题答案python编程题题库编程计算体重指数极客晨星
下载地址 https://share.weiyun.com/oKXAf8Zh
资料目录 Python编程基础教学视频 51CTO学院(60集) python编程基础教学视频 乾颐盾系列 Python编程基础 张健 张良均 人民邮电出版社.pdf Phthon编程金典.pdf Python 编程指南.pdf 《Python 编程基础》 教学大纲.pdf 《Python编程入门指南(上下册)》 明日科技.pdf 《小小的Python编程故事》毛雪涛,丁毓峰编著.pdf Python编程初学者指南.pdf Python编程入门经典.pdf 树莓派Python编程入门与实战 第2版.pdf Python编程实战__运用设计模式、并发和程序库创建高质量程序.pdf 《Python编程基础》复习资料.pdf Python编程基础与应用-题库大全.doc Python编程基础张健 , 张良均课后习题及答案.pdf Python程序设计基础及实践(慕课版)郭炜习题答案.pdf 《Python程序设计基础与应用》习题答案.pdf 《Python快速编程入门》——课后题答案.doc Python程序设计基础习题答案与分析.doc python基础试题(含答案).doc Python考试题复习知识点试卷试题.doc Python编程基础.pptx 《Python编程之美:最佳实践指南》by Kenneth Reitz.pdf 《Python编程基础与HTTP接口测试》阿奎 编著.pdf Python编程 从入门到实践 by Eric Matthes.pdf Python编程导论第2版_2018 翻译 陈光欣.pdf Python编程快速上手—让繁琐工作自动化_[美] Al Sweigart 著.pdf 趣学python编程中文版.pdf 举例 请求头部处理 在请求一个网页的内容时,有时会发现,无论通过 GET、POST 或其他请求方式,都会出现 403 错误。这是因为服务器拒绝了你的访问,这是网页为了防止恶意采集信息所使用的反爬虫设置。此时可以通过模拟浏览器的头部信息来进行访问,就能解决以上反爬虫设置的问题。 下面以 requests 模块为例,介绍请求头部处理,具体步骤如下。 (1)通过浏览器的网络监视器查看头部信息。首先通过火狐浏览器打开对应的网页地址,然后按快捷键<Ctrl+Shift+E>打开网络监视器,接着刷新当前页面,网络监视器中将显示如图16.2 所示的数据变化。 图 16.2 网络监视器中显示的数据变化 (2)选中第一条信息,在右侧的“消息头”面板中将显示请求头部信息,复制该信息,如图 16.3 所示。 ① 选中该信息 ② 复制头部信息 图 16.3 复制头部信息 (3)首先创建一个需要爬取的 URL 地址,然后创建头部信息,接着发送网络请求等待响应,最后打印网页源码信息。实现代码如下: 01 import requests 02 url = 'https://www.baidu.com/' # 创建一个需要爬取的 URL 地址 03 # 创建头部信息 04 headers = {'User-Agent':'OW64; rv:59.0) Gecko/20100101 Firefox/59.0'} 05 response = requests.get(url, headers=headers) # 发送网络请求 06 print(response.content) # 以字节流形式打印网页源码
代理服务 在爬取网页的过程中,经常会出现不久前可以爬取的网页现在无法爬取的问题,这是因为你的 IP 被爬取网页的服务器所屏蔽了,此时代理服务可以解决这一麻烦。在设置代理服务时,首先需要找到代理地址,例如,122.114.31.177,对应的端口号为 808,完整的格式为122.114.31.177:808。示例代码如下: 01 import requests 02 03 proxy = {'http': '122.114.31.177:808', 04 'https': '122.114.31.177:8080'} # 设置代理地址与对应的端口号 05 # 对需要爬取的网页发送请求 06 response = requests.get('http://www.mingrisoft.com/', proxies=proxy) 07 print(response.content) # 以字节流形式打印网页源码 注意:由于示例中的代理地址是免费的,所以使用的时间不固定。如果超出使用的时间范围,则该地址将失效。在代理地址失效或错误时,控制台上将显示如图 16.5 所示的错误信息。 图 16.5 代理地址失效或错误所提示的信息
HTML 解析之 BeautifulSoup BeautifulSoup 是一个用于从HTML 和 XML 文件中提取数据的 Python 库。BeautifulSoup模块中的查找提取功能非常强大,而且非常便捷,通常可以节省程序员数小时甚至数天的工作时间。 BeautifulSoup 自动将输入文档转换为 Unicode 编码,将输出文档转换为 UTF-8 编码。通常不需要考虑编码方式,除非文档没有指定一种编码方式,这时,BeautifulSoup 就不能自动识别编码方式了。这时,仅仅需要说明一下原始编码方式就可以了。
|