python 爬虫教程pdf书python 爬虫教程 视频爬虫教程 requests
下载地址 https://share.weiyun.com/0UhC6msn
资料目录 30个小时搞定Python网络爬虫视频课程(全套详细版) Python网络爬虫工程师系列培训视频课程(65集全) 廖雪峰商业爬虫(含课件、案例和练习) 零基础Python实战 四周实现爬虫网站 《Python 3网络爬虫开发实战 》崔庆才著.pdf 《Python网络爬虫从入门到实践》 庄培杰编著.pdf Python 3爬虫、数据清洗与可视化实战_零一等编著.pdf Python3网络爬虫数据采集 陶俊杰 翻译.pdf Python爬虫开发与项目实战 范传辉 编著.pdf Python爬虫大数据采集与挖掘-微课视频版 曹剑平 编著.pdf python网络爬虫从入门到实践 唐松等.pdf 网络爬虫-Python和数据分析 王澎著.pdf 用Python写网络爬虫 李斌 翻译.pdf 自己动手写网络爬虫 罗刚等 编著.pdf Python项目案例开发从入门到实战:爬虫、游戏和机器学习 by 郑秋生 夏敏捷 举例 爬取音频 这里可以把请求的链接复制到浏览器中打开,https://res.wx.qq.com/voice/getvoice? mediaid=MzA4MzE0NjE3Ml8yNjU1NDgxOTU3&voice_type=1,看能否正常打开,如图 3.29所示,音频可以正常播放。 图 3.29 音频可播放 接下来我们来看 URL 的构成规则,不难发现 mediaid 属性,在 mpvoice 节点里也有这个属性,所以我们要做的事情就是提取标签中的 voice_encode_fileid,然后保存为一个 MP3文件。部分代码如下: import time # 测试文章的URL test_url = 'https://mp.weixin.qq.com/s/JHioeDcopm-98R5lGVemqw' # 语音获取的URL music_res_url = 'http://res.wx.qq.com/voice/getvoice' # 解析获得音频id def get_sound_id(content): sound_list = content.xpath("//mpvoice/@voice_encode_fileid") for sound in sound_list: download_sound(sound) # 下载音频的方法 def download_sound(file_id): try: sound_resp = requests.get(music_res_url, params={'mediaid': file_id, 'voice_type': '1'}) if sound_resp is not None: music_name = str(int(time.time())) + '.mp3' # 使用当前时间戳作为音频名称 print("开始下载音频: " + sound_resp.url) with open(music_name, "wb+") as f: f.write(sound_resp.content) print("音频下载完成:" + music_name) except Exception as reason: print(str(reason)) if __name__ == '__main__': resp = requests.get(url=test_url, headers=headers).text html = etree.HTML(resp) get_sound_id(html) 代码执行结果如下: 开始下载音频: http://res.wx.qq.com/voice/getvoice?mediaid =MzA4MzE0NjE3Ml8yNjU1N DgxOTU3&voice_type=1 音频下载完成:1534299801.mp3
|