首页写一个python爬虫爬去喜马拉雅

写一个python爬虫爬去喜马拉雅

时间: 2023-12-31 10:22:37 浏览: 159

以下是一个简单的Python爬虫示例，用于爬取喜马拉雅音频数据： ```python import requests from bs4 import BeautifulSoup import json import csv # 设置请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 获取网页内容 def get_html(url): try: response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: return None except RequestException: return None # 解析网页内容 def parse_html(html): soup = BeautifulSoup(html, 'lxml') # 获取音频数据 audio_list = soup.find_all('div', class_='sound-list _is') data_list = [] for audio in audio_list: data = {} data['title'] = audio.find('a', class_='title')['title'] data['play_count'] = audio.find('span', class_='nb').get_text() data['duration'] = audio.find('span', class_='duration').get_text() data_list.append(data) return data_list # 爬取数据 def crawl_data(): data_list = [] for i in range(1, 11): url = 'https://www.ximalaya.com/yinyue/{}/'.format(i) html = get_html(url) data_list += parse_html(html) return data_list # 将数据保存为json文件 def save_json(data_list): with open('data_json.json', 'w', encoding='utf-8') as f: json.dump(data_list, f, ensure_ascii=False, indent=4) print('json文件保存成功') # 将数据保存为csv文件 def save_csv(data_list): # 表头 title = data_list[0].keys() with open('data_csv.csv', 'w', encoding='utf-8', newline='') as f: writer = csv.DictWriter(f, title) # 写入表头 writer.writeheader() # 批量写入数据 writer.writerows(data_list) print('csv文件保存成功') if __name__ == '__main__': data_list = crawl_data() save_json(data_list) save_csv(data_list) ```

阅读全文

最新推荐

写一个python爬虫爬去喜马拉雅

相关推荐

Python 制作爬取喜马拉雅程序源码

用python写爬虫

用Python写爬虫

Python 爬虫下载喜马拉雅音频文件1

Python 制作爬去喜马拉雅打包好的exe程序

Python爬虫下载喜马拉雅音频：实战解析与代码实现

Python爬虫示例：如何爬取喜马拉雅音频并保存

python爬虫喜马拉雅

python爬虫 喜马拉雅有声书

如何用Python编写一个高效能的爬虫程序来抓取喜马拉雅网站上的音频内容？

python scrapy爬虫代码及填坑

python 爬虫，音频下载，字符处理，文件操作

python小爬虫集锦（百度斗鱼京东人人网内涵段子喜马拉雅果壳网猫眼电影百度贴吧豆瓣等）.zip

【突破反爬虫】喜马拉雅音频-生成xm-sign的js脚本，可用python执行

喜马拉雅音频爬虫神器2021年最新版.py

Python爬虫实战教程与代码集锦

Python项目实践：喜马拉雅音频压缩技术

蜻蜓FM音频爬虫实现与python代码教程

爬虫对喜马拉雅音频爬取学到了哪些

最新推荐

81个Python爬虫源代码+九款开源爬虫工具.doc

Python爬虫 json库应用详解

python爬虫实现POST request payload形式的请求

Python爬虫进阶之多线程爬取数据并保存到数据库

python制作爬虫并将抓取结果保存到excel中

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践

python爬虫喜马拉雅有声书