如何使用python批量爬取今日头条网页端的数据,并保存到文件中
时间: 2024-04-30 18:23:08 浏览: 108
Python基于pandas爬取网页表格数据
5星 · 资源好评率100%
以下是一个基本的Python代码示例,可用于批量爬取今日头条网页端的数据并保存到文件中:
```python
import requests
import json
# 设置请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
# 定义要爬取的关键词
keyword = "美食"
# 构造URL
url = 'https://www.toutiao.com/api/search/content/?aid=24&app_name=web_search&offset={}&format=json&keyword={}&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis×tamp=1623699334668'
# 定义要爬取的页数
num_pages = 5
# 定义保存文件的路径
file_path = "toutiao_data.txt"
# 循环爬取每一页的数据
for i in range(num_pages):
# 构造当前页的URL
cur_url = url.format(i * 20, keyword)
# 发送请求并获取响应
response = requests.get(cur_url, headers=headers)
# 解析响应中的JSON数据
data = json.loads(response.text)
# 获取当前页的所有新闻
news_list = data['data']
# 遍历每条新闻并保存到文件中
for news in news_list:
# 获取新闻标题和内容
title = news['title']
content = news['abstract']
# 将新闻标题和内容保存到文件中
with open(file_path, 'a', encoding='utf-8') as f:
f.write(title + "\n" + content + "\n\n")
print("数据爬取完成!")
```
此代码将爬取包含关键词“美食”的头条新闻,并将新闻标题和内容保存到文本文件中。您可以根据需要调整代码,例如更改要爬取的关键词、页数、保存的文件路径等。
阅读全文