python爬取今日头条
时间: 2023-10-01 17:12:28 浏览: 195
python脚本爬取某APP视频数据.zip
要爬取今日头条的数据,可以使用 Python 中的 requests 和 beautifulsoup4 库。具体步骤如下:
1. 分析网页结构,找到需要的信息所在的 HTML 标签;
2. 使用 requests 库向网页发送请求,获取网页源代码;
3. 使用 beautifulsoup4 库解析网页源代码,提取需要的信息;
4. 将提取的信息保存到本地文件或数据库中。
下面是一个简单的示例代码,可以爬取今日头条的新闻标题和摘要:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.toutiao.com/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
news_titles = soup.select('.title-box .link-title')
news_abstracts = soup.select('.title-box .abstract')
for title, abstract in zip(news_titles, news_abstracts):
print(title.text.strip(), abstract.text.strip())
```
这段代码首先向今日头条的首页发送请求,获取网页源代码。然后使用 BeautifulSoup 库解析网页源代码,通过 CSS 选择器选取新闻标题和摘要的标签,并将它们保存到两个列表中。最后使用 zip 函数将标题和摘要一一对应,依次输出到控制台。
阅读全文