python爬虫爬取今日头条网页数据
时间: 2023-07-09 18:46:21 浏览: 220
python脚本爬取某APP视频数据.zip
要爬取今日头条网页数据,可以使用Python的requests库和BeautifulSoup库。
首先,使用requests库发送GET请求获取网页源代码:
```python
import requests
url = 'https://www.toutiao.com/ch/news_hot/'
response = requests.get(url)
html = response.text
```
接着,使用BeautifulSoup库解析网页源代码,并提取需要的数据:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
titles = soup.find_all('div', {'class': 'title-box'})
for title in titles:
print(title.a.string)
```
上面的代码中,通过`find_all`方法匹配所有class为`title-box`的`div`元素,然后遍历每个元素,提取其中的`a`标签的文本内容,即为新闻标题。
当然,这只是一个简单的示例,实际爬取数据需要考虑到反爬机制和数据清洗等问题。
阅读全文