用python从百度网站爬取200条数据
时间: 2023-08-16 08:03:39 浏览: 54
以下是一个示例代码,可以从百度新闻网站上爬取前 200 条新闻数据并打印出来:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://news.baidu.com/' # 指定要爬取的网站
response = requests.get(url) # 发送 GET 请求获取网站内容
soup = BeautifulSoup(response.text, 'html.parser') # 使用 BeautifulSoup 解析网站内容
# 从网站上获取前 200 条新闻数据
news_list = []
for item in soup.find_all('a', class_='title', href=True)[:200]:
title = item.text.strip()
link = item['href']
news_list.append({'title': title, 'link': link})
# 打印获取到的新闻数据
for news in news_list:
print(news['title'], news['link'])
```
这里假设要爬取的新闻数据是以 `<a>` 标签的 `class` 属性为 `title` 的元素为一条数据的形式呈现的。我们可以通过 `soup.find_all()` 方法获取到所有符合条件的元素,并在循环中逐个解析数据。由于本例只需要获取前 200 条数据,我们可以通过 Python 的切片语法 `[:200]` 来限制循环次数。最后将获取到的新闻数据存储在一个列表中,并逐个打印出来。