用python从网站爬取200条数据
时间: 2023-08-16 17:03:39 浏览: 89
首先,需要使用 Python 的 requests 库和 Beautiful Soup 库进行网站数据的爬取和解析。以下是一个简单的示例代码,可以从指定网站上爬取前 200 条数据并打印出来:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://example.com' # 指定要爬取的网站
response = requests.get(url) # 发送 GET 请求获取网站内容
soup = BeautifulSoup(response.text, 'html.parser') # 使用 BeautifulSoup 解析网站内容
# 从网站上获取前 200 条数据
data_list = []
for item in soup.find_all('div', class_='item')[:200]:
title = item.find('h3', class_='title').text.strip()
content = item.find('div', class_='content').text.strip()
data_list.append({'title': title, 'content': content})
# 打印获取到的数据
for data in data_list:
print(data['title'], data['content'])
```
这里假设要爬取的网站上的数据是以 `<div>` 标签的 `class` 属性为 `item` 的元素为一条数据的形式呈现的。我们可以通过 `soup.find_all()` 方法获取到所有符合条件的元素,并在循环中逐个解析数据。由于本例只需要获取前 200 条数据,我们可以通过 Python 的切片语法 `[:200]` 来限制循环次数。最后将获取到的数据存储在一个列表中,并逐个打印出来。