写一个能在豆瓣爬取1w条数据的python代码
时间: 2024-12-02 09:18:52 浏览: 5
豆瓣电影信息Python爬虫存入MongoDB.一分钟1W条数据
3星 · 编辑精心推荐
在Python中编写一个能从豆瓣爬取大约10,000条数据的脚本通常需要使用网络爬虫库,比如`requests`和`BeautifulSoup`或者更现代的`selenium`和`pandas`处理数据。这里提供一个基本的示例,假设我们想要抓取书籍的信息:
```python
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd
# 定义目标URL和要保存的CSV文件名
base_url = 'https://book.douban.com/top250'
csv_filename = 'douban_books_10k.csv'
def fetch_data(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
# 解析HTML结构,找到书籍列表
items = soup.find_all('div', class_='info')
data = []
for item in items[:10000]: # 注意实际抓取的数量可能会有限制
title = item.h2.a['title']
rating = float(item.find('span', class_='rating_num').text)
link = base_url + item.h2.a['href']
data.append({
'title': title,
'rating': rating,
'link': link
})
return data
def save_to_csv(data, filename):
df = pd.DataFrame(data)
df.to_csv(filename, index=False)
data = fetch_data(base_url)
save_to_csv(data, csv_filename)
阅读全文