python 爬虫获取豆瓣Top250
时间: 2025-01-05 19:25:52 浏览: 2
### 编写Python爬虫获取豆瓣Top250电影列表
为了实现这一目标,可以采用`requests`库发送HTTP请求并接收网页响应,再借助`BeautifulSoup`解析HTML文档提取所需信息。下面展示一段基础代码片段用于抓取豆瓣Top250页面中的电影名称。
```python
import requests
from bs4 import BeautifulSoup
def fetch_movie_titles():
url = 'https://movie.douban.com/top250'
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='item')
titles = []
for item in items:
title_info = item.find('span', class_='title').get_text()
titles.append(title_info)
return titles[:]
if __name__ == '__main__':
movie_list = fetch_movie_titles()
print(movie_list)
```
这段脚本定义了一个函数`fetch_movie_titles()`,它会访问指定URL地址,并设置合理的浏览器头部信息模拟真实用户的浏览行为以绕过简单的反爬机制[^1]。接着利用`BeautifulSoup`对象定位到包含每部影片详情的HTML标签,从中抽取中文片名存入列表返回给调用方打印输出。
需要注意的是,在实际开发过程中应当遵循网站的服务条款以及robots协议的规定合理合法地开展网络爬取活动;同时考虑到服务器负载等因素适当控制请求频率,避免因过度频繁访问而被封禁IP地址或触发其他安全防护措施[^2]。
阅读全文