数据采集 网络爬虫 利用requests爬取豆瓣top250电影片名
时间: 2024-09-27 17:09:22 浏览: 37
爬虫爬取豆瓣电影TOP250源代码
数据采集通常是指从互联网上获取信息的过程,网络爬虫是一种自动化工具,用于抓取网页内容并按照特定规则结构化存储。使用Python库requests可以方便地实现这个过程。以下是利用requests爬取豆瓣Top250电影片名的一个简单示例:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求的URL
url = "https://movie.douban.com/top250"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 找到包含电影名称的部分,这里假设它们在<h3>标签内
movie_titles = soup.find_all('h3', class_='title')
# 提取并打印每个电影的片名
for title in movie_titles:
print(title.text.strip()) # .strip()用于移除换行符等空白字符
else:
print(f"请求失败,状态码:{response.status_code}")
```
注意,实际操作时可能需要处理反爬机制、动态加载的内容等问题,并遵守网站的robots.txt规定。运行此代码前,确保已经安装了requests和BeautifulSoup库。
阅读全文