爬取网站电影爬虫代码
时间: 2024-11-15 13:22:52 浏览: 5
爬虫爬取豆瓣电影TOP250源代码
爬取网站电影信息的代码通常会涉及到网络请求、HTML解析以及数据处理三个步骤。这里以Python语言的简单示例来说明,使用了requests库进行HTTP请求,BeautifulSoup库解析HTML内容:
```python
import requests
from bs4 import BeautifulSoup
def movie_scraper(url):
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含电影信息的部分,例如电影标题、链接等
titles = soup.select('.movie-title') # 假设类名为'movie-title'
links = soup.select('.movie-link') # 假设类名为'movie-link'
for title, link in zip(titles, links):
print("电影标题:", title.get_text())
print("电影链接:", link['href'])
# 根据实际需求提取其他信息,如导演、演员等
else:
print(f"无法访问页面,状态码: {response.status_code}")
# 调用函数并传入目标网站的电影列表页URL
movie_scraper('http://example.com/movie-list')
```
阅读全文