python爬虫爬取电影
时间: 2023-11-08 18:49:49 浏览: 123
Python爬虫可以用于爬取电影信息以及其他网页数据。根据提供的引用内容,以下是一个使用Python爬虫爬取电影信息的示例代码:
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36 Edg/98.0.1108.62'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='info')
for movie in movies:
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
print(f"电影名: {title},评分: {rating}")
相关问题
python爬虫爬取电影源码
当然可以!以下是一个简单的示例代码,你可以使用Python的requests库和BeautifulSoup库来实现爬取电影信息的功能:
```python
import requests
from bs4 import BeautifulSoup
def get_movie_links(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
links = []
for link in soup.find_all('a'):
href = link.get('href')
if href and 'movie' in href:
links.append(href)
return links
def get_movie_info(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.find('h1').text.strip()
rating = soup.find('span', class_='rating').text.strip()
description = soup.find('div', class_='description').text.strip()
return {
'title': title,
'rating': rating,
'description': description
}
base_url = 'https://www.example.com/movies/'
movie_links = get_movie_links(base_url)
for link in movie_links:
movie_url = base_url + link
movie_info = get_movie_info(movie_url)
print(movie_info)
```
请注意,上述代码中的 `base_url` 应该替换为你要爬取的电影网站的实际URL,同时你可能需要根据实际情况进行适当的修改和优化。另外,请确保你遵守网站的爬取规则和法律法规。
python爬虫爬取电影资源
要爬取电影资源,你需要了解一些网站的结构和内容。常见的电影资源网站包括BT天堂、迅雷看看、猫咪等。这些网站都有自己的搜索引擎,可以按照关键词搜索电影资源。
下面是一个简单的Python爬虫示例,可以爬取BT天堂上的电影资源:
```python
import requests
from bs4 import BeautifulSoup
# 搜索关键词
keyword = '复仇者联盟'
# 搜索页面的URL
url = 'https://www.bttt.la/search/{}.html'.format(keyword)
# 发送请求获取页面内容
response = requests.get(url)
# 使用BeautifulSoup解析页面
soup = BeautifulSoup(response.content, 'html.parser')
# 找到搜索结果列表
results = soup.find_all('div', class_='search-item')
# 遍历搜索结果并输出
for result in results:
title = result.find('a', class_='item-title').text.strip()
link = result.find('a', class_='item-title')['href']
size = result.find('span', class_='item-size').text.strip()
print(title, link, size)
```
这个示例中,我们首先指定要搜索的关键词,然后构造搜索页面的URL。我们使用requests库发送请求,得到页面内容,再使用BeautifulSoup解析页面内容。我们找到搜索结果列表,遍历搜索结果,然后输出每个搜索结果的标题、链接和大小。
注意,这个示例只是一个简单的演示,如果你要爬取电影资源,请遵守法律法规,不要侵犯版权。
阅读全文