Python爬取肖申克的救赎相关信息
时间: 2023-08-27 18:59:35 浏览: 133
好的,以下是一个简单的Python爬虫示例代码,可以爬取与《肖申克的救赎》相关的信息:
```python
import requests
from bs4 import BeautifulSoup
# 发送请求获取网页内容
url = 'https://www.baidu.com/s?wd=%E8%82%96%E7%94%B3%E5%85%8B%E7%9A%84%E6%95%91%E8%B5%8E'
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找与肖申克的救赎相关的信息
results = soup.find_all('a', text='肖申克的救赎')
# 输出结果
for result in results:
print(result['href'])
```
这个示例代码使用了requests库发送请求,使用BeautifulSoup库解析网页内容,并查找与《肖申克的救赎》相关的信息。你可以根据自己的需求修改代码,例如,可以将搜索引擎改为豆瓣、知乎等,以获取更加详细的信息。
相关问题
python爬取豆瓣影评
好的,可以使用 Python 中的 requests 和 BeautifulSoup 库来实现这个功能。
首先,需要用 requests 库发送 HTTP 请求获取网页内容。可以使用如下代码:
```python
import requests
url = "https://movie.douban.com/subject/1292052/comments?start=0&limit=20&sort=new_score&status=P"
response = requests.get(url)
html = response.text
```
这里以电影《肖申克的救赎》为例,获取该电影的影评页面。这个页面的 URL 中包含了几个参数,如 start、limit 和 sort 等,可以根据需要进行修改。
接下来,可以使用 BeautifulSoup 库解析 HTML 页面,提取需要的信息。可以使用如下代码:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
comments = soup.find_all("span", class_="short")
for comment in comments:
print(comment.text)
```
这里使用了 find_all 方法查找所有 class 属性为 "short" 的 span 标签,即影评内容所在的标签。然后使用 text 属性获取标签中的文本内容,并输出到控制台。
这样就可以实现简单的豆瓣影评爬取功能了。当然,在实际应用中需要注意一些法律和道德规范,避免侵犯他人的权益。
python爬取豆瓣电影短评
要使用Python爬取豆瓣电影短评,可以按照以下步骤进行:
1. 导入必要的库,包括requests、BeautifulSoup和pandas。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
```
2. 定义一个函数,用于获取指定电影的短评。该函数需要传入电影的URL和要获取的页数。
```python
def get_comments(url, pages):
comments = []
for i in range(pages):
# 构造URL
url_page = url + 'comments?start=' + str(i * 20) + '&limit=20&status=P&sort=new_score'
# 发送请求
response = requests.get(url_page)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 获取评论
items = soup.find_all('div', class_='comment-item')
for item in items:
comment = item.find('span', class_='short').text.strip()
comments.append(comment)
return comments
```
3. 调用该函数获取指定电影的短评,并将结果保存到CSV文件中。
```python
# 电影《肖申克的救赎》的URL
url = 'https://movie.douban.com/subject/1292052/'
# 获取短评
comments = get_comments(url, 5)
# 将结果保存到CSV文件中
df = pd.DataFrame({'comments': comments})
df.to_csv('comments.csv', index=False)
```
阅读全文