爬虫用xpath爬取豆瓣电影top100电影评分代码
时间: 2024-10-18 22:18:05 浏览: 39
用爬虫爬取豆瓣电影TOP250,并用PythonTkinter实现GUI展示与电影信息检索
5星 · 资源好评率100%
XPath是一种用于XML文档和类似结构的选择语言,常用于网页爬虫中选择和提取数据。以下是一个基本的例子,展示如何使用Python的`lxml`库(结合`requests`获取网页内容)来爬取豆瓣电影Top250页面上电影的评分:
```python
import requests
from lxml import etree
def get_douban_ratings():
# 请求豆瓣电影Top250页面
url = "https://movie.douban.com/top250"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
# 检查请求是否成功,设置解析树
if response.status_code == 200:
html_content = response.text
tree = etree.HTML(html_content)
# 使用XPath表达式找到电影评分节点
rating_nodes = tree.xpath('//div[@class="rating_num"]')
ratings = []
for node in rating_nodes:
rating_text = node.text.strip() # 提取文本
ratings.append(float(rating_text)) # 将字符串转为浮点数
return ratings
else:
print(f"Failed to fetch the page. Status code: {response.status_code}")
return []
# 打印并处理结果
top_100_ratings = get_douban_ratings()
for i, rating in enumerate(top_100_ratings[:10], start=1):
print(f"{i}. 电影{str(i)}的评分: {rating}")
阅读全文