利用python采取正则表达式爬取豆瓣观影数据采集代码
时间: 2023-07-26 09:19:54 浏览: 156
python爬虫使用正则爬取网站的实现
以下是一个简单的示例代码,用于从豆瓣电影的网页上爬取电影的名称、评分等信息:
```python
import requests
import re
# 豆瓣电影Top250的URL
url = 'https://movie.douban.com/top250'
# 发送HTTP请求,获取HTML内容
response = requests.get(url)
html = response.text
# 使用正则表达式匹配电影信息
pattern = re.compile(r'<span class="title">(.*)</span>.*<span class="rating_num" property="v:average">(.*)</span>')
results = pattern.findall(html)
# 输出电影信息
for result in results:
name, rating = result
print(f'电影名称:{name},评分:{rating}')
```
该代码使用了requests库发送HTTP请求,并使用正则表达式匹配HTML内容中的电影信息。在输出电影信息时,使用了f字符串,这是Python 3.6及以上版本新增的一种格式化字符串的方式,可以在字符串中直接使用变量。
需要注意的是,豆瓣网页的结构可能会不定期变化,因此该代码的正则表达式可能需要根据实际情况进行调整。
阅读全文