爬虫爬取豆瓣电影top250国家,re compile
时间: 2024-10-25 11:17:41 浏览: 10
Python爬虫——爬取豆瓣电影Top250代码实例
5星 · 资源好评率100%
爬虫爬取豆瓣电影Top250的信息通常会涉及HTTP请求、HTML解析以及正则表达式(re.compile)的使用。首先,你需要从豆瓣电影网站获取相关的数据,这通常通过发送GET请求并抓取返回的HTML内容完成。然后,你会寻找包含电影信息的HTML标签,例如标题、评分等,并使用正则表达式(re.compile()函数用于编译正则模式)来匹配和提取你需要的数据。
举个例子,如果你的目标是从页面的HTML中找到每个电影的标题,你可以这样做:
```python
import requests
from bs4 import BeautifulSoup
import re
# 编译正则表达式,匹配电影标题
title_regex = re.compile(r'<span class="title">(.*?)</span>')
def get_douban_movies(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 使用re.compile匹配找到所有电影标题
titles = title_regex.findall(str(soup))
return titles
# 调用函数获取豆瓣Top250的电影标题列表
top_250_movies = get_douban_movies('https://movie.douban.com/top250/')
```
在这个示例中,`re.compile(r'<span class="title">(.*?)</span>')`是将HTML中的电影标题部分(假设它包含在一个class为"title"的`<span>`标签里)作为正则模式编译。`.*?`是一个非贪婪模式,表示尽可能少地匹配字符直到遇到下一个目标。
阅读全文