豆瓣电影top250正则
时间: 2023-10-24 20:08:21 浏览: 139
您好!豆瓣电影Top250的网页链接是https://movie.douban.com/top250,您可以通过发送HTTP请求并使用正则表达式来提取电影信息。以下是一个示例代码(使用Python):
```python
import requests
import re
url = "https://movie.douban.com/top250"
response = requests.get(url)
html_content = response.text
# 使用正则表达式提取电影信息
pattern = r'<span class="title">(.*?)</span>'
result = re.findall(pattern, html_content)
for i, movie in enumerate(result):
print(f"{i + 1}. {movie}")
```
这段代码将会提取豆瓣电影Top250页面中电影的名称,并打印出来。请注意,这只是一个简单示例,实际情况可能会更复杂,需要根据网页结构和需求进行相应的正则表达式匹配。
相关问题
python爬虫爬取豆瓣电影top250使用正则表达式
以下是使用正则表达式爬取豆瓣电影top250的Python爬虫示例代码:
```python
import re
import requests
from bs4 import BeautifulSoup
def get_movies():
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
movie_list = []
for i in range(0, 10):
link = 'https://movie.douban.com/top250?start=' + str(i * 25)
r = requests.get(link, headers=headers, timeout=10)
soup = BeautifulSoup(r.text, "html.parser")
div_list = soup.find_all('div', class_='hd')
for each in div_list:
movie = each.a.span.text.strip()
movie_list.append(movie)
return movie_list
def main():
movies = get_movies()
for movie in movies:
print(movie)
if __name__ == '__main__':
main()
```
用requests库和正则表达式爬取豆瓣电影top250数据完整代码
在Python中,我们可以使用`requests`库来发送HTTP请求获取网页内容,然后通过`re`(正则表达式)模块来解析和提取所需的数据。下面是一个简单的示例,展示如何爬取豆瓣电影Top250的电影标题和链接:
```python
import requests
from bs4 import BeautifulSoup
import re
# 请求URL
url = "https://movie.douban.com/top250"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 找到电影列表部分
movie_list = soup.select('.item')
# 提取电影信息(这里假设每个电影信息包含标题和链接)
movies_data = []
for movie in movie_list:
title_element = movie.find('span', {'class': 'title'})
link_element = movie.find('a', href=True)
title = title_element.text.strip() if title_element else ''
link = link_element['href'] if link_element else ''
movies_data.append({
'title': title,
'link': link
})
# 输出或保存数据
for movie in movies_data:
print(f"电影标题: {movie['title']}")
print(f"链接: {movie['link']}\n")
else:
print("请求失败,状态码:", response.status_code)
阅读全文