将豆瓣电影中的导演和主演分离
时间: 2024-05-10 15:21:07 浏览: 22
可以使用Python的正则表达式和字符串操作来实现将豆瓣电影中的导演和主演分离。
首先,需要从豆瓣电影的页面中获取电影信息的HTML代码。可以使用Python的requests库来发送HTTP请求并获取HTML代码,例如:
```python
import requests
url = "https://movie.douban.com/subject/1292052/"
response = requests.get(url)
html = response.text
```
接着,可以使用正则表达式来匹配导演和主演的信息。以导演为例,可以使用如下的正则表达式:
```python
import re
pattern = '<span class="attrs">导演: (.+?)</span>'
directors = re.findall(pattern, html)
```
这个正则表达式会匹配所有包含“导演: ”前缀的HTML标签,并提取其中的文本信息,得到一个导演列表。类似地,可以使用另一个正则表达式来匹配主演信息:
```python
pattern = '<span class="actor">(.+?)</span>'
actors = re.findall(pattern, html)
```
最终,可以将导演和主演信息输出或保存到文件中:
```python
print("导演:", directors)
print("主演:", actors)
```
完整代码如下:
```python
import requests
import re
url = "https://movie.douban.com/subject/1292052/"
response = requests.get(url)
html = response.text
pattern = '<span class="attrs">导演: (.+?)</span>'
directors = re.findall(pattern, html)
pattern = '<span class="actor">(.+?)</span>'
actors = re.findall(pattern, html)
print("导演:", directors)
print("主演:", actors)
```
阅读全文