<span class="comment-info"> <a class="" href="https://www.douban.com/people/duduxiongzhifu/">嘟嘟熊之父</a> <span>看过</span> <span class="allstar20 rating" title="较差"></span> <span class="comment-time" title="2023-06-02 14:46:24"> 2023-06-02 14:46:24 </span> <span class="comment-location">北京</span>如何提取其中的时间信息
时间: 2023-10-17 09:05:12 浏览: 133
<div class="top">我的网页设计作业</div>
可以使用正则表达式来提取时间信息。示例代码如下:
```python
import re
text = '<span class="comment-info"> <a class="" href="https://www.douban.com/people/duduxiongzhifu/">嘟嘟熊之父</a> <span>看过</span> <span class="allstar20 rating" title="较差"></span> <span class="comment-time" title="2023-06-02 14:46:24"> 2023-06-02 14:46:24 </span> <span class="comment-location">北京</span>'
pattern = r'<span class="comment-time" title="([\d-:\s]+)">'
match = re.search(pattern, text)
if match:
time_info = match.group(1)
print(time_info.strip())
```
输出结果为:`2023-06-02 14:46:24`。
这段代码使用正则表达式`r'<span class="comment-time" title="([\d-:\s]+)">'`匹配`<span>`标签的`title`属性中的时间信息。`([\d-:\s]+)`表示匹配一个或多个数字、连字符`-`、冒号`:`和空格字符`\s`的组合。`re.search()`函数在文本中搜索第一个匹配的模式,并返回一个包含匹配信息的`Match`对象。通过`Match`对象的`group(1)`方法获取第一个捕获组的字符串。最后使用`strip()`方法去除多余的空格字符。
阅读全文