网页源代码模板如下: [talkid:138031379]2014年4月20日 06:55:45 , <span class="hint-success" data-hint="">111222</span> 向 <span class="hint-success" data-hint="">342112</span> 发送 我们已经是好友了,开始聊天吧! [talkid:137031381]2014年4月20日 03:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是好友了,开始聊天吧! [talkid:137031382]2014年4月22日 04:45:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:137031383]2014年4月23日 04:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:137031384]2014年4月24日 05:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是好友了,开始聊天吧! [talkid:137031385]2014年4月25日 06:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是好友了,开始聊天吧! [talkid:138031387]2014年4月20日 04:45:45 , <span class="hint-success" data-hint="">2323234</span> 向 <span class="hint-success" data-hint="">543521</span> 发送 音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:138031388]2014年4月20日 04:55:45 , <span class="hint-success" data-hint="">2323234</span> 向 <span class="hint-success" data-hint="">344532</span> 发送 图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:138031389]2014年4月20日 05:55:45 , <span class="hint-success" data-hint="">2323234</span> 向 <span class="hint-success" data-hint="">323345</span> 发送 1112232 [talkid:138031390]2014年4月20日 06:55:45 , <span class="hint-success" data-hint="">2323234</span> 向 <span class="hint-success" data-hint="">342114</span> 发送 我们已经是好友了,开始聊天吧! 利用python爬虫,从中爬取ID、时间、发送号码、接收号码、消息(若消息中有文件链接地址则在消息中只输入提取的链接地址)
时间: 2023-10-18 17:04:27 浏览: 137
您可以使用Python的正则表达式模块re来提取您所需的信息。以下是一个示例代码,可以帮助您提取ID、时间、发送号码、接收号码和消息(如果消息中有文件链接地址,则只提取链接地址):
```python
import re
html = """
网页源代码...
"""
# 使用正则表达式匹配所需信息
pattern = r'\[talkid:(.*?)\](.*?) , <span class="hint-success" data-hint="">(.*?)</span> 向 <span class="hint-success" data-hint="">(.*?)</span> 发送 (.*?)$'
matches = re.findall(pattern, html, re.MULTILINE)
# 提取匹配到的信息
for match in matches:
talkid = match[0]
time = match[1]
sender = match[2]
receiver = match[3]
message = match[4]
# 如果消息中有文件链接地址,则只提取链接地址
file_link = re.findall(r'<a href="(.*?)">', message)
if file_link:
message = file_link[0]
# 打印提取的信息
print(f"ID: {talkid}")
print(f"时间: {time}")
print(f"发送号码: {sender}")
print(f"接收号码: {receiver}")
print(f"消息: {message}")
print()
```
请注意,以上代码假设您已将网页源代码存储在`html`变量中。您需要根据实际情况进行调整。
阅读全文