网页源代码模板如下: <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"/> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:137031381]2014年4月20日 03:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是dffwerwer天吧! <p> ()</p> [talkid:137031382]2014年4月22日 04:45:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 音频 :[<a href="files/24434sfsfsjdfrhf_n.m4a"]>音频</a> <p> ()</p> [talkid:137031383]2014年4月23日 04:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 图片 :[<a href="files/f/f123ftrtrhf_n.jpg"]>图片</a> <p> ()</p> [talkid:137031384]2014年4月24日 05:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已方式方法方式 <p> ()</p> [talkid:137031385]2014年4月25日 06:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我而对方是否的天吧! <p> ()</p> </body> </html> 利用python爬虫,从中爬取ID、时间、发送号码、接受号码、内容,其中内容提取“发送”或“中发言”后的字符串(包括链接地址)
时间: 2023-08-14 12:01:43 浏览: 64
40个有创意的html+css网页源代码模板.rar
5星 · 资源好评率100%
您可以使用Python的正则表达式库(re)来提取目标字符串中的ID、时间、发送号码、接收号码和内容。以下是一个示例代码段,演示如何使用爬虫爬取网页源代码并提取所需信息:
```python
import re
import requests
# 发起HTTP请求获取网页源代码
url = "http://www.example.com" # 替换为您要爬取的网页地址
response = requests.get(url)
html_content = response.text
# 使用正则表达式提取目标信息
pattern = r'\[talkid:(\d+)\](.*?)</a>.*?(\d+年\d+月\d+日 \d+:\d+:\d+) ,.*?<span.*?>(.*?)</span>.*?<span.*?>(.*?)</span>(.*?)<p>\s+\(\)</p>'
matches = re.findall(pattern, html_content)
# 打印提取的结果
for match in matches:
talk_id = match[0]
content = match[1]
timestamp = match[2]
sender = match[3]
receiver = match[4]
print("ID:", talk_id)
print("时间:", timestamp)
print("发送号码:", sender)
print("接收号码:", receiver)
print("内容:", content)
print()
```
请注意,上述示例中的正则表达式模式是根据您给出的网页源代码模板进行了调整的。如果您的实际情况有所不同,您可能需要根据实际情况调整正则表达式模式。
同时,请确保您已经安装了Python的requests和re库。可以使用以下命令进行安装:
```
pip install requests
```
```
pip install regex
```
希望这可以帮助到您!如有其他问题,请随时提问。
阅读全文