网页源代码模板如下: <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"/> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:137031381]2014年4月20日 03:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是dffwerwer天吧! <p> ()</p> [talkid:137031382]2014年4月22日 04:45:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 音频 :[<a href="files/24434sfsfsjdfrhf_n.m4a"]>音频</a> <p> ()</p> [talkid:137031383]2014年4月23日 04:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 图片 :[<a href="files/f/f123ftrtrhf_n.jpg"]>图片</a> <p> ()</p> [talkid:137031384]2014年4月24日 05:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已方式方法方式 <p> ()</p> [talkid:137031385]2014年4月25日 06:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我而对方是否的天吧! <p> ()</p> </body> </html> 利用python爬虫,提取源代码字符串,并从每行body中爬取[<a href=后的链接地址,如果没有则将该行链接地址设置为NONE
时间: 2023-08-14 20:01:42 浏览: 111
40个有创意的html+css网页源代码模板.rar
5星 · 资源好评率100%
您可以使用Python的正则表达式模块re来提取源代码字符串并从每行body中爬取链接地址。下面是一个示例代码,演示如何使用Python爬虫提取源代码字符串并从每行body中爬取链接地址:
```python
import re
html = '''
<html>
<meta http-equiv="Content=-Type" content="text/html; charset=utf-8"/>
<head>
<link href="http://192.167.1.101/hint.css" rel="stylesheet"></link>
</head>
<body>[talkid:137031381]2014年4月20日 03:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是dffwerwer天吧!
<p>
()</p>
[talkid:137031382]2014年4月22日 04:45:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 音频 :[<a href="files/24434sfsfsjdfrhf_n.m4a"]>音频</a>
<p>
()</p>
[talkid:137031383]2014年4月23日 04:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 图片 :[<a href="files/f/f123ftrtrhf_n.jpg"]>图片</a>
<p>
()</p>
[talkid:137031384]2014年4月24日 05:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已方式方法方式
<p>
()</p>
[talkid:137031385]2014年4月25日 06:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我而对方是否的天吧!
<p>
()</p>
</body>
</html>
'''
# 提取链接地址的正则表达式
link_regex = r'<a href="([^"]+)">'
# 提取源代码字符串
source_code = re.findall(r'<body>(.*?)</body>', html, re.DOTALL)[0]
# 从每行body中爬取链接地址
links = re.findall(link_regex, source_code)
links = [link if link.startswith('http') else 'NONE' for link in links]
print(links)
```
运行以上代码,将会输出链接地址的列表,如果没有链接地址,则将该行链接地址设置为"NONE"。您可以根据需要进行进一步的处理或保存。希望能对您有所帮助!
阅读全文