采集网页里的所有域名,包括a标签和文本域名,python代码案例
时间: 2023-04-02 17:05:05 浏览: 130
python程序:顶级域名获取所有host,获取网页信息 keyword,title,describle等信息
你好,以下是回答:
可以使用Python中的BeautifulSoup库和正则表达式来实现采集网页中的所有域名。具体代码如下:
```python
import re
import requests
from bs4 import BeautifulSoup
url = "https://www.example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# 采集a标签中的域名
for link in soup.find_all("a"):
href = link.get("href")
if href:
domain = re.findall(r"(?<=://)[\w\.-]+", href)
if domain:
print(domain[])
# 采集文本中的域名
text = soup.get_text()
domains = re.findall(r"(?<=://)[\w\.-]+", text)
for domain in domains:
print(domain)
```
以上代码可以采集指定网页中所有a标签中的域名和文本中的域名,并输出到控制台。当然,你也可以将其保存到文件中或者进行其他处理。
阅读全文