写一个脚本,可以对某网站进行遍历,提取所有涉及姓名职业的信息,并存入txt
时间: 2024-03-27 11:39:27 浏览: 56
test_record_images.md
以下是一个Python脚本示例,可以对某网站进行遍历,提取所有涉及姓名和职业的信息,并保存到txt文件中:
```python
import requests
from bs4 import BeautifulSoup
url = "https://example.com" # 目标网站的URL
keywords = ["name", "occupation"] # 涉及姓名和职业的关键词列表
result = "" # 存储结果的字符串
# 遍历网站
def traverse_website(url):
global result
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
# 查找包含关键词的标签
for tag in soup.find_all(lambda tag: tag.name == "div" and any(word in tag.text for word in keywords)):
result += tag.text.strip() + "\n" # 把结果添加到字符串中
# 遍历所有链接
for link in soup.find_all("a"):
new_url = link.get("href")
if new_url.startswith("http"):
traverse_website(new_url) # 递归访问链接
# 调用遍历函数,并保存结果到文件
traverse_website(url)
with open("result.txt", "w", encoding="utf-8") as f:
f.write(result)
```
您可以根据实际需要修改和优化代码,比如添加异常处理、加入多线程等等。
阅读全文