首页写一个脚本，可以对某网站进行遍历，提取所有涉及姓名职业的信息，并存入txt

写一个脚本，可以对某网站进行遍历，提取所有涉及姓名职业的信息，并存入txt

时间: 2024-03-27 08:39:27 浏览: 60

以下是一个Python脚本示例，可以对某网站进行遍历，提取所有涉及姓名和职业的信息，并保存到txt文件中： ```python import requests from bs4 import BeautifulSoup url = "https://example.com" # 目标网站的URL keywords = ["name", "occupation"] # 涉及姓名和职业的关键词列表 result = "" # 存储结果的字符串 # 遍历网站 def traverse_website(url): global result res = requests.get(url) soup = BeautifulSoup(res.text, "html.parser") # 查找包含关键词的标签 for tag in soup.find_all(lambda tag: tag.name == "div" and any(word in tag.text for word in keywords)): result += tag.text.strip() + "\n" # 把结果添加到字符串中 # 遍历所有链接 for link in soup.find_all("a"): new_url = link.get("href") if new_url.startswith("http"): traverse_website(new_url) # 递归访问链接 # 调用遍历函数，并保存结果到文件 traverse_website(url) with open("result.txt", "w", encoding="utf-8") as f: f.write(result) ``` 您可以根据实际需要修改和优化代码，比如添加异常处理、加入多线程等等。

阅读全文