首页请你使用网络爬虫技术自己爬取一个网页，必须包括网页中的普通文本采集，网页中的超链接文本采集

请你使用网络爬虫技术自己爬取一个网页，必须包括网页中的普通文本采集，网页中的超链接文本采集

时间: 2024-04-06 17:32:22 浏览: 157

好的，以下是使用 Python 的 requests 库和 BeautifulSoup 库进行网页爬取的代码示例： ```python import requests from bs4 import BeautifulSoup # 指定要爬取的网页链接 url = "https://www.example.com/" # 发送 HTTP GET 请求获取网页内容 response = requests.get(url) # 解析网页内容 soup = BeautifulSoup(response.text, "html.parser") # 提取网页中的普通文本 text = soup.get_text() # 提取网页中的所有超链接文本 links = [] for link in soup.find_all("a"): href = link.get("href") if href is not None: links.append(href) # 输出结果 print("网页中的普通文本：") print(text) print("网页中的超链接文本：") print(links) ``` 注意，在实际使用中需要根据具体网页的结构和需要采集的内容进行相应的修改。同时，爬取网页时需要遵守网站的 robots.txt 规定，避免对网站造成不必要的影响。

阅读全文