首页用Python做个简易的网页抓取工具

用Python做个简易的网页抓取工具

时间: 2023-03-05 17:23:18 浏览: 52

可以使用Python中的Requests和BeautifulSoup库来创建一个简易的网页抓取工具。以下是一个简单的示例，可以抓取给定URL的HTML内容，并从中提取所有的超链接： ```python import requests from bs4 import BeautifulSoup def get_links(url): # 发送HTTP请求 response = requests.get(url) # 解析HTML内容 soup = BeautifulSoup(response.content, 'html.parser') # 提取所有超链接 links = [] for link in soup.find_all('a'): href = link.get('href') if href is not None: links.append(href) return links # 测试 url = 'https://www.example.com' links = get_links(url) print(links) ``` 上述代码中，get_links函数接收一个URL作为输入，并返回该页面中所有的超链接。使用requests库发送HTTP请求并获得响应，然后使用BeautifulSoup库解析HTML内容。最后，使用find_all方法找到所有的超链接元素，并从中提取href属性。这只是一个简单的示例，你可以根据需要添加更多功能，例如保存抓取到的数据到文件中、使用正则表达式提取特定的内容等。

阅读全文