首页提供一段python爬虫代码

提供一段python爬虫代码

时间: 2023-09-06 13:04:43 浏览: 108

### 回答1： # 利用Python爬虫爬取网页 import requests from bs4 import BeautifulSoup# 目标URL url = 'http://www.example.com'# 请求URL r = requests.get(url)# 获取内容 html_doc = r.text# 创建BeautifulSoup对象 soup = BeautifulSoup(html_doc, 'html.parser')# 获取所有的链接 links = soup.find_all('a')# 循环输出链接 for link in links: print(link.get('href')) ### 回答2：当然，请见下方的Python爬虫代码示例： ```python import requests from bs4 import BeautifulSoup # 发送HTTP请求获取页面内容 def get_page_content(url): response = requests.get(url) return response.text # 解析页面内容并提取相关数据 def parse_page_content(content): soup = BeautifulSoup(content, 'html.parser') results = [] # 在这里编写你的代码，根据页面结构提取所需的数据 return results # 主函数 def main(): url = "https://example.com" # 替换为你要爬取的网页链接 content = get_page_content(url) data = parse_page_content(content) # 对提取的数据进行处理或存储等操作 for item in data: print(item) # 执行主函数 if __name__ == "__main__": main() ``` 这是一个简单的爬虫代码框架，你可以根据需要进行定制和扩展。首先，通过`get_page_content`函数发送HTTP请求并获取页面的原始内容。然后，使用`parse_page_content`函数解析页面内容，提取所需的数据。最后，通过`main`函数来调度和执行整个爬虫过程。在其中可以对提取的数据进行处理、存储或展示等操作。请注意，这只是一个基本示例，实际的爬虫代码可能会更复杂，根据目标网站的特点进行相应的处理和解析。

阅读全文