python爬虫代码
时间: 2023-02-09 08:27:41 浏览: 55
python爬虫代码源码.rar
Python是一种流行的编程语言,可以用来编写爬虫。爬虫是一种自动获取网络信息的程序,常用于抓取网页内容。
下面是一个简单的Python爬虫代码示例,它使用了第三方库`requests`和`BeautifulSoup`来发送HTTP请求并解析HTML网页:
```python
import requests
from bs4 import BeautifulSoup
def crawl(url):
# 发送HTTP请求并获取响应
response = requests.get(url)
# 将响应的HTML内容解析成BeautifulSoup对象
soup = BeautifulSoup(response.text, 'html.parser')
# 使用BeautifulSoup对象提取页面信息
title = soup.title.string
links = [a['href'] for a in soup.find_all('a')]
# 返回结果
return {'title': title, 'links': links}
result = crawl('https://www.example.com')
print(result)
```
上面的代码会发送一个HTTP请求到给定的URL,然后使用BeautifulSoup解析HTML页面,并提取页面的标题和链接。最后,代码会将结果返回为一个字典。
请注意,爬虫可能会对服务器造成很大的压力,因此应该谨慎使用。在爬取网站时,应该遵守网站的机器人协议,并在爬取前获得网站所有者的同意。
阅读全文