python 写个网页爬虫
时间: 2023-03-13 16:13:03 浏览: 36
python实现网络爬虫使用了第三方库beautifulsoup来解析网页文件,并且实现了cookie登录特定网站访问.zip
好的,下面是一个简单的 Python 网页爬虫代码示例:
```
import requests
from bs4 import BeautifulSoup
def spider(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.prettify())
if __name__ == '__main__':
url = 'https://www.example.com'
spider(url)
```
这个代码使用了 `requests` 库发起了一个 HTTP GET 请求,以获取网页的 HTML 内容。接着使用了 `BeautifulSoup` 库将 HTML 解析为树形结构,方便提取所需的信息。最后,代码使用 `prettify` 方法格式化输出了 HTML 内容。
这仅仅是一个简单的爬虫代码,只是帮助您了解爬虫的原理。实际上,爬取网页信息需要考虑很多因素,如爬虫的效率、网站的反爬虫措施、数据的清洗等。因此,建议您在实际开发中进行适当的修改和优化。
阅读全文