用Python编写一个能查看网站源代码的爬虫
时间: 2024-11-20 09:43:37 浏览: 18
一个Python爬虫参考源代码.rar
在Python中,我们可以使用`requests`库来获取网页内容,然后使用`BeautifulSoup`库解析HTML源码,以便提取所需的数据。以下是一个简单的爬虫示例,用于查看并打印一个网页的源代码:
```python
# 导入所需的库
import requests
from bs4 import BeautifulSoup
def get_website_source(url):
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功,状态码为200表示成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 打印源代码
print(soup.prettify())
else:
print(f"无法获取页面,状态码: {response.status_code}")
# 要爬取的URL
url_to_crawl = "https://www.example.com"
# 调用函数
get_website_source(url_to_crawl)
```
运行此脚本会显示指定URL的HTML源代码。请注意,实际使用时你需要遵守网站的Robots协议,并尊重版权法律。
阅读全文