帮我写一个爬虫代码用于爬取网页内容
时间: 2024-09-20 14:14:44 浏览: 62
Python爬虫爬取一个网页上的图片地址实例代码
5星 · 资源好评率100%
编写一个简单的爬虫代码通常涉及以下几个步骤,这里以Python的BeautifulSoup库和requests库为例,假设我们要抓取一个HTML页面的内容:
```python
# 导入必要的库
import requests
from bs4 import BeautifulSoup
def simple_spider(url):
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 获取我们需要的数据,例如所有段落(p标签)
content = soup.find_all('p') # 可能需要替换为实际的标签名
# 遍历数据并打印
for p in content:
print(p.get_text()) # 获取文本内容
else:
print(f"无法访问该页面,状态码:{response.status_code}")
# 调用函数,传入要爬取的网页URL
url = "https://www.example.com"
simple_spider(url)
阅读全文