python简单爬虫案例代码
时间: 2023-11-04 22:49:20 浏览: 97
下面是一个简单的Python爬虫案例代码,它可以爬取指定网页的标题和正文内容:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com' # 指定要爬取的网页URL
response = requests.get(url) # 发送HTTP请求获取网页内容
soup = BeautifulSoup(response.text, 'html.parser') # 解析HTML内容
title = soup.title.string # 获取网页标题
content = soup.body.get_text() # 获取网页正文内容
print('Title:', title)
print('Content:', content)
```
注意:本代码仅供学习参考,请勿用于非法用途。另外,爬取网页时应遵守相关法律法规和网站的使用条款。
相关问题
python爬虫案例代码
当然,我可以为您提供一个简单的Python爬虫案例代码。以下是一个爬取网页标题的示例:
```python
import requests
from bs4 import BeautifulSoup
# 要爬取的网页链接
url = "https://example.com"
# 发送请求并获取页面内容
response = requests.get(url)
# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(response.text, "html.parser")
# 提取网页标题
title = soup.title.text
# 打印网页标题
print("网页标题:", title)
```
此代码使用了`requests`库来发送HTTP请求,并使用`BeautifulSoup`库解析HTML内容。它发送GET请求到指定的URL,获取页面内容,然后使用BeautifulSoup解析页面,并从中提取出标题信息。
请注意,这只是一个简单的示例,实际的爬虫代码可能会更复杂,具体取决于您要爬取的网站和需要提取的数据。爬虫行为应符合法律和道德规范,请确保您的爬虫代码遵循相关规定。
python爬虫案例和代码
Python爬虫是一种常见的网络数据抓取技术,常用于自动化从网站上获取信息。下面是一个简单的Python爬虫案例,使用了requests库来发送HTTP请求,BeautifulSoup库解析HTML内容:
```python
# 导入必要的库
import requests
from bs4 import BeautifulSoup
def spider(url):
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到需要的数据,比如文章标题
titles = soup.find_all('h2', class_='title') # 假设标题在class为'title'的<h2>标签下
for title in titles:
print(title.get_text()) # 打印标题文本
else:
print(f"请求失败,状态码:{response.status_code}")
# 示例使用
spider("http://example.com") # 将'http://example.com'替换为你想要爬取的实际网站URL
阅读全文