用python实现一个简单的爬虫系统
时间: 2024-10-13 12:05:44 浏览: 6
在Python中,实现一个简单的爬虫系统通常会利用一些库,如BeautifulSoup用于解析HTML,requests用于发送HTTP请求获取网页内容。下面是一个基本的示例,展示如何使用这两个库爬取网页标题:
```python
import requests
from bs4 import BeautifulSoup
def simple_scraper(url):
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到页面标题元素,通常是<h1>或<title>
title = soup.find('title').text
return title
else:
print(f"请求失败,状态码:{response.status_code}")
return None
# 使用爬虫
url_to_crawl = "https://example.com"
page_title = simple_scraper(url_to_crawl)
if page_title is not None:
print(f"网页标题:{page_title}")