python扫描网页各层级title
时间: 2024-10-24 22:08:34 浏览: 11
python实现的网页数据自动录入程序
在Python中,可以使用第三方库如BeautifulSoup、Scrapy或者Requests配合HTMLParser等工具来扫描网页并提取各级标题(Title)。以下是使用BeautifulSoup的一个简单示例:
```python
import requests
from bs4 import BeautifulSoup
def fetch_page_title(url):
# 发送HTTP请求获取网页内容
response = requests.get(url)
# 检查请求状态码,成功则解析页面
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的<title>标签
titles = soup.find_all('title')
for title in titles:
print(f"层级标题: {title.string}")
# 获取整个文档的title元素,它通常位于<head>部分
main_title = soup.title.string if soup.title else "无标题"
print(f"主标题: {main_title}")
else:
print(f"无法访问该页面,状态码: {response.status_code}")
# 调用函数,传入需要抓取的网页URL
fetch_page_title("https://www.example.com")
```
阅读全文