爬虫beautiful soup 基本代码
时间: 2023-05-30 18:03:15 浏览: 177
Python 爬虫之Beautiful Soup模块使用指南
以下是使用Python的Beautiful Soup库来爬取网页的基本代码:
```python
from bs4 import BeautifulSoup
import requests
# 发送HTTP请求并获取网页内容
url = "https://www.example.com"
response = requests.get(url)
html_content = response.content
# 解析网页内容
soup = BeautifulSoup(html_content, "html.parser")
# 查找网页元素
title = soup.title
links = soup.find_all("a")
```
以上代码中,我们首先使用requests库发送HTTP请求并获取网页内容。然后,我们使用BeautifulSoup库解析网页内容,并使用find_all()方法查找网页元素。
在这个例子中,我们查找了所有链接元素。我们也可以查找其他元素,例如表单、图像、段落等等。通过查找网页元素,我们可以从网页中提取有用的信息,例如文章标题、作者、发布日期等等。
阅读全文