用python写一个爬虫案例
时间: 2024-05-29 22:03:48 浏览: 95
好的,这里给您介绍一个简单的 Python 爬虫案例。
我们将使用 requests 库和 BeautifulSoup 库来爬取某个网站的数据。具体来说,我们将爬取网站 https://www.qiushibaike.com/ 上的糗事百科段子。
首先,我们需要安装 requests 和 BeautifulSoup 库。使用以下命令安装:
```
pip install requests
pip install beautifulsoup4
```
然后,我们开始编写爬虫代码。代码如下:
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.qiushibaike.com/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
articles = soup.find_all(class_="article")
for article in articles:
content = article.find(class_="content").get_text().strip()
print(content)
```
我们首先指定要爬取的网站地址,并使用 requests 库发起 GET 请求获取网页内容。然后,使用 BeautifulSoup 解析 HTML 内容,并找到 class 属性为 "article" 的所有元素。
接着,我们遍历所有的文章元素,找到其中的内容,并打印输出。在这个例子中,我们只抓取了每篇文章的正文部分,您可以根据需要抓取其他内容。
运行代码,您将会看到控制台输出了很多糗事百科段子的内容。
注意:在使用爬虫时,请遵守网站的爬虫规则,并不要过于频繁地请求网站,以免被封禁 IP。
阅读全文