使用python写一个爬虫脚本
时间: 2024-06-08 12:05:57 浏览: 12
好的,以下是一个简单的 Python 爬虫脚本,用于爬取指定网站的文章标题和链接:
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.example.com/articles"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
for article in soup.find_all("article"):
title = article.h2.a.text
link = article.h2.a["href"]
print(title, link)
```
解释一下代码:
1. `requests` 是一个常用的库,用于向指定 URL 发送请求并获取响应。
2. `BeautifulSoup` 是一个 Python 库,用于从 HTML 或 XML 文件中提取数据。
3. `url` 是要爬取的网站地址。
4. `response` 变量包含了网站响应的内容。
5. `soup` 变量包含了可以从 HTML 中提取数据的对象。
6. `find_all` 方法用于查找 HTML 标签,返回一个可迭代的对象。
7. `title` 变量包含了文章标题。
8. `link` 变量包含了文章链接。
9. `print` 语句将标题和链接输出到控制台。
当然,这只是一个简单的爬虫示例,实际的爬虫需要考虑更多的因素,例如网站的反爬虫机制、数据的存储和处理等。