一个简单的爬虫demo
时间: 2023-03-11 09:06:36 浏览: 94
实现的一个简单爬虫
当然,这里是一个使用 Python 编写的简单爬虫 demo:
```python
import requests
from bs4 import BeautifulSoup
def crawl(url):
# 请求网页数据
response = requests.get(url)
# 解析 HTML 数据
soup = BeautifulSoup(response.text, "html.parser")
# 提取想要的信息
title = soup.find("h1").text
# 返回结果
return {
"title": title,
}
# 爬取网页
result = crawl("https://www.example.com/")
# 输出结果
print(result)
```
这个爬虫会请求指定的 URL,然后使用 BeautifulSoup 解析 HTML 数据,最后使用 `find()` 方法提取 h1 标签的文本内容。
当然,这只是一个简单的 demo,实际的爬虫可能会更加复杂,比如需要模拟登录、分页爬取、使用代理等。
阅读全文