linux下python爬虫实例
时间: 2023-08-08 19:10:51 浏览: 128
python爬虫实例
当然,我可以给你提供一个简单的 Linux 下的 Python 爬虫实例。以下是一个使用 Python 的 requests 和 BeautifulSoup 库来爬取网页内容的示例代码:
python
import requests
from bs4 import BeautifulSoup
# 定义要爬取的目标网址
url = "https://example.com"
# 发送 HTTP GET 请求并获取网页内容
response = requests.get(url)
content = response.text
# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(content, "html.parser")
# 找到所有的链接标签
links = soup.find_all("a")
# 打印所有链接的文本和 URL
for link in links:
link_text = link.text.strip()
link_url = link["href"]
print(f"Link: {link_text} - URL: {link_url}")
```
这个示例代码会发送一个 HTTP GET 请求来获取指定网址的内容,并使用 BeautifulSoup 来解析网页。然后,它会找到所有的 `<a>` 标签,并打印出每个链接的文本和 URL。
你可以将上述代码保存为一个 Python 文件(例如 `crawler.py`),然后在 Linux 终端中运行 `python crawler.py` 来执行爬虫。
请注意,爬取网页时需要遵守网站的使用条款和法律法规。在实际应用中,请确保你的爬虫行为合法,并尊重网站的隐私政策和服务条款。
阅读全文