写一个Python爬虫程序,可以实现关键词爬取
时间: 2024-10-06 20:05:05 浏览: 31
python爬虫-基于python 实现的爬取人民日报,爬取人民日报文章后存储到本地课程设计(课程设计报告+源码)
编写一个简单的Python爬虫程序来抓取网页上的特定关键词通常涉及到以下几个步骤:
1. **安装必要的库**:
首先,你需要安装`requests`库用于发送HTTP请求获取网页内容,以及`BeautifulSoup`库来解析HTML文档。
```bash
pip install requests beautifulsoup4
```
2. **定义爬虫函数**:
使用`requests.get`函数获取网页内容,然后传递给`BeautifulSoup`进行解析。下面是一个基本示例,假设我们要从一个URL抓取包含"keyword"的文本:
```python
import requests
from bs4 import BeautifulSoup
def keyword_scraper(url, keyword):
# 发送GET请求并获取页面内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找包含指定关键词的所有文本
results = soup.find_all(text=lambda t: keyword in t.parent.decode_contents())
# 返回找到的结果列表
return [result.strip() for result in results]
else:
print(f"无法获取页面,状态码: {response.status_code}")
return []
# 示例使用
url_to_crawl = "https://example.com"
target_keyword = "关键字"
results = keyword_scraper(url_to_crawl, target_keyword)
print(results)
```
这个例子只是一个基础版本,实际操作可能会更复杂,如处理分页、登录验证、反爬虫机制等。如果你有具体的网站和需求,可以进一步调整代码。
阅读全文