python根据关键字爬取文本信息
时间: 2023-11-03 07:58:14 浏览: 89
基于Python的关键词爬取新闻
你可以使用 Python 的爬虫库(如 requests、BeautifulSoup)来爬取网页,再使用关键字过滤出需要的文本信息。以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 定义要爬取的网页 URL 和关键字
url = 'https://www.example.com'
keyword = 'Python'
# 发送 GET 请求并获取网页 HTML
response = requests.get(url)
html = response.text
# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html, 'html.parser')
# 找到所有文本节点并过滤出包含关键字的节点
text_nodes = soup.find_all(text=True)
keyword_nodes = [node for node in text_nodes if keyword in node]
# 输出结果
for node in keyword_nodes:
print(node)
```
上述代码会爬取指定网页并输出其中包含关键字的文本节点。你可以根据需要修改代码,例如通过循环爬取多个网页、使用正则表达式进行更复杂的关键字匹配等。
阅读全文