使用 Python 语言,运用正则表达式编写代码 任务:爬取百度热搜榜页面中的热搜关键词和热力值
时间: 2024-12-18 10:24:08 浏览: 10
Python获取lunwen信息,包含数据爬取、数据分析、数据可视化代码
5星 · 资源好评率100%
在Python中,我们可以利用requests库获取网页内容,然后使用BeautifulSoup或lxml库解析HTML,再结合re(正则表达式)来提取目标信息。以下是一个简单的例子,假设我们要从百度热搜榜的一个模拟HTML中抓取关键词和热力值:
```python
import requests
from bs4 import BeautifulSoup
import re
# 请求网页内容
url = 'https://news.baidu.com/buzz' # 这里只是一个示例URL,实际应替换为真实的百度热搜榜页面
response = requests.get(url)
html_content = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, 'html.parser')
# 定义正则表达式模式匹配关键词和热力值
keyword_pattern = r'<a class="word">(.+?)</a>' # 匹配关键词
heat_value_pattern = r'<span class="value">(.*?)</span>' # 匹配热力值
# 找到所有符合关键词和热力值的元素
keywords = soup.find_all(re.compile(keyword_pattern))
values = soup.find_all(re.compile(heat_value_pattern))
hot_searches = []
for keyword, value in zip(keywords, values):
keyword_text = keyword.text.strip() # 提取关键词文本
heat_text = value.text.strip() # 提取热力值文本
hot_searches.append((keyword_text, heat_text))
# 打印结果
for search in hot_searches:
print(f"关键词:{search[0]},热力值:{search[1]}")
阅读全文