python用正则表达式爬取百度贴吧中原工学院吧首页的标题
时间: 2023-06-27 22:07:21 浏览: 112
使用 Python 爬虫库 requests 和正则表达式库 re 可以实现这个功能。具体代码如下:
```python
import requests
import re
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/58.0.3029.110 Safari/537.3'}
# 发送 GET 请求
response = requests.get('https://tieba.baidu.com/f?kw=%E5%8E%9F%E5%B7%A5&fr=index', headers=headers)
response.encoding = 'utf-8' # 设置编码方式
# 使用正则表达式提取帖子标题
pattern = re.compile('<a href=".*?" title="(.*?)" target="_blank" class="j_th_tit">(.*?)</a>')
titles = pattern.findall(response.text) # 返回一个列表,每个元素是一个元组,包含标题和链接
# 输出标题
for title in titles:
print(title[1]) # 输出第二个元素,即标题
```
运行代码后,会输出百度贴吧中原工学院吧首页的所有帖子标题。
阅读全文