编写正则表达式,将齐鲁人才网网页文件(路径:/data/workspace/myshixun/4/1-0.html)读取并解析出岗位职责和岗位要求。 相关知识 网页页面如下: 源代码如下图所示: 岗位职责 岗位要求
时间: 2024-12-05 15:16:20 浏览: 5
JAVA JDK学习笔记i\o部分
为了从给定的HTML文件中提取“岗位职责”和“岗位要求”的信息,你可以使用Python的`BeautifulSoup`库配合`re`(正则表达式)来解析HTML内容。首先确保安装了这两个库:
```bash
pip install beautifulsoup4 requests
```
然后,可以编写以下代码:
```python
import os
import re
from bs4 import BeautifulSoup
# 指定文件路径
file_path = "/data/workspace/myshixun/4/1-0.html"
# 读取文件
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(content, 'html.parser')
# 定义正则表达式模式匹配岗位职责和岗位要求
job_duties_pattern = r'<h3 class="zw_txt">岗位职责:</h3>(.*?)<h3 class="zw_txt">岗位要求:</h3>'
requirements_pattern = r'<h3 class="zw_txt">岗位要求:</h3>(.*?)<!-- 分页 -->'
# 提取岗位职责
job_duties = re.search(job_duties_pattern, str(soup)).group(1) if job_duties_pattern else None
# 提取岗位要求
requirements = re.search(requirements_pattern, str(soup)).group(1) if requirements_pattern else None
# 打印结果
if job_duties:
print("岗位职责:")
print(job_duties)
if requirements:
print("岗位要求:")
print(requirements)
阅读全文