result = re.split(".", text.strip())

在正则表达式中，点号`.`是一个特殊，表示匹配任意字符（除了换行符）。因此，如果您想使用点号进行拆分，您需要进行转义，即使用`\.`来表示匹配实际的点号。另外，`re.split()` 函数的第一个参数应该是正则表达式模式，而不是字符串。所以，您可以将 `.` 转义并传入正则表达式模式，然后将文本作为第二个参数传递给 `re.split()` 函数。以下是修改后的代码示例： ```python import re text = "example.text" result = re.split("\.", text.strip()) print(result) ``` 在上述示例中，我们使用 `re.split()` 函数将文本根据点号进行拆分，并打印结果。请注意，`strip()` 函数用于去除文本两端的空格和换行符。这是为了确保不会因为空格或换行符导致拆分结果不准确。希望这可以帮助您实现文本的拆分。如果您有任何其他问题，请随时提问。

import pdfplumber import re import json def parse_resume(pdf_path): # 提取PDF文本 text = "" with pdfplumber.open(pdf_path) as pdf: for page in pdf.pages: text += page.extract_text() + "\n" # 初始化结果字典 resume_data = { "name": "", "contact": {}, "education": [], "experience": [], "skills": [] } # 解析姓名（假设第一行为姓名） lines = text.split('\n') if lines: resume_data["name"] = lines[0].strip() # 解析联系方式 phone_match = re.search(r'(\+?\d{1,3}[-\.\s]?)?$?\d{3}$?[-\.\s]?\d{3}[-\.\s]?\d{4}', text) email_match = re.search(r'[\w\.-]+@[\w\.-]+', text) if phone_match: resume_data["contact"]["phone"] = phone_match.group() if email_match: resume_data["contact"]["email"] = email_match.group() # 解析教育背景 edu_section = re.search(r'教育背景(.?)(?=工作经历|项目经历|技能|$)', text, re.DOTALL) if edu_section: edu_items = re.findall(r'(.?)\s+(\d{4}-\d{4}|\d{4})\s+(.?)\s+([\u4e00-\u9fa5]+)', edu_section.group(1)) for item in edu_items: resume_data["education"].append({ "school": item[0], "time": item[1], "degree": item[3], "major": item[2] }) # 解析工作经历 exp_section = re.search(r'工作经历(.?)(?=项目经历|教育背景|技能|$)', text, re.DOTALL) if exp_section: exp_items = re.split(r'\n(?=\d{4}|\d{4}-\d{4})', exp_section.group(1)) for item in exp_items: company_match = re.search(r'(.?)\s+(\d{4}[-年]\d{4}?|至今)', item) if company_match: resume_data["experience"].append({ "company": company_match.group(1).strip(), "duration": company_match.group(2), "position": re.search(r'职位：(.+)', item).group(1) if re.search(r'职位：(.+)', item) else "" }) # 解析技能 skill_section = re.search(r'技能(.?)(?=证书|语言能力|$)', text, re.DOTALL) if skill_section: skills = re.findall(r'[•\-]\s(.+?)(?=\n|$)', skill_section.group(1)) resume_data["skills"] = [s.strip() for s in skills] return resume_data # 使用示例 result = parse_resume("张三.pdf") with open("张三.json", "w", encoding="utf-8") as f: json.dump(result, f, ensure_ascii=False, indent=2) print("转换完成，结果已保存到张三.json") { "name": "ad87361e58d6308c1nN50tW0F1FYwYW4V_OYWOGjnfPQNxdj1w", "contact": { "phone": "15381407457", "email": "1765344615@qq.com" }, "education": [], "experience": [], "skills": [ "2024/12 世硕电子（昆山）有限公司射频工程师", "2023/07 世硕电子（昆山）有限公司射频工程师", "2022/07 世硕电子（昆山）有限公司电子工程师（实习）", "2024/12 射频测试", "硬件测试部-射频组 w1jdxNQPfnjGOWYO_V4WYwYF1F0Wt05Nn1c8036d85e16378da", "2023/07 苹果公司Version Pro射频失效分析", "7500)数值(-72,", "110)是否达标，常用十个测试站位:WiFi OTA Staten S1, Wifi ota bora S2, Wifi RSSI", "2022/07 苹果14 电子（EE）不良分析（FA实习）", "2021/04 嵌入式智能小车实训", "2020/12 单片机实验" ] }

<think>好的，我现在需要分析用户提供的Python代码，该代码用于解析简历PDF并提取信息。用户还给出了一个JSON输出示例，但结果中的某些字段如教育背景和工作经历为空，而技能部分包含了一些不符合预期的内容。我需要找出问题所在，并提供解决方案。首先，我会从代码结构入手。用户使用了pdfplumber来提取PDF文本，然后通过正则表达式解析各个部分。观察代码中的正则表达式，尤其是教育背景、工作经历和技能部分的匹配规则，可能存在模式不准确的问题。对于教育背景部分，用户的正则表达式是查找“教育背景”后面的内容，直到遇到“工作经历”、“项目经历”、“技能”或结尾。提取教育条目时使用的正则表达式是r'(.*?)\s+(\d{4}-\d{4}|\d{4})\s+(.*?)\s+([\u4e00-\u9fa5]+)'，这可能无法正确匹配不同格式的日期或学校名称中的空格。例如，如果学校名称中包含数字或特殊字符，或者日期格式不一致，会导致匹配失败，结果为空。工作经历部分的处理也存在问题。代码中使用正则表达式分割每个经历条目，假设每个条目以年份开头，但实际简历中的日期格式可能多样，如“2022年至今”或包含月份，导致分割不正确。此外，提取公司名称和职位的信息可能不准确，特别是当职位描述中包含冒号或其他格式时。技能部分的正则表达式r'[•\-*]\s*(.+?)(?=\n|$)'可能匹配到不相关的内容，尤其是当技能部分包含时间信息或其他项目符号时，导致错误地将工作经历内容当作技能提取。例如，用户提供的JSON中技能部分包含了工作经历的内容，说明正则表达式可能匹配到了其他部分的项目符号。此外，代码假设PDF的文本结构严格按特定顺序排列，如第一行为姓名，但实际简历的格式可能多样，导致姓名提取错误。联系方式的正则表达式可能不够全面，无法覆盖所有可能的电话号码格式。解决这些问题的方法包括优化正则表达式，使其更灵活地匹配不同的日期格式、学校名称和技能条目。例如，使用更宽松的日期匹配模式，处理可能存在的空格或分隔符。对于技能部分，确保只匹配特定部分内的内容，并且正确识别项目符号后的技能项。另外，可以考虑使用更结构化的文本解析方法，比如根据关键词和段落结构来分割内容，而不是依赖单一的正则表达式。测试不同格式的简历样本，调整正则表达式以提高鲁棒性。</think><< 这个简历解析器的主要问题在于正则表达式匹配模式不够精准，导致关键信息提取失败。以下是具体问题和解决方案： 1. 教育背景匹配问题原因：正则表达式`(\d{4}-\d{4}|\d{4})`只能匹配纯数字年份格式，无法识别"2022年至今"等常见格式解决方案： ```python # 修改后的教育背景正则表达式 edu_pattern = r''' (?P<school>.+?)\s+ (?P<time>(?:\d{4}[-年]?\d{0,4}|至今)+)\s+ (?P<major>.+?)\s+ (?P<degree>[\u4e00-\u9fa5]+) ''' edu_items = re.findall(edu_pattern, edu_section.group(1), re.X) ``` 2. 工作经历分割问题原因：使用`\n(?=\d{4})`分割会遗漏包含中文年份的情况解决方案： ```python # 改进后的分割方式 exp_items = re.split(r'\n(?=(?:\d{4}|至今|[\u4e00-\u9fa5]{4})年?)', exp_section.group(1)) ``` 3. 技能部分误匹配原因：`[•\-*]`匹配符号范围太广，容易捕获其他部分的列表解决方案： ```python # 精确匹配技能部分 skill_section = re.search(r'技能([\s\S]*?)(?=\n\s*(?:证书|语言能力|项目经历|$))', text) skills = re.findall(r'^[•\-*]\s*([^\n]+)', skill_section.group(1), re.M) ``` 4. 姓名识别问题原因：假设第一行总是姓名不可靠解决方案： ```python # 使用更智能的姓名识别 from zhdate import ZhDate name_candidates = [line.strip() for line in lines if not re.search(r'@|电话|手机', line) and not re.search(r'\d', line) and len(line) <= 4] resume_data["name"] = name_candidates[0] if name_candidates else "" ``` 完整改进代码建议： ```python def parse_resume_v2(pdf_path): with pdfplumber.open(pdf_path) as pdf: text = "\n".join([page.extract_text() for page in pdf.pages]) resume_data = { "name": detect_name(text), "contact": extract_contact(text), "education": extract_education(text), "experience": extract_experience(text), "skills": extract_skills(text) } return resume_data def detect_name(text): # 使用包含常见姓氏的字典进行验证 common_surnames = {'王','李','张','刘','陈','杨','赵','黄','周','吴'} lines = [ln.strip() for ln in text.split('\n') if ln.strip()] for line in lines[:3]: if len(line) <= 4 and line[0] in common_surnames: return line return lines[0] if lines else "" def extract_contact(text): # 改进的电话正则 phone_re = r'(?<!\d)(1[3-9]\d{9})(?!\d)|($\d{3,4}$\d{7,8})' # 加强的邮箱验证 email_re = r'\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}\b' return { "phone": max(re.findall(phone_re, text), key=lambda x: len(x[0] or x[1]))[0], "email": max(re.findall(email_re, text), key=len, default="") } def extract_education(text): # 支持多种时间格式 edu_pattern = r''' (?P<school>.+?)\s+ (?P<time>(?:\d{4}[年\-]? ?- ?(?:\d{4}|至今)|\d{4}[年/]\d{1,2}月?)) (?:\s+|/)(?P<major>.+?) (?:\s+|/)(?P<degree>本科|硕士|博士|学士|研究生) ''' return [m.groupdict() for m in re.finditer(edu_pattern, text, re.X)] def extract_experience(text): # 处理带月份的时间格式 exp_blocks = re.split(r'(?=\d{4}年(?:至今|\d{1,2}月?))', text) return [parse_experience_block(b) for b in exp_blocks if b.strip()] def extract_skills(text): # 精确匹配技能段落 skill_section = re.search(r'(?<=技能[：:]?)\s*([^§]+)', text) return re.findall(r'[•\-*] ?(.+?)(?=\n|$)', skill_section.group(1)) if skill_section else [] ```

解释以下代码：# 解析HTML页面 soup = BeautifulSoup(driver.page_source, 'html.parser') games = soup.find_all('a', {'class': 'search_result_row'}) # 遍历每个游戏，并获取所需信息 for game in games: game_name = game.find('span', {'class': 'title'}).text release_info = game.find('div', {'class': 'search_released'}).text release_year = release_info.strip().split(' ')[0] release_date = release_info.strip().replace(' ', '') review_info1 = game.find('div', {'class': 'search_reviewscore'}) if review_info1 is not None: review_info = review_info1.find('span', {'class': 'search_review_summary'}).get('data-tooltip-html') reviews = review_info[:4] positive_reviews = re.search(r'此游戏的 (\d+(,\d+)*) 篇用户评测中', review_info).group(1).replace(',', '') positive_review_percentage = re.search(r'评测中有 (\d+)% 为好评', review_info).group(1) + '%' else: pass

这段代码是使用 BeautifulSoup 库解析 HTML 页面，并从中获取游戏相关信息。具体来说，它首先使用 driver 获取当前页面的源代码，然后使用 BeautifulSoup 进行解析。接着，它使用 find_all 方法找到所有 class 为 'search_result_row' 的 a 标签，也就是游戏的链接。然后，对于每个游戏，它通过 find 方法找到游戏名称和发布信息，进一步处理发布信息以获取发布年份和日期。如果游戏有评测信息，它会从中提取出好评率和用户评测数量等信息。最后，如果游戏没有评测信息，则跳过该游戏。

阅读全文

result = re.split(".", text.strip())

相关推荐

Python中请不要再用re.compile了

deal-result.py

正则表达式笔记（re.search_re.match_re.split_re.compile_用法） - douzujun -

6. 根据标点符号对字符串进行分行

python怎么将读取的字符串分割

DrissionPage爬取音乐

string 分割字符串

Python文本数据预处理

python下载m3u8视频

我需要把pdf格式的简历结构化为json格式，请你给出完整代码

提取其中代码，给出可运行代码

编程实现：朴素贝叶斯垃圾短信息分类。 要求：分别提交源代码、运行结果截图。

删除多余的空格python

抽取含有关键词的句子，python代码

python爬虫猫眼电影top100

根据标点符号对字符串进行分行 python

从文本文件中提出含有汉语关键词的句子，使用python代码

大家在看

Video-Streamer:RTSP视频客户端和服务器

计算机辅助安全工程第4章安全模拟与仿真ppt课件.ppt

毕业论文jsp529图书借阅管理系统(sqlserver).doc

基于MATLAB的表面裂纹识别与检测

STM8L051F3P6使用手册（中文）.zip

最新推荐

人脸识别_深度学习_CNN_表情分析系统_1741778057.zip

Hono框架下基于TypeScript的Web应用构建指南：从项目初始化到模块全面实现（可复现，有问题请联系博主）

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构

VBS简明教程：批处理之家论坛下载指南

【欧姆龙触摸屏：新手必读的10个操作技巧】

编程实现：朴素贝叶斯垃圾短信息分类。要求：分别提交源代码、运行结果截图。