python dataframe 用正则替换符合pattern = r'^\d{4}-\d{2}-\d{2}$' 规则的数据中的-为/

可以使用 Pandas 中的 replace() 函数，具体可以使用以下代码实现： ``` import re import pandas as pd # 创建一个样例数据 data = pd.DataFrame({'date': ['2022-05-22', '2022-05-23', '2022-05-24']}) # 定义要替换的正则表达式和替换规则 pattern = r'^\d{4}-\d{2}-\d{2}$' replace_rule = '/' # 使用 replace() 函数进行替换 data['date'] = data['date'].replace(to_replace=pattern, value=replace_rule, regex=True) # 输出替换后的结果 print(data) ``` 输出结果如下： ``` date 0 2022/05/22 1 2022/05/23 2 2022/05/24 ``` 在这里，我们首先定义了要替换的正则表达式和替换规则。然后，我们使用 replace() 函数将满足指定正则表达式模式的日期数据中的 "-" 替换为 "/"。需要注意的是，我们将 regex 参数设置为 True，表示要使用正则表达式进行匹配替换。最后，我们输出替换后的结果。

import os from bs4 import BeautifulSoup import re import csv import pandas as pd # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'<body>(.?)<\/body>' # 打开原有的CSV文件路径 csv_file = "output.csv" # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8-sig") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser') # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除和() body_data = body_data[0].replace("", "").replace("()", "") # # 使用正则表达式提取talk_id、时间、发送者ID和接收者ID matches2 = re.findall(r'(?:中发言|发送)\s(.?)\s(?:音频 :|图片 :)?(?:\[([^\]]+)\])?', body_data) for match in matches2: # 提取链接地址 file_text = match[1] matches = re.findall(r'"([^"]*)"', file_text) if matches: file_name = matches[0] else: file_name = "No matches found." # print(file_name) # 替换字符 file_name = file_name.replace('No matches found.','') # 将提取的数据加载到DataFrame中 df_extracted = pd.DataFrame(file_name) # 读取原有的CSV文件 df_original = pd.read_csv(csv_file) print("---导入完成-----")

根据你的代码，你想将提取的文件名数据加载到一个DataFrame中，并将原有的CSV文件读取到另一个DataFrame中。然后，你可能想将提取的文件名数据写入已建的CSV文件中。以下是你可以继续完善的代码示例： ```python import os from bs4 import BeautifulSoup import re import pandas as pd # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'<body>(.*?)<\/body>' # 打开原有的CSV文件路径 csv_file = "output.csv" # 创建一个空的DataFrame用于存储提取的文件名数据 df_extracted = pd.DataFrame(columns=['File Name']) # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8-sig") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser') # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除和() body_data = body_data[0].replace("", "").replace("()", "") # 使用正则表达式提取文件名 matches = re.findall(r'"([^"]*)"', body_data) if matches: file_name = matches[0] else: file_name = "No matches found." # 替换字符 file_name = file_name.replace('No matches found.', '') # 将提取的文件名数据加入DataFrame中 df_extracted = df_extracted.append({'File Name': file_name}, ignore_index=True) # 读取原有的CSV文件 df_original = pd.read_csv(csv_file) # 合并原有的DataFrame和提取的DataFrame df_combined = pd.concat([df_original, df_extracted], axis=1) # 将合并后的DataFrame写入CSV文件 df_combined.to_csv(csv_file, index=False) print("数据已成功写入CSV文件") ``` 在上面的代码中，我添加了一些逻辑来创建一个空的DataFrame `df_extracted` 用于存储提取的文件名数据。然后，使用 `df_extracted.append()` 将每个文件的文件名添加到 `df_extracted` 中。接下来，使用 `pd.concat()` 将原有的DataFrame `df_original` 和提取的DataFrame `df_extracted` 合并为一个新的DataFrame `df_combined`。最后，使用 `df_combined.to_csv()` 将合并后的DataFrame写入CSV文件。请确保提供正确的文件夹路径和CSV文件路径，并根据需要调整代码。

创建一个空的DataFrame df = pd.DataFrame(columns=['总订单数','总推送数','推送比','问卷回馈','回馈比']) count = 0 for i in range(5): for message in messages: if "20230612统计" in message.Subject: 使用正则表达式提取订单数、推送数和回馈数的值 pattern1 = r"总订单数:(\d+)" pattern2 = r"总推送数:(\d+)" pattern3 = r"推送比:(\d+)" pattern4 = r"问卷回馈:(\d+)" pattern5 = r"回馈比:(\d+)" match1 = re.search(pattern1, message.Body) match2 = re.search(pattern2, message.Body) match3 = re.search(pattern3, message.Body) match4 = re.search(pattern4, message.Body) match5 = re.search(pattern5, message.Body) if match1 and match2 and match3 and match4 and match5: 总订单数 = match1.group(1) 总推送数 = match2.group(1) 推送比 = match3.group(1) 问卷回馈 = match4.group(1) 回馈比 = match5.group(1) print("总订单数:：", 总订单数) print("总推送数：", 总推送数) print("推送比", 推送比) print("问卷回馈：", 问卷回馈) print("回馈比", 回馈比) else: print("帅哥") count += 1 if count == 1: break else: continue break df.loc[count] = ['20230612统计', message.Subject, 总订单数, 总推送数, 推送比, 问卷回馈, 回馈比] 保存DataFrame到Excel文件 df.to_excel(r'C:\Users\bjbk0026\Desktop\统计.xlsx', index=False) 推送比和回馈比设置为默认为空怎么写

如果你想在推送比和回馈比未匹配到值时将其设置为空，默认为空字符串`''`，你可以在条件判断中处理这种情况。以下是修改后的代码示例： ```python df = pd.DataFrame(columns=['总订单数','总推送数','推送比','问卷回馈','回馈比']) count = 0 for i in range(5): for message in messages: if "20230612统计" in message.Subject: pattern1 = r"总订单数:(\d+)" pattern2 = r"总推送数:(\d+)" pattern3 = r"推送比:(\d+)" pattern4 = r"问卷回馈:(\d+)" pattern5 = r"回馈比:(\d+)" match1 = re.search(pattern1, message.Body) match2 = re.search(pattern2, message.Body) match3 = re.search(pattern3, message.Body) match4 = re.search(pattern4, message.Body) match5 = re.search(pattern5, message.Body) if match1 and match2 and match4: 总订单数 = match1.group(1) 总推送数 = match2.group(1) 问卷回馈 = match4.group(1) if match3: 推送比 = match3.group(1) else: 推送比 = '' # 设置默认为空字符串 '' if match5: 回馈比 = match5.group(1) else: 回馈比 = '' # 设置默认为空字符串 '' print("总订单数:：", 总订单数) print("总推送数：", 总推送数) print("推送比", 推送比) print("问卷回馈：", 问卷回馈) print("回馈比", 回馈比) else: print("帅哥") count += 1 if count == 1: break else: continue break df.loc[count] = ['20230612统计', message.Subject, 总订单数, 总推送数, 推送比, 问卷回馈, 回馈比] df.to_excel(r'C:\Users\bjbk0026\Desktop\统计.xlsx', index=False) ``` 在上述代码中，我在匹配`推送比`和`回馈比`时，使用了条件判断来处理未匹配到值的情况。如果未匹配到值，我将其设置为空字符串`''`作为默认值。然后将提取到的值添加到DataFrame中，并将DataFrame保存到Excel文件中。希望这能满足你的需求！如果还有其他问题，请随时提问。

阅读全文

python dataframe 用正则替换符合pattern = r'^\d{4}-\d{2}-\d{2}$' 规则的数据中的-为/

相关推荐

使用Python将ICESat-2 ATL08数据转换为Shapefile

Python中D-Tale 2.9.1源码应用：Pandas数据可视化分析

Python库cnspy_csv2dataframe使用说明及下载

在Python中使用正则表达式的方法

python使用re正则表达式去除dataframe数据类型‘总价123-456(万/套)’中的字符串保留数字

dataframe对象的＄用正则表达式提取新一列的价格

python dataframe替换字符串中格式为四个数字加两个字母格式的字符串的-为、

修改为python2.7可以识别的：# 去除中括号 @staticmethod def filter_parentheses(df: pd.DataFrame): if len(df) == 0: return df else: pattern = r"（.+）" for index, row in df.iterrows(): if re.findall(pattern, row[0]): df.loc[index, '分类'] = row[0].split('（')[0] return df

dataframe 一对多正则匹配

Python爬虫进阶：使用正则表达式进行数据提取

pandas 正则文本替换

python去除dataframe数据类型‘总价123-456(万/套)’中的字符串

最新推荐

Angular实现MarcHayek简历展示应用教程

管理建模和仿真的文件

深入剖析：内存溢出背后的原因、预防及应急策略（专家版）

Java中如何对年月日时分秒的日期字符串作如下处理：如何日期分钟介于两个相连的半点之间，就将分钟数调整为前半点

Crossbow Spot最新更新 - 获取Chrome扩展新闻

"互动学习：行动中的多样性与论文攻读经历"

【Java内存管理终极指南】：一次性解决内存溢出、泄漏和性能瓶颈

c 语言return用法

量子管道网络优化与Python实现

关系数据表示学习