对一篇格式不规范的txt,把它整理成规范格式。它提供的批量整理功能,可以使你在几分钟内整理上百篇文本,请给出python代码
时间: 2024-09-12 11:07:24 浏览: 60
为了将批量txt文件整理成规范格式,我们可以编写一个Python脚本,利用内置的`os`模块遍历指定目录下的所有txt文件,然后使用`pandas`库进行处理。这里假设我们要统一行间距、去除空行,并且规范化每一行的缩进。以下是简单的示例代码:
```python
import os
import pandas as pd
def format_text(file_path):
# 读取txt文件内容
with open(file_path, 'r', newline='', encoding='utf-8') as f:
lines = f.readlines()
# 清理数据:删除空行并标准化行间距
cleaned_lines = [line.strip() for line in lines if line.strip()]
# 如果需要规范化缩进,例如4个空格为一级缩进,可以使用正则表达式替换
# 这里我们暂时不做缩进调整,如果你有特定需求,可以用re库替换下面这一行
# formatted_lines = [re.sub(r'\t| {4,}', ' ', line) for line in cleaned_lines]
# 创建DataFrame存储清理后的数据,每一行是一个Series
df = pd.DataFrame(cleaned_lines, columns=['content'])
# 写入新的txt文件
new_file_path = file_path.split('.')[0] + '_formatted.txt'
df.to_csv(new_file_path, index=False, header=False, sep='\n')
# 指定需要整理的文件夹路径
folder_path = 'your_directory_containing_txt_files'
# 遍历文件夹内的txt文件并整理
for filename in os.listdir(folder_path):
if filename.endswith('.txt'):
full_path = os.path.join(folder_path, filename)
format_text(full_path)
阅读全文