写出python代码，用argparse。能在任何文件夹读取Log。具体如下： 1.读取log，当读取到最后一次出现"My name is kitty"时，从下一行开始读 2.删除所有重复的行，只留第一行 3.第一行按照正则规则1分列后，才知道有多少列，分列符号也不知道有几个空格。写入新的CSV文件Output 4.从下一行开始按照正则规则2分列后，才知道有多少列，，分列符号也不知道有几个空格。继续写入新的CSV文件Output 5.读取CSV文件Output 6.把标题行分为4类，第一类是标题为ABC,DFG的2列，第二类是CAT开头的几列，第三类是DOG开头的几列，第四类是Fish开头的几列 7.把4类标题画成4个曲线图，标注每条线的标题

时间: 2024-03-06 18:49:39 浏览: 74

siwen.zip_读取txt文档求平均值并作图

在IT领域，我们经常需要处理各种数据，其中文本文件（如TXT）是常见的数据存储格式。"siwen.zip_读取txt文档求平均值并作图"是一个涉及到数据分析和可视化的任务，它涵盖了一些关键的技术点，包括文本文件的读取、数据处理以及图表的绘制。下面将详细阐述这些知识点。读取TXT文档。在Python中，我们可以使用内置的`open()`函数来读取TXT文件。这个函数以读取模式打开文件，然后我们可以使用`read()`或`readline()`方法获取文件内容。如果数据是以特定分隔符（如逗号或制表符）组织的，可以使用`csv`模块或`pandas`库的`read_csv()`函数进行更高效的数据加载。例如，如果TXT文件中的数据是每行一个数值，代码可能如下： ```python with open('data.txt', 'r') as file: lines = file.readlines() values = [float(line.strip()) for line in lines] ``` 接下来是计算平均值。在Python中，我们可以使用`statistics`模块的`mean()`函数，或者简单地通过除以元素数量来计算平均值。 ```python import statistics average_value = statistics.mean(values) ``` 或者，如果你已经将数据加载到列表`values`中，不使用模块也能计算： ```python average_value = sum(values) / len(values) ``` 然后是数据可视化，通常我们会使用`matplotlib`库来创建图形。假设我们要根据平均值画出简单的折线图，可以这样做： ```python import matplotlib.pyplot as plt plt.plot([0], [average_value], marker='o') plt.xlabel('Point') plt.ylabel('Average Value') plt.title('Average Value Visualization') plt.show() ``` 如果TXT文件包含多列数据，且我们需要对每一列计算平均值并绘制多条曲线，那么`pandas`库会非常有用，它可以方便地处理数据框并进行统计分析。 ```python import pandas as pd df = pd.read_csv('data.txt', sep='\t') # 假设数据以制表符分隔 average_values = df.mean(axis=0) # 计算每列的平均值 df.plot(kind='line', y=average_values.index, x=range(len(average_values)), legend=False) plt.xlabel('Column Index') plt.ylabel('Average Value') plt.title('Average Values by Column') plt.show() ``` 在这个过程中，我们还需要注意错误处理，例如检查文件是否存在、文件是否可读，以及数据是否有效等。同时，对于大型数据集，优化数据读取和处理的效率也是很重要的，这可能涉及缓冲读取、分块处理或其他高级技术。 “siwen.zip_读取txt文档求平均值并作图”这个任务涵盖了基础的文件操作、数据处理和可视化技能，这些都是数据分析和数据科学领域的核心能力。通过掌握这些技能，我们可以有效地从TXT文件中提取信息，并以直观的方式展示出来。

下面是实现以上要求的 Python 代码，使用了 argparse、pandas、re、os、matplotlib 库： ```python import argparse import pandas as pd import re import os import matplotlib.pyplot as plt # 定义正则表达式 REGEX1 = r'(?P<col1>[A-Za-z]+)\s+(?P<col2>\d+)\s+(?P<col3>\d+\.\d+)\s+(?P<col4>\d+\.\d+)' REGEX2 = r'(?P<col1>\d+-\d+-\d+\s+\d+:\d+:\d+)\s+(?P<col2>[A-Za-z]+)\s+(?P<col3>\d+\.\d+)\s+(?P<col4>[A-Za-z]+)' # 定义函数：读取 log 文件，返回从"My name is kitty"下一行开始的内容 def read_log_file(file_path): with open(file_path, 'r') as f: lines = f.readlines() for i, line in enumerate(lines): if "My name is kitty" in line: return lines[i+1:] return [] # 定义函数：删除重复行，只保留第一行 def remove_duplicate_rows(df): return df.drop_duplicates(keep='first') # 定义函数：将数据按正则表达式1分列，并返回 DataFrame 对象 def parse_data1(lines): # 取第一行 line = lines[0].strip() # 匹配列名 columns = list(re.findall(REGEX1, line)[0]) # 读取数据，生成 DataFrame 对象 df = pd.DataFrame([re.findall(REGEX1, line)[0]]) for line in lines[1:]: line = line.strip() data = list(re.findall(REGEX1, line)[0]) df.loc[len(df)] = data # 重命名列名 df.columns = columns return df # 定义函数：将数据按正则表达式2分列，并返回 DataFrame 对象 def parse_data2(lines): # 取第一行 line = lines[0].strip() # 匹配列名 columns = list(re.findall(REGEX2, line)[0]) # 读取数据，生成 DataFrame 对象 df = pd.DataFrame([re.findall(REGEX2, line)[0]]) for line in lines[1:]: line = line.strip() data = list(re.findall(REGEX2, line)[0]) df.loc[len(df)] = data # 重命名列名 df.columns = columns return df # 定义函数：将 DataFrame 对象写入 CSV 文件 def write_dataframe_to_csv(df, file_path): df.to_csv(file_path, index=False) # 定义函数：读取 CSV 文件，返回 DataFrame 对象 def read_csv_file(file_path): return pd.read_csv(file_path) # 定义函数：根据列名分类，将 DataFrame 分成 4 个子数据集，并绘图 def plot_data(df): # 分类 columns = df.columns.tolist() cols_type1 = ['ABC', 'DFG'] cols_type2 = [col for col in columns if col.startswith('CAT')] cols_type3 = [col for col in columns if col.startswith('DOG')] cols_type4 = [col for col in columns if col.startswith('Fish')] # 绘图 plt.figure() for col in cols_type1: plt.plot(df[col], label=col) plt.legend() plt.title('Type 1') plt.show() plt.figure() for col in cols_type2: plt.plot(df[col], label=col) plt.legend() plt.title('Type 2') plt.show() plt.figure() for col in cols_type3: plt.plot(df[col], label=col) plt.legend() plt.title('Type 3') plt.show() plt.figure() for col in cols_type4: plt.plot(df[col], label=col) plt.legend() plt.title('Type 4') plt.show() # 定义 main 函数 def main(): # 定义命令行参数 parser = argparse.ArgumentParser(description='Process log file and generate plots.') parser.add_argument('file_path', type=str, help='path of the log file') parser.add_argument('output_file', type=str, help='path of the output CSV file') args = parser.parse_args() # 读取 log 文件 lines = read_log_file(args.file_path) # 删除重复行 lines = remove_duplicate_rows(lines) # 将数据按正则表达式1分列，并写入 CSV 文件 df1 = parse_data1(lines) write_dataframe_to_csv(df1, args.output_file) # 从下一行开始，将数据按正则表达式2分列，并写入 CSV 文件 df2 = parse_data2(lines[1:]) write_dataframe_to_csv(df2, args.output_file) # 读取 CSV 文件 df = read_csv_file(args.output_file) # 将 DataFrame 按列名分类，并绘图 plot_data(df) # 执行 main 函数 if __name__ == '__main__': main() ``` 在命令行中执行以下命令： ``` python script.py input.log output.csv ``` 其中，`script.py` 是脚本文件名，`input.log` 是输入的 log 文件，`output.csv` 是输出的 CSV 文件。

阅读全文

相关推荐

使用Python将nextcloud.log解析并导出到Excel

Python读取配置文件：ini、yaml、xml详解

Python读取配置文件：ini、yaml、xml解析详解

Pandas在自动化测试中读取xlsx文件技巧

YOLO算法-城市电杆数据集-496张图像带标签-电杆.zip

(177406840)JAVA图书管理系统毕业设计(源代码+论文).rar

(35734838)信号与系统实验一实验报告

YOLO算法-椅子检测故障数据集-300张图像带标签.zip

基于小程序的新冠抗原自测平台小程序源代码（java+小程序+mysql+LW）.zip

YOLO算法-俯视视角草原绵羊检测数据集-4133张图像带标签-羊.zip

(171674830)PYQT5+openCV项目实战：微循环仪图片、视频记录和人工对比软件源码

新建 文本文档.docx

hw06.zip

3. Kafka入门-安装与基本命令

最新推荐

python读取多层嵌套文件夹中的文件实例

使用python批量读取word文档并整理关键信息到excel表格的实例

Python读取指定日期邮件的实例

Python脚本实时处理log文件的方法

YOLO算法-城市电杆数据集-496张图像带标签-电杆.zip

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程

新建文本文档.docx