现有txt文件“电影信息.txt”，其中三列分别为电影名称、导演和演员表，之间用分号分隔（同一个电影可能会有多个演员，每个演员姓名之间使用逗号分隔；同一部电影也可能有多个导演，多个导演之间用逗号分隔）使用openpyxl和matplotlab实现电影数据分析任务：任务一：数据预处理将txt格式的电影数据文件转换为xlsx格式，并按指定要求填入sheet，具体要求如下： 1. 读取电影数据文件“电影信息.txt”，文件中每行为一部电影的信息，电影信息中包括三个字段，以分号(;)分隔，三个字段分别为电影名称、导演和演员表。 2. 首先创建一个新的Excel文件，文件名为“电影信息统计.xlsx”。在该文件中创建一个名为“电影信息统计”的sheet。 3. 在“电影信息统计”sheet中，第一列为电影编号，第二列为电影名称，第三列为导演名称，第四列为演员名单。如果同一部电影有多个导演或演员，则在同一单元格中以逗号(,)分隔。 4. 文本中若有重复的电影，则只保留其第一次出现的信息。 5. 在完成数据填写后，保存Excel文件，关闭文件。上述任务要求通过定义函数来实现

时间: 2024-02-12 07:08:49 浏览: 305

好的，我会根据您提供的需求，为您编写Python脚本实现电影数据分析任务。首先，我们需要安装两个库openpyxl和matplotlib，可以通过pip安装： ``` pip install openpyxl pip install matplotlib ``` 然后，我们需要读取电影数据文件“电影信息.txt”，并将其转换为xlsx格式的Excel文件。下面是实现代码： ```python import os import openpyxl def txt_to_excel(file_path): # 读取txt文件 with open(file_path, 'r', encoding='utf-8') as f: lines = f.readlines() # 创建新的Excel文件 wb = openpyxl.Workbook() ws = wb.active # 设置表头 ws.cell(row=1, column=1, value='电影编号') ws.cell(row=1, column=2, value='电影名称') ws.cell(row=1, column=3, value='导演名称') ws.cell(row=1, column=4, value='演员名单') # 去重并填写数据 movie_set = set() movie_id = 1 for line in lines: movie_info = line.strip().split(';') if len(movie_info) != 3: continue movie_name, director, actors = movie_info if movie_name in movie_set: continue movie_set.add(movie_name) # 填写电影编号 ws.cell(row=movie_id+1, column=1, value=str(movie_id)) # 填写电影名称 ws.cell(row=movie_id+1, column=2, value=movie_name) # 填写导演名称 ws.cell(row=movie_id+1, column=3, value=director) # 填写演员名单 actor_list = actors.split(',') actor_names = '' for i, actor in enumerate(actor_list): if i != 0: actor_names += ', ' actor_names += actor.strip() ws.cell(row=movie_id+1, column=4, value=actor_names) movie_id += 1 # 保存Excel文件 excel_file = os.path.splitext(file_path)[0] + '.xlsx' wb.save(excel_file) return excel_file ``` 以上代码中，我们定义了一个`txt_to_excel`函数，接受一个参数`file_path`，表示电影数据文件的路径。该函数首先读取文件中的所有行，然后创建一个新的Excel文件，并在其中创建一个名为“电影信息统计”的sheet。接着，我们设置了表头并定义了一个`movie_set`集合，用于去重。然后，我们遍历所有行，并对每行进行处理。如果该行包含的字段数不等于3，则跳过该行。否则，将电影名称、导演和演员表分别赋值给`movie_name`、`director`和`actors`变量。如果该电影名称已经在`movie_set`集合中出现过，则跳过该行；否则，将其添加到`movie_set`集合中。接着，我们填写电影编号、电影名称、导演名称和演员名单到Excel文件中。对于演员名单，我们将其按照逗号分隔，并在每个演员姓名之间添加一个空格。最后，我们保存Excel文件，并返回文件路径。接下来，我们需要实现数据可视化任务。具体要求是：统计每个导演执导的电影数量，并将结果绘制成柱状图。下面是实现代码： ```python import openpyxl import matplotlib.pyplot as plt def visualize_data(excel_file): # 读取Excel文件 wb = openpyxl.load_workbook(excel_file) ws = wb.active # 统计每个导演执导的电影数量 director_dict = {} for row in ws.iter_rows(min_row=2, values_only=True): director = row[2] if director in director_dict: director_dict[director] += 1 else: director_dict[director] = 1 # 绘制柱状图 plt.bar(range(len(director_dict)), list(director_dict.values()), align='center') plt.xticks(range(len(director_dict)), list(director_dict.keys()), rotation=90) plt.xlabel('导演名称') plt.ylabel('电影数量') plt.title('导演执导的电影数量统计') plt.show() ``` 以上代码中，我们定义了一个`visualize_data`函数，接受一个参数`excel_file`，表示已经处理好的Excel文件的路径。该函数首先读取Excel文件，并遍历所有行，统计每个导演执导的电影数量，将结果存储在`director_dict`字典中。接着，我们使用`matplotlib`库绘制柱状图。我们将`director_dict`字典的键和值分别传递给`plt.xticks`和`plt.bar`函数，用于设置X轴刻度和绘制柱状图。最后，我们设置柱状图的X轴标签、Y轴标签和标题，并通过`plt.show`函数显示柱状图。综上所述，我们可以将以上两个函数整合到一个可执行的Python脚本中，实现电影数据分析任务。

阅读全文

相关推荐

电影数据1.xlsx

电影数据xls格式数据

电影数据3.xlsx

*.txt 读取：此函数将制表符分隔的 txt 文件读取到元胞数组中。-matlab开发

电影数据2.xlsx

Python电影数据分析.pdf

强大的数据文件读取实用程序 (RDFREAD)：从逗号或制表符分隔的文件中导入数据。-matlab开发

2015-2024软考中级信息安全工程师视频教程网课程真题库课件复习材料.zip

智慧城市安防-YOLOv11夜间低光环境下的异常行为检测实战.pdf

农业智能化革命-YOLOv11实现多作物叶片实时分割与表型分析.pdf

基于布莱克曼窗的99阶FIR滤波器设计，实现50MHz采样频率下的1.5MHz通带滤波，图例展示滤波效果,Quartus仿真下的FIR滤波器设计：采用布莱克曼窗，99阶，50MHz采样频率与1.5MH

基于CT的肺部疾病分类数据

遥感图像处理新范式-YOLOv11在卫星影像地物分类中的创新应用.pdf

7-Zip（压缩包软件）

windows 11 专业版 (第4个文件/总5文件)

物流仓储效率翻倍-YOLOv11多品类货物破损识别系统搭建指南.pdf

大家在看

AGV硬件设计概述.pptx

DSR.rar_MANET DSR_dsr_dsr manet_it_manet

VITA 62.0.docx

年终活动抽奖程序，随机动画变化

形成停止条件-c#导出pdf格式

最新推荐

linux中的分号&&和&，|和||说明与用法

2015-2024软考中级信息安全工程师视频教程网课程真题库课件复习材料.zip

智慧城市安防-YOLOv11夜间低光环境下的异常行为检测实战.pdf

农业智能化革命-YOLOv11实现多作物叶片实时分割与表型分析.pdf

基于布莱克曼窗的99阶FIR滤波器设计，实现50MHz采样频率下的1.5MHz通带滤波，图例展示滤波效果,Quartus仿真下的FIR滤波器设计：采用布莱克曼窗，99阶，50MHz采样频率与1.5MH

Spring Websocket快速实现与SSMTest实战应用

电力电子技术的智能化：数据中心的智能电源管理

通过spark sql读取关系型数据库mysql中的数据

新版微软inspect工具下载：32位与64位版本

如何运用电力电子技术实现IT设备的能耗监控