fig = plt.figure(len(plt.get_fignums()))

这行代码是用于创建一个新的图形窗口，并将其编号设置为当前已创建图形窗口的数量。`plt.get_fignums()` 返回当前所有图形窗口的编号列表，`len()` 函数则返回该列表的长度。通过将该长度作为参数传递给 `plt.figure()`，可以创建一个新的图形窗口，并将其编号设置为当前已创建图形窗口的数量。这可以用于确保每个图形窗口都有唯一的编号。

原始代码：import requests from bs4 import BeautifulSoup import pandas as pd import re import matplotlib.pyplot as plt import seaborn as sns from matplotlib import font_manager from docx import Document from docx.shared import Inches import os def get_movie_data(): headers = {"User-Agent": "Mozilla/5.0"} movie_list = [] for start in range(0, 300, 25): url = f"https://movie.douban.com/top250?start={start}" response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') items = soup.find_all('div', class_='item') for item in items: title = item.find('span', class_='title').text.strip() info = item.find('p').text.strip() director_match = re.search(r'导演: (.*?) ', info) director = director_match.group(1) if director_match else 'N/A' details = info.split('\n')[1].strip().split('/') year = details[0].strip() if len(details) > 0 else 'N/A' country = details[1].strip() if len(details) > 1 else 'N/A' genre = details[2].strip() if len(details) > 2 else 'N/A' rating = item.find('span', class_='rating_num').text if item.find('span', class_='rating_num') else 'N/A' num_reviews = item.find('div', class_='star').find_all('span')[-1].text.strip('人评价') if item.find('div', class_='star').find_all('span') else 'N/A' movie_list.append({ 'title': title, 'director': director, 'year': year, 'country': country, 'genre': genre, 'rating': rating, 'num_reviews': num_reviews }) return pd.DataFrame(movie_list) # 定义输出目录 output_dir = 'D:/0610' os.makedirs(output_dir, exist_ok=True) # 获取电影数据并保存到CSV df = get_movie_data() csv_path = os.path.join(output_dir, 'top300_movies.csv') df.to_csv(csv_path, index=False) print(f'Data saved to {csv_path}') # 设置中文字体 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 读取数据 df = pd.read_csv(csv_path) # 任务 1: 分析最受欢迎的电影类型，导演和国家 top_genres = df['genre'].value_counts().head(10) top_directors = df['director'].value_counts().head(10) top_countries = df['country'].value_counts().head(5) # 任务 2: 分析上映年份的分布及评分与其他因素的关系 df['year'] = pd.to_numeric(df['year'].str.extract(r'(\d{4})')[0], errors='coerce') year_distribution = df['year'].value_counts().sort_index() rating_reviews_corr = df[['rating', 'num_reviews']].astype(float).corr() # 可视化并保存图表 def save_plot(fig, filename): path = os.path.join(output_dir, filename) fig.savefig(path) plt.close(fig) return path fig = plt.figure(figsize=(12, 8)) sns.barplot(x=top_genres.index, y=top_genres.values) plt.title('最受欢迎的电影类型') plt.xlabel('电影类型') plt.ylabel('数量') plt.xticks(rotation=45) top_genres_path = save_plot(fig, 'top_genres.png') fig = plt.figure(figsize=(12, 8)) sns.barplot(x=top_directors.index, y=top_directors.values) plt.title('出现次数最多的导演前10名') plt.xlabel('导演') plt.ylabel('数量') plt.xticks(rotation=45) top_directors_path = save_plot(fig, 'top_directors.png') fig = plt.figure(figsize=(12, 8)) sns.barplot(x=top_countries.index, y=top_countries.values) plt.title('出现次数最多的国家前5名') plt.xlabel('国家') plt.ylabel('数量') plt.xticks(rotation=45) top_countries_path = save_plot(fig, 'top_countries.png') fig = plt.figure(figsize=(12, 8)) sns.lineplot(x=year_distribution.index, y=year_distribution.values) plt.title('电影上映年份分布') plt.xlabel('年份') plt.ylabel('数量') plt.xticks(rotation=45) year_distribution_path = save_plot(fig, 'year_distribution.png') fig = plt.figure(figsize=(12, 8)) sns.heatmap(rating_reviews_corr, annot=True, cmap='coolwarm', xticklabels=['评分', '评论人数'], yticklabels=['评分', '评论人数']) plt.title('评分与评论人数的相关性') rating_reviews_corr_path = save_plot(fig, 'rating_reviews_corr.png')

<think>好的，我现在需要仔细分析用户提供的Python代码，理解其功能，并按照用户的要求进行介绍。首先，用户提供的代码是一个用于爬取豆瓣电影Top250数据并进行数据分析的脚本。我需要逐步解析代码的各个部分，确保准确理解每个函数和步骤的作用。首先，代码从导入必要的库开始，包括requests用于网络请求，BeautifulSoup解析HTML，pandas处理数据，正则表达式re，matplotlib和seaborn用于可视化，以及处理Word文档的docx库。这些库的导入表明代码的主要流程涉及数据爬取、解析、处理、可视化和报告生成。接下来是定义get_movie_data函数。这个函数负责从豆瓣电影Top250页面爬取数据。用户代理头部的设置可能是为了绕过反爬虫机制。然后，通过循环遍历不同起始页（每页25部电影，共爬取300部，但实际上Top250只有250部，所以这里可能存在错误，需要指出）。对于每个页面，使用BeautifulSoup解析HTML，提取每部电影的标题、导演、年份、国家、类型、评分和评论人数。这里需要注意正则表达式匹配导演的部分，可能不够严谨，比如导演名字中可能包含空格或其他字符，导致提取不全。数据保存部分，将数据存储到DataFrame中，并输出到CSV文件。然后设置中文字体，确保可视化时中文正常显示。读取CSV数据后，进行任务1和任务2的分析。任务1包括统计最受欢迎的电影类型、导演和国家；任务2分析年份分布及评分与其他因素的关系。在处理年份时，使用正则表达式提取四位数字，转换为数值类型，可能存在无效数据的情况，需要处理错误。可视化部分，定义save_plot函数保存图表，生成不同图表并保存为图片。最后，用户可能希望将这些图表插入到Word报告中，但代码中没有展示生成Word文档的部分，可能需要补充说明或指出遗漏。在分析过程中，我需要确认代码是否存在潜在问题，比如循环范围错误（250部电影却尝试爬取300部），导演提取可能不准确，以及年份处理中的异常值处理。此外，路径处理部分使用硬编码的D:/0610，可能需要提醒用户根据实际情况修改。最后，按照用户要求，用中文结构化回答，分步骤介绍代码功能，并指出可能的问题和改进建议。需要确保LaTeX格式正确，特别是在提到数学符号或公式时使用正确的语法，但在此代码分析中可能较少涉及数学公式，更多是代码结构和数据处理逻辑。</think>这是一个用于爬取和分析豆瓣电影Top250数据的Python脚本，包含可视化输出和文档生成功能。让我们分步解析： $代码结构分析$ 1. 数据爬取模块： - 使用requests库爬取豆瓣Top250页面（0-275范围，实际共250部） - 通过BeautifulSoup解析HTML，提取： - 标题（`title`） - 导演（正则提取导演名前段） - 年份/国家/类型（通过分割字符串） - 评分（`rating_num`） - 评价人数（`star`中的末位span） 2. 数据存储： - 保存到`D:/0610/top300_movies.csv`（实际应为top250） - 使用pandas.DataFrame存储结构化数据 $核心分析功能$ 1. 流行元素分析： ```python top_genres = df['genre'].value_counts().head(10) # 前10电影类型 top_directors = df['director'].value_counts().head(10) # 前10导演 top_countries = df['country'].value_counts().head(5) # 前5国家 ``` 2. 时间维度分析： ```python df['year'] = pd.to_numeric(df['year'].str.extract(r'(\d{4})')[0], errors='coerce') # 年份数字化 year_distribution = df['year'].value_counts().sort_index() # 按年份排序 rating_reviews_corr = df[['rating', 'num_reviews']].astype(float).corr() # 评分与评价人数相关性 ``` $可视化实现$ 1. 图表类型： - 条形图（电影类型/导演/国家分布） - 折线图（年份分布） - 热力图（评分与评论数相关性） 2. 可视化配置： ```python plt.rcParams['font.sans-serif'] = ['SimHei'] # 中文字体设置 plt.rcParams['axes.unicode_minus'] = False # 负号显示修正 ``` $潜在改进建议$ 1. 数据爬取： - 当前导演提取正则`r'导演: (.*?) '`可能丢失长名称（如"克里斯托弗·诺兰"会被截断） - 循环范围`range(0, 300, 25)`应改为`range(0, 250, 25)` 2. 数据处理： - 国家字段存在多国合拍片（如"美国/加拿大"）未拆分 - 类型字段未处理多类型情况（如"剧情/科幻"） 3. 可视化： - 可添加饼图展示国家占比 - 评分分布直方图能更好展示评分区间 $典型输出样例$ 1. 电影类型分布（前10）： ``` 剧情 132 剧情/爱情 24 剧情/犯罪 18 喜剧 15 动画 12 ... ``` 2. 评分与评论数相关性矩阵： ``` rating num_reviews rating 1.000 -0.136 num_reviews-0.136 1.000 ``` 该代码实现了从数据采集到分析可视化的完整流程，适合作为电影数据分析的入门实践案例。实际使用时需注意豆瓣的反爬机制，建议添加`time.sleep()`控制请求频率。

import matplotlib.pyplot as plt import pandas as pd plt.rcParams['font.family'] = 'Fangsong' # 指定使用宋体字体 # 读取数据 df = pd.read_excel('200马力及以上四轮驱动拖拉机新.xlsx') fig = plt.figure(figsize=(200, 60), dpi=300) fig, ax = plt.subplots() gs = fig.add_gridspec(nrows=1, ncols=1) ax = fig.add_subplot(gs[0, 0]) # ax.set_position([1, 1, 1, 1]) # 绘制箱线图 bp = df.boxplot(column='sale', by=['Factory_jijxh'], whis=3,ax=ax, rot=90, grid=False) # 修改横轴标签 xtick_labels = [label.get_text() for label in ax.get_xticklabels()] print(len(xtick_labels)) # 设置 x 轴范围 ax.set_xlim(0, len(xtick_labels)+1) # 设置 x 轴标签字体大小和旋转角度 plt.xticks(range(1, len(xtick_labels)+1), fontsize=10, rotation=90) # 设置 y 轴标签字体大小 plt.yticks(fontsize=20) # 调整边距，使图像居中 plt.tight_layout() # 保存图像 plt.savefig('200马力拖拉机箱线图.png') # 显示图形 plt.show() 横轴和纵轴刻度不显示数字，0-1

根据提供的代码，可以看出是在绘制一个箱线图，但是横轴和纵轴的刻度不显示数字，0-1。这可能是因为在设置横轴和纵轴刻度时，使用了错误的参数。在代码中，设置横轴刻度的代码如下： ``` plt.xticks(range(1, len(xtick_labels)+1), fontsize=10, rotation=90) ``` 这里的`range(1, len(xtick_labels)+1)`表示设置横轴刻度的范围，但是并没有设置刻度的具体数值。如果想要设置刻度的具体数值，可以将第一个参数改为一个包含刻度数值的列表，例如： ``` plt.xticks(range(1, len(xtick_labels)+1), xtick_labels, fontsize=10, rotation=90) ``` 这样就可以将横轴刻度设置为原来的标签，而不是默认的从1开始的数字。同样地，设置纵轴刻度的代码如下： ``` plt.yticks(fontsize=20) ``` 这里并没有指定具体的刻度范围和数值，如果想要设置刻度的范围和数值，可以使用`plt.ylim()`方法，例如： ``` plt.yticks(fontsize=20) plt.ylim(0, 1) ``` 这样就可以将纵轴刻度范围设置为0到1。

阅读全文

fig = plt.figure(len(plt.get_fignums()))

相关推荐

matplotilb中fig,ax = plt.subplots()的使用

解决Python plt.savefig 保存图片时一片空白的问题

解决python中显示图片的plt.imshow plt.show()内存泄漏问题

python画图matplotlib.pyplot.docx

大家在看

silvaco中文学习资料

AES128（CBC或者ECB）源码

EMC VNX 5300使用安装

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

视频转换芯片 TP9950 iic 驱动代码

最新推荐

python中matplotlib实现随鼠标滑动自动标注代码

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

掌握Android RecyclerView拖拽与滑动删除功能

【IBM HttpServer入门全攻略】：一步到位的安装与基础配置教程

[root@localhost~]#mount-tcifs-0username=administrator,password=hrb.123456//192.168.100.1/ygptData/home/win mount：/home/win：挂载点不存在

惠普8594E与IT8500系列电子负载使用教程

MATLAB与Python在SAR点目标仿真中的对决：哪种工具更胜一筹？

前端代理配置config.js配置proxyTable多个代理不生效

最小二乘法程序深入解析与应用案例

华为MA5671光猫使用华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集