Genre_data_NA = data.pivot_table(index = ['Genre',],values='NA_Sales',aggfunc=np.sum).sort_values('NA_Sales',ascending=False) Genre_data_EU =data.pivot_table(index = ['Genre',],values='EU_Sales',aggfunc=np.sum).sort_values('EU_Sales',ascending=False) Genre_data_JP = data.pivot_table(index = ['Genre',],values='JP_Sales',aggfunc=np.sum).sort_values('JP_Sales',ascending=False) Genre_data_Other =data.pivot_table(index = ['Genre',],values='Other_Sales',aggfunc=np.sum).sort_values('Other_Sales',ascending=False) Genre_data_NA # Genre_data_DF = pd.concat([Genre_data_NA,Genre_data_EU,Genre_data_JP,Genre_data_Other],axis = 1) data=Genre_data_NA Genre_name = data._stat_axis.values.tolist() # explodes=[0.1,0.1,0.1,0.1] plt.figure(figsize=(10,10)) plt.subplot(2,2,1) plt.pie(x=Genre_data_NA,labels=Genre_name,autopct="%0.1f%%",shadow=True) plt.title("北美地区的不同类型游戏销售额") plt.subplot(2,2,2) plt.pie(x=Genre_data_EU,labels=Genre_name,autopct="%0.1f%%",shadow=True) plt.title("欧洲地区的不同类型游戏销售额") plt.subplot(2,2,3) plt.pie(x=Genre_data_JP,labels=Genre_name,autopct="%0.1f%%",shadow=True) plt.title("日本地区的不同类型游戏销售额") plt.subplot(2,2,4) plt.pie(x=Genre_data_Other,labels=Genre_name,autopct="%0.1f%%",shadow=True) plt.title("其它地区的不同类型游戏销售额") plt.show()

Plat_Genre = pd.crosstab(data.Platform,data.Genre) Plat_Genre_sum = Plat_Genre.sum(axis=1).sort_values(ascending = False) Plat_Global_Sales = data.groupby('Platform')['Global_Sales'].sum().sort_values(ascending = False) Genre_Global_Sales = data.groupby('Genre')['Global_Sales'].sum().sort_values(ascending = False) f,ax = plt.subplots(1,3,figsize=(25,8),dpi=100) sns.barplot(Plat_Genre_sum.values,Plat_Genre_sum.index,ax=ax[0]) ax[0].set_title('Platform_Genre') sns.barplot(Plat_Global_Sales.values,Plat_Global_Sales.index,ax=ax[1]) ax[1].set_title('Platform_Global_Sales') sns.barplot(Genre_Global_Sales.values,Genre_Global_Sales.index,ax=ax[2]) ax[2].set_title('Genre_Global_Sales') plt.show()

通过 Plat_Genre_sum.values 和 Plat_Genre_sum.index，Plat_Global_Sales.values 和 Plat_Global_Sales.index，Genre_Global_Sales.values 和 Genre_Global_Sales.index 将数值和对应的标签传递给 sns...

Plat_Genre = pd.crosstab(data.Platform,data.Genre) Plat_Genre_sum = Plat_Genre.sum(axis=1).sort_values(ascending = False)

2. Plat_Genre_sum = Plat_Genre.sum(axis=1).sort_values(ascending=False)：它计算了每个平台上游戏的总数量，并按降序对结果进行排序。sum(axis=1) 表示沿着行的方向（即每个平台）对数量进行求和，然后 ...

data=Genre_data_NA Genre_name = data._stat_axis.values.tolist()

1. data=Genre_data_NA：这行代码将之前计算得到的北美地区不同游戏类型销售额的数据存储在变量data中。这个数据包含了游戏类型和对应的销售额。 2. Genre_name = data._stat_axis.values.tolist()：这行代码...

# Changing 'character' columns to factor/numeric sales_dataset$Platform=as.factor(sales_dataset$Platform) sales_dataset$Year_of_Release=as.numeric(sales_dataset$Year_of_Release) sales_dataset$Genre=as.factor(sales_dataset$Genre) sales_dataset$Publisher=as.factor(sales_dataset$Publisher) sales_dataset$Developer=as.factor(sales_dataset$Developer) sales_dataset$Rating=as.factor(sales_dataset$Rating)

这段代码是用来将数据...在这段代码中，将数据集sales_dataset中的Platform、Year_of_Release、Genre、Publisher、Developer和Rating列分别转换为因子型或数值型列。这样转换的目的是为了便于后续的数据分析和建模。

import requests from bs4 import BeautifulSoup import openpyxl def get_movie_data(year): url = f'https://maoyan.com/films?year={year}' headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) if response.status_code == 200: soup = BeautifulSoup(response.content, 'html.parser') movies = soup.select('.movie-item-title') movie_data = [] for movie in movies: movie_link = 'https://maoyan.com' + movie.a['href'] movie_data.append(get_movie_details(movie_link)) return movie_data else: print(f"Failed to fetch data for year {year}") return [] def get_movie_details(url): headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) if response.status_code == 200: soup = BeautifulSoup(response.content, 'html.parser') movie_name = soup.select_one('h1.name').text.strip() release_date = soup.select_one('.info-release').text.strip() genre = soup.select_one('.info-category').text.strip() director = soup.select_one('.info-director').text.strip() actors = [actor.text.strip() for actor in soup.select('.info-actor a')] maoyan_score = soup.select_one('.score-num').text.strip() box_office = soup.select_one('.info-num').text.strip() return { '电影名称': movie_name, '上映日期': release_date, '影片类型': genre, '导演': director, '演员': ', '.join(actors), '猫眼口碑': maoyan_score, '累计票房': box_office } else: print(f"Failed to fetch details for {url}") return {} def save_to_excel(data, filename): wb = openpyxl.Workbook() ws = wb.active headers = ['电影名称', '上映日期', '影片类型', '导演', '演员', '猫眼口碑', '累计票房'] ws.append(headers) for movie in data: row_data = [movie.get(header, '') for header in headers] ws.append(row_data) wb.save(filename) print(f"Data saved to {filename}") if name == 'main': years = range(2017, 2021) all_movie_data = [] for year in years: movie_data = get_movie_data(year) all_movie_data.extend(movie_data) save_to_excel(all_movie_data, 'maoyan_movies_2017_to_2020.xlsx')

在主程序中，通过循环遍历2017年到2020年的年份，调用get_movie_data(year)函数获取电影数据，然后将所有电影数据保存到名为maoyan_movies_2017_to_2020.xlsx的Excel文件中。注意：爬取网站数据时，请遵守网站...

class Transaction: """ Transaction initializer """ def init(self, title="", filename="", author="", public_key="", genre="", media = ""): self.title = title self.filename = filename self.author = author se

5. genre：交易的类型，例如音乐、电影、软件等。 6. media：交易的媒体类型，例如MP3、MP4、EXE等。该类的初始化方法__init__()用于初始化交易对象的属性值。通过定义交易类，我们可以轻松地创建和管理区块链上...

原始代码：import requests from bs4 import BeautifulSoup import pandas as pd import re import matplotlib.pyplot as plt import seaborn as sns from matplotlib import font_manager from docx import Document from docx.shared import Inches import os def get_movie_data(): headers = {"User-Agent": "Mozilla/5.0"} movie_list = [] for start in range(0, 300, 25): url = f"https://movie.douban.com/top250?start={start}" response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') items = soup.find_all('div', class_='item') for item in items: title = item.find('span', class_='title').text.strip() info = item.find('p').text.strip() director_match = re.search(r'导演: (.*?) ', info) director = director_match.group(1) if director_match else 'N/A' details = info.split('\n')[1].strip().split('/') year = details[0].strip() if len(details) > 0 else 'N/A' country = details[1].strip() if len(details) > 1 else 'N/A' genre = details[2].strip() if len(details) > 2 else 'N/A' rating = item.find('span', class_='rating_num').text if item.find('span', class_='rating_num') else 'N/A' num_reviews = item.find('div', class_='star').find_all('span')[-1].text.strip('人评价') if item.find('div', class_='star').find_all('span') else 'N/A' movie_list.append({ 'title': title, 'director': director, 'year': year, 'country': country, 'genre': genre, 'rating': rating, 'num_reviews': num_reviews }) return pd.DataFrame(movie_list) # 定义输出目录 output_dir = 'D:/0610' os.makedirs(output_dir, exist_ok=True) # 获取电影数据并保存到CSV df = get_movie_data() csv_path = os.path.join(output_dir, 'top300_movies.csv') df.to_csv(csv_path, index=False) print(f'Data saved to {csv_path}') # 设置中文字体 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 读取数据 df = pd.read_csv(csv_path) # 任务 1: 分析最受欢迎的电影类型，导演和国家 top_genres = df['genre'].value_counts().head(10) top_directors = df['director'].value_counts().head(10) top_countries = df['country'].value_counts().head(5) # 任务 2: 分析上映年份的分布及评分与其他因素的关系 df['year'] = pd.to_numeric(df['year'].str.extract(r'(\d{4})')[0], errors='coerce') year_distribution = df['year'].value_counts().sort_index() rating_reviews_corr = df[['rating', 'num_reviews']].astype(float).corr() # 可视化并保存图表 def save_plot(fig, filename): path = os.path.join(output_dir, filename) fig.savefig(path) plt.close(fig) return path fig = plt.figure(figsize=(12, 8)) sns.barplot(x=top_genres.index, y=top_genres.values) plt.title('最受欢迎的电影类型') plt.xlabel('电影类型') plt.ylabel('数量') plt.xticks(rotation=45) top_genres_path = save_plot(fig, 'top_genres.png') fig = plt.figure(figsize=(12, 8)) sns.barplot(x=top_directors.index, y=top_directors.values) plt.title('出现次数最多的导演前10名') plt.xlabel('导演') plt.ylabel('数量') plt.xticks(rotation=45) top_directors_path = save_plot(fig, 'top_directors.png') fig = plt.figure(figsize=(12, 8)) sns.barplot(x=top_countries.index, y=top_countries.values) plt.title('出现次数最多的国家前5名') plt.xlabel('国家') plt.ylabel('数量') plt.xticks(rotation=45) top_countries_path = save_plot(fig, 'top_countries.png') fig = plt.figure(figsize=(12, 8)) sns.lineplot(x=year_distribution.index, y=year_distribution.values) plt.title('电影上映年份分布') plt.xlabel('年份') plt.ylabel('数量') plt.xticks(rotation=45) year_distribution_path = save_plot(fig, 'year_distribution.png') fig = plt.figure(figsize=(12, 8)) sns.heatmap(rating_reviews_corr, annot=True, cmap='coolwarm', xticklabels=['评分', '评论人数'], yticklabels=['评分', '评论人数']) plt.title('评分与评论人数的相关性') rating_reviews_corr_path = save_plot(fig, 'rating_reviews_corr.png')

接下来是定义get_movie_data函数。这个函数负责从豆瓣电影Top250页面爬取数据。用户代理头部的设置可能是为了绕过反爬虫机制。然后，通过循环遍历不同起始页（每页25部电影，共爬取300部，但实际上Top250只有250部，...

优化以下代码，# 构建特征矩阵和标签向量 X = [] y = data['Rating'] for index, row in data.iterrows(): features = [] # 添加运行时长区间评分 if pd.notna(row['RunTime']): category1 = pd.cut([row['RunTime']], bins=bins1, labels=labels1)[0] if category1 in avg_runtime_ratings: features.append(avg_runtime_ratings[category1]) else: features.append(0) else: features.append(0) # 添加年份区间评分 if pd.notna(row['year']): category2 = pd.cut([row['year']], bins=bins2, labels=labels2)[0] if category2 in avg_year_ratings: features.append(avg_year_ratings[category2]) else: features.append(0) else: features.append(0) # 添加导演评分 if row.Director in avg_director_ratings: features.append(avg_director_ratings[row.Director]) else: features.append(0) # 添加编剧评分 if row.Writer in avg_writer_ratings: features.append(avg_writer_ratings[row.Writer]) else: features.append(0) # 添加主演评分 casts = row.TopTwoCasts.split(',') if len(casts) == 1: cast = casts[0] if cast in avg_casts_ratings: features.append(avg_casts_ratings[cast]) else: features.append(0) features.extend([0, 0]) else: cast_1, cast_2 = casts if cast_1 in avg_casts_ratings: features.append(avg_casts_ratings[cast_1] * 0.6) else: features.append(0) if cast_2 in avg_casts_ratings: features.append(avg_casts_ratings[cast_2] * 0.4) else: features.append(0) # 添加类型评分 genres = row.Genres.split(',') if len(genres) == 1: genre = genres[0] if genre in avg_genres_ratings: features.append(avg_genres_ratings[genre]) else: features.append(0) features.extend([0, 0]) elif len(genres) == 2: genre_1, genre_2 = genres if genre_1 in avg_genres_ratings: features.append(avg_genres_ratings[genre_1] * 0.6) else: features.append(0) if genre_2 in avg_genres_ratings: features.append(avg_genres_ratings[genre_2] * 0.4) else: features.append(0) features.append(0) else: genre_1, genre_2, genre_3 = genres if genre_1 in avg_genres_ratings: features.append(avg_genres_ratings[genre_1] * 0.4) else: features.append(0) if genre_2 in avg_genres_ratings: features.append(avg_genres_ratings[genre_2] * 0.3) else: features.append(0) if genre_3 in avg_genres_ratings: features.append(avg_genres_ratings[genre_3] * 0.3) else: features.append(0) X.append(features) X = pd.DataFrame(X)

X = data.apply(lambda row: get_feature(row, avg_runtime_ratings, avg_year_ratings, avg_director_ratings, avg_writer_ratings, avg_casts_ratings, avg_genres_ratings), axis=1) X = pd.DataFrame(X.tolist()...

修改下列代码，使得最后得到的图中每个类别的颜色都不一样：import pandas as pd import matplotlib.pyplot as plt # 将 Release Date 列转化为年份格式 df['year'] = pd.to_datetime(df['Release Date']).dt.year df['Genre'] = df['Genre'].apply(lambda x: eval(x)) genre_counts = df.groupby('year')['Genre'].apply(lambda x: pd.Series(x).value_counts(normalize=True)).unstack(fill_value=0) genre_counts.plot(kind='bar', stacked=True, figsize=(10, 6)) plt.title('Genre Distribution Over the Years') plt.xlabel('Year') plt.ylabel('Frequency') ax.set_xlim(df['year'].min(), 2021) plt.legend(loc='upper left', bbox_to_anchor=(1.05, 1)) plt.show()

genre_counts = df.groupby('year')['Genre'].apply(lambda x: pd.Series(x).value_counts(normalize=True)).unstack(fill_value=0) genre_counts.plot(kind='bar', stacked=True, figsize=(10, 6)) plt.title('...

class Block: def init(self, index, transaction, previous_hash): self.index = index self.timestamp = time() self.previous_hash = previous_hash self.transaction = transaction def compute_hash(self): concat_str = str(self.index) + str(self.timestamp) + str(self.previous_hash) + str(self.transaction['author']) + str(self.transaction['genre']) hash_result = hasher.sha256(concat_str.encode('utf-8')).hexdigest() return hash_result def serialize(self): return { 'index': self.index, 'timestamp': self.timestamp, 'previous_hash': self.previous_hash, 'transaction': self.transaction }

1. index：区块在区块链中的索引。 2. timestamp：区块生成的时间戳。 3. previous_hash：前一个区块的哈希值。 4. transaction：该区块包含的交易信息。该类的初始化方法__init__()用于初始化区块对象的属性值...

import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/subject/30228394/' header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)\ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'} response = requests.get(url=url, headers=header) soup = BeautifulSoup(response.text, 'html.parser') tv_infor = {} # 1.获取电视剧名称 name = soup.find(property="v:itemreviewed").string # 根据属性property="v: "查找 tv_infor['name'] = name # 将电影名称加到字典tv_infor中 # 2.获取导演 director = soup.find(rel="v: directedBy").string # 根据属性re1="v:directedBy“查找 tv_infor['director'] = director # 3.获取编剧 soup_list = soup. findAll(class_="attrs")[1].findAll('a') writers = [elem. string for elem in soup_list] tv_infor['writers'] = writers # 4.获取演员 soup_list = soup. findAll(rel="v:starring") actors = [elem. string for elem in soup_list] tv_infor['actors'] = actors # 5.获取类型 soup_list = soup. findAll(property="v: genre") tv_type = [elem. string for elem in soup_list] tv_infor['type'] = tv_type # 6.首播时间 release_date = soup.find(property="v: initialReleaseDate").string tv_infor['release_date'] = release_date # 7.豆瓣评分 rating = soup.find(property="v: average").string tv_infor['rating'] = rating # 8.参评人数 votes = soup.find(property="v: votes").string tv_infor['votes'] = votes print("电视剧《觉醒年代》相关信息如下：") for key, value in tv_infor.items(): print(key, ":", value)

这段代码实现了爬取豆瓣电视剧《觉醒年代》的相关信息并存储在一个字典中。具体的实现过程如下： 1. 引入requests和BeautifulSoup模块，并定义目标url和请求头。 ... ... 4. 将获取到的信息存储在一个字典中，键为信息的...

import requests from bs4 import BeautifulSoup import csv def get_top250_movies(): url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} movie_info_list = [] for i in range(0, 250, 25): params = {'start': str(i)} res = requests.get(url, headers=headers, params=params) soup = BeautifulSoup(res.text, 'html.parser') movie_list = soup.find_all('div', class_='info') for movie in movie_list: title = movie.find('span', class_='title').text info = movie.find('div', class_='bd').p.text.strip().split('\n') director = info[0][4:] actors = info[1][3:] year = info[1][-5:-1] rating = movie.find('span', class_='rating_num').text comment_num = movie.find('div', class_='star').find_all('span')[3].text[:-3] movie_info_list.append([title, director, actors, year, rating, comment_num]) return movie_info_list def save_to_csv(movie_info_list): with open('movie_info.csv', 'w', newline='', encoding='utf-8-sig') as f: writer = csv.writer(f) writer.writerow(['电影名称', '导演', '演员', '上映年份', '评分', '评论数']) for movie_info in movie_info_list: writer.writerow(movie_info) if name == 'main': movie_info_list = get_top250_movies() save_to_csv(movie_info_list) print('电影信息保存成功！') 在此代码的基础上对爬取的电影类型进行分析并找出评分最高的电影类型

type_info = soup_movie.find('span', property='v:genre').text.strip() title = movie.find('span', class_='title').text info = movie.find('div', class_='bd').p.text.strip().split('\n') director = ...

df = pd.get_dummies(df, columns=['genre', 'original_language'])

这行代码使用了 Pandas 库中的 get_dummies() 方法，将 DataFrame 中的 'genre' 和 'original_language' 两列进行独热编码。具体来说，它将每个类别转换为一个新列，列名为原始列名加上对应的类别值，值为 0 或 1 ...

mport requests from bs4 import BeautifulSoup import csv def get_top250_movies(): url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} movie_info_list = [] for i in range(0, 250, 25): params = {'start': str(i)} res = requests.get(url, headers=headers, params=params) soup = BeautifulSoup(res.text, 'html.parser') movie_list = soup.find_all('div', class_='info') for movie in movie_list: title = movie.find('span', class_='title').text info = movie.find('div', class_='bd').p.text.strip().split('\n') director = info[0][4:] actors = info[1][3:] year = info[1][-5:-1] rating = movie.find('span', class_='rating_num').text comment_num = movie.find('div', class_='star').find_all('span')[3].text[:-3] movie_info_list.append([title, director, actors, year, rating, comment_num]) return movie_info_list def save_to_csv(movie_info_list): with open('movie_info.csv', 'w', newline='', encoding='utf-8-sig') as f: writer = csv.writer(f) writer.writerow(['电影名称', '导演', '演员', '上映年份', '评分', '评论数']) for movie_info in movie_info_list: writer.writerow(movie_info) if name == 'main': movie_info_list = get_top250_movies() save_to_csv(movie_info_list) print('电影信息保存成功！') 在此代码的基础上对爬取的电影类型进行生成按照评分生成词云

wordcloud = WordCloud(background_color='white', width=800, height=400).generate(' '.join(genre_list)) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show() 这段代码将所有电影...

基于Andorid的音乐播放器项目改进版本设计.zip

基于Andorid的音乐播放器项目改进版本设计实现源码，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者，也可作为课程设计、期末大作业。

uniapp-machine-learning-from-scratch-05.rar

相关推荐

song_data.csv

Music-Genre-Classification-master_Genre_语音识别_音乐特征.zip

getchu_com_scraping_tools:www.getchu.com 抓取工具

Plat_Genre = pd.crosstab(data.Platform,data.Genre) Plat_Genre_sum = Plat_Genre.sum(axis=1).sort_values(ascending = False)

data=Genre_data_NA Genre_name = data._stat_axis.values.tolist()

class Transaction: """ Transaction initializer """ def __init__(self, title="", filename="", author="", public_key="", genre="", media = ""): self.title = title self.filename = filename self.author = author se

df = pd.get_dummies(df, columns=['genre', 'original_language'])

基于Andorid的音乐播放器项目改进版本设计.zip

uniapp-machine-learning-from-scratch-05.rar

大家在看

3dMax自动展UV神器UV-Packer插件

西南科大 微机原理自测题

使用Arduino监控ECG和呼吸-项目开发

图像的均方误差的matlab代码-alexandrelab_celltrackingcode:alexandrelab_celltrackin

DB2创建索引和数据库联机备份之间有冲突_一次奇特的锁等待问题案例分析-contracted.doc

最新推荐

基于Andorid的音乐播放器项目改进版本设计.zip

uniapp-machine-learning-from-scratch-05.rar

game_patch_1.30.21.13250.pak

【毕业设计-java】springboot-vue计算机学院校友网源码（完整前后端+mysql+说明文档+LunW）.zip

Cyclone IV硬件配置详细文档解析

【WinCC与Excel集成秘籍】：轻松搭建数据交互桥梁（必读指南）

华为模拟互联地址配置

Java游戏开发简易实现与地图控制教程

【超市销售数据深度分析】：从数据库挖掘商业价值的必经之路

在ubuntu中安装ros时出现updating datebase of manual pages...怎么解决

class Transaction: """ Transaction initializer """ def init(self, title="", filename="", author="", public_key="", genre="", media = ""): self.title = title self.filename = filename self.author = author se

西南科大微机原理自测题