奥斯卡最佳影片对话多样性分析研究报告

版权申诉
0 下载量 73 浏览量 更新于2024-10-05 收藏 236KB ZIP 举报
资源摘要信息: "本资源提供了BuzzFeed News在2018年3月2日发布的关于奥斯卡最佳影片提名电影对话多样性的分析数据、代码和结果。分析数据主要来源于三个年份的奥斯卡提名电影剧本——1989、2015和2017年的影片。数据文件包括电影中参与者的详细信息和角色的对话字数统计,通过这些数据,分析了影片中对话的多样性和性别、种族分布的状况。 1. 数据文件解析 - actor-metrics.csv: 包含了每个参与者的信息,包括上映年份、电影名称、演员姓名、角色名称、IMDB链接、性别、种族、所扮演角色的字数和句子数。 - character-word-counts.csv: 包含了每个角色的信息,包括上映年份、电影名称、角色名称、演员姓名、角色对话的词汇和该词汇出现的次数。 - 数据来源为1990年、2016年和2018年的奥斯卡提名电影剧本,对于《疯狂的麦克斯》和《我的左脚》因剧本缺失,使用了电影抄本。 2. 数据处理步骤 - 将PDF剧本转换成XML格式,利用Python的Beautiful Soup、TextBlob和ftfy库进行数据提取。 - 清理文本并将其标记化为句子和单词,导出到CSV文件。 - 手动将每个角色与演员进行匹配,并删除无法匹配、未出现在电影中或说话少于100个单词的角色。 3. 数据分析内容 - 分析了1989、2015和2017年的22部奥斯卡提名影片的对话多样性。 - 对演员的性别和种族分布进行了深入研究,提供了详细的量化数据支持。 4. 编程与分析语言 - 数据处理和分析主要使用了Python语言,并利用了其强大的文本处理库。 5. 标签和文件结构 - 本资源附带的标签为"python",说明了相关的数据处理和分析工作主要依赖于Python编程语言。 - 压缩包文件名称为"2018-03-oscars-script-diversity-analysis-master",表明了这是一个以奥斯卡电影剧本分析为主题的项目文件。 6. 分析重要性和背景 - 分析结果支持了BuzzFeed News发布的文章,提供了对奥斯卡电影提名中对话多样性的深入见解。 - 分析工作不仅提供了数据支持,还对电影产业中性别和种族多样性的讨论贡献了关键数据。 7. 数据的准确性和挑战 - 由于电影剧本可能存在的结构不完善和错误,数据标准化存在挑战。 - 电影剧本与最终电影内容可能存在差异,需要人工核对和调整。 - 演员的性别和种族信息有时候需要基于照片、传记和其他信息进行推断,增加了分析的复杂性。 8. 公共数据来源 - 剧本和电影信息来源于公共网站和奥斯卡奖数据库,例如Script Slug和互联网电影剧本数据库。 9. 结果的使用和影响 - 这项分析可能影响了人们对电影行业多样性的认识,并可能对未来的电影制作和剧本编写产生影响。 10. 分析的局限性 - 数据分析仅限于奥斯卡提名影片,可能无法代表所有电影的多样性状况。 - 由于无法匹配的角色和剧本差异,分析结果可能有一定的局限性。 以上总结了该资源的关键知识点,包括数据处理步骤、分析内容、使用的编程语言、文件结构、分析的重要性和背景、数据的准确性和挑战、公共数据来源、结果的使用和影响以及分析的局限性。这些信息为理解和评估BuzzFeed News对奥斯卡电影对话多样性的分析提供了全面的视角。