用Python进行简单文本挖掘：（1）选用合适的方法，读取给定天龙八部.txt 文档（2）请找出主要角色的首次出场时间，可由字符出现位置表示【主要角色：乔峰、段誉、虚竹、阿朱、阿紫、慕容复、王语嫣、段正淳、木婉清、鸠摩智、游坦之、丁春秋、钟灵、包不同、马夫人、阿碧、段延庆、玄慈、云中鹤、叶二娘、苏星河、李秋水、天山童姥、扫地僧、阮星竹、甘宝宝、秦红棉、刀白凤、梦姑】（3）请统计上述主要人物的出现次数（4）请计算上述主要人物多久后下线（最后一次出现与第一次出现字符位置之差）（5）将上述四列信息（人物名称、首次出现位置、出现次数、出场时间长度）存入.csv 文件

时间: 2023-07-10 21:41:29 浏览: 114

答：好的，我会按照您的要求进行文本挖掘。以下是代码实现： ```python import re import csv # 读取文本文件 with open('天龙八部.txt', 'r', encoding='utf-8') as f: text = f.read() # 角色列表 roles = ['乔峰', '段誉', '虚竹', '阿朱', '阿紫', '慕容复', '王语嫣', '段正淳', '木婉清', '鸠摩智', '游坦之', '丁春秋', '钟灵', '包不同', '马夫人', '阿碧', '段延庆', '玄慈', '云中鹤', '叶二娘', '苏星河', '李秋水', '天山童姥', '扫地僧', '阮星竹', '甘宝宝', '秦红棉', '刀白凤', '梦姑'] # 首次出现位置字典 first_appearances = {} # 出现次数字典 appearances_count = {} # 最后出现位置字典 last_appearances = {} for role in roles: # 找出每个角色首次出现的位置 first_appearances[role] = text.find(role) # 统计每个角色出现的次数 appearances_count[role] = len(re.findall(role, text)) # 找出每个角色最后一次出现的位置 last_appearances[role] = text.rfind(role) # 计算每个角色出场时间长度 time_length = {} for role in roles: time_length[role] = last_appearances[role] - first_appearances[role] # 将四列信息以csv格式保存到文件 with open('角色信息.csv', 'w', newline='', encoding='utf-8-sig') as f: writer = csv.writer(f) writer.writerow(['人物名称', '首次出现位置', '出现次数', '出场时间长度']) for role in roles: writer.writerow([role, first_appearances[role], appearances_count[role], time_length[role]]) print('文件已保存') ``` 这段代码实现了您的所有要求，并且将结果以CSV格式保存在了名为“角色信息.csv”的文件中。

阅读全文

相关推荐

基于Python实现文本挖掘(大数据)【100012162】

基于Python实现文本挖掘(大数据)【100012149】

基于Python实现文本挖掘【100012708】

基于python的文本挖掘应用.pdf

python文本挖掘

文本挖掘python

【Book】用Python做文本挖掘

vb定时显示报警系统设计(论文+源代码)(2024a7).7z

Java毕设项目：基于spring+mybatis+maven+mysql实现的会员积分管理系统【含源码+数据库+毕业论文】

Java Spring Boot 微服务 – Eureka 和 Spring Cloud Gateway 的集成

ASP.NET基于CS结构的企业人事管理系统的设计与实现(源代码+论文)(2024qs).7z

毕设-PHP-[整站程序]雪缘动感在线系统_luckysnow38.zip

【未发表】基于向量加权平均算法INFO优化集成学习结合核极限学习机KELM-Adaboost实现风电数据时序预测算法研究附Matlab代码.rar

JAVA个人课设基于springboot的微信小程序宠物领养医院系统项目（含源码与说明）.zip

asp.net多线程的TCP端口扫描程序的设计与实现(源代码+论文)(2024cg).7z

VB连锁店信息管理系统设计(源代码+系统)(2024pm).7z

【未发表】基于减法平均优化算法SABO优化鲁棒极限学习机RELM实现负荷数据回归预测算法研究附Matlab代码.rar

VB工资管理系统设计(源代码+论文)(2024ub).7z

峰度- 偏度检验matlab源程序

课程设计基于Udacity机器学习模型的波士顿房价预测算法+设计报告（含源码+说明文档）.zip

大家在看

西软S酒店管理软件V3.0说明书

用单片机实现声级计智能

2_JFM7VX690T型SRAM型现场可编程门阵列技术手册.pdf

鲁大师 v5.1021.1300 LITE.rar

OpenCL 代码优化

最新推荐

vb定时显示报警系统设计(论文+源代码)(2024a7).7z

Java毕设项目：基于spring+mybatis+maven+mysql实现的会员积分管理系统【含源码+数据库+毕业论文】

Java Spring Boot 微服务 – Eureka 和 Spring Cloud Gateway 的集成

ASP.NET基于CS结构的企业人事管理系统的设计与实现(源代码+论文)(2024qs).7z

毕设-PHP-[整站程序]雪缘动感在线系统_luckysnow38.zip

S7-PDIAG工具使用教程及技术资料下载指南

管理建模和仿真的文件

CC-LINK远程IO模块AJ65SBTB1现场应用指南：常见问题快速解决

python 画一个进度条

Nginx 1.19.0版本Windows服务器部署指南