文本文件“红楼梦•txt”中包含《红楼梦》小说前20章内容。对“红楼梦.txt”中的文本进行分词，并对人物名称进行归一化处理：凤姐、风姐儿、凤丫头归一为凤姐；宝玉、二爷、宝二爷归一为宝玉：黛玉、颦儿、林妹妹、黛玉道归一为黛玉；宝钗、宝丫头归一为宝钗；贾母、老祖宗归一为贾母；袭人、袭人道归一为袭人；费政、贵政道归一为费政：费琏、琏二爷归一为费琏。提取出场次数不少于40次的人物名称，将人物名称及其出场次数按照递减排序写入out. txt文件中。

时间: 2023-07-04 22:24:29 浏览: 200

好的，我可以帮你进行分词和人物名称的归一化处理。不过我暂时无法直接写文件，需要您自己将结果保存到文件中。以下是代码实现： ```python import jieba # 读取文本文件 with open('红楼梦.txt', 'r', encoding='utf-8') as f: text = f.read() # 分词 words = jieba.cut(text) # 人物名称归一化处理 name_dict = { '凤姐': '凤姐', '风姐儿': '凤姐', '凤丫头': '凤姐', '宝玉': '宝玉', '二爷': '宝玉', '宝二爷': '宝玉', '黛玉': '黛玉', '颦儿': '黛玉', '林妹妹': '黛玉', '黛玉道': '黛玉', '宝钗': '宝钗', '宝丫头': '宝钗', '贾母': '贾母', '老祖宗': '贾母', '袭人': '袭人', '袭人道': '袭人', '费政': '费政', '贵政道': '费政', '费琏': '费琏', '琏二爷': '费琏' } words = [name_dict.get(word, word) for word in words] # 统计人物出现次数 counter = {} for word in words: if word in counter: counter[word] += 1 else: counter[word] = 1 # 筛选出现次数不少于40次的人物名称 sorted_counter = sorted(counter.items(), key=lambda x: x[1], reverse=True) selected_names = [name for name, count in sorted_counter if count >= 40] # 输出结果 for name in selected_names: print(name, counter[name]) ``` 你可以将上面的代码复制到本地 Python 环境中运行。最后，将输出结果手动保存到 `out.txt` 文件中即可。

阅读全文

相关推荐

基于Python的红楼梦文本分析.zip

使用Python编写程序，统计书籍《红楼梦》中前20位出场次数最多的人物

8-4 将 红楼梦.txt 前5行的内容，使用 pickle 的 dump() 方法序列化数据，并写入 红楼梦.dat 文件中，再打开文件 红楼梦.dat，用 load() 方法将数据反序列化输出。

深度学习实验2数据-红楼梦TXT文本数据以及停用词

基于python对红楼梦文本进行可视化分析

红楼梦TXT文本数据深度学习实验分析

python爬取 红楼梦.txt

从互联网上下载《红楼梦》的某一回组成文本文件hlm.txt，然后设计一程序统计林黛玉和贾宝玉两个人名在文件中出现的次数。

python利用jieba库统计红楼梦.txt中人物出场次数，并将前一百名的人名和次数写入新文件

机器学习红楼梦中文文本分析

python红楼梦文本分析

参照教材13章的文本数据实例（《红楼梦》文本数据分析）中分词、去除停用词的操作对给出的电商评论数据进行文本数据预处理操作并导出数据文件(原始数据文件新增一列，内容为分好词后的评论）

用python对红楼梦进行文本过滤

文本分析：下载《红楼梦》的文本数据，统计红楼梦中人物出现次数最多的五位，并输出他们的名字和出现次数

python读取红楼梦的文本信息

大家在看

Chamber and Station test.pptx

宽带信号下阻抗失配引起的群时延变化的一种计算方法 (2015年)

短消息数据包协议

mediapipe_pose_torch_Android-main.zip

蒸汽冷凝器模型和 PI 控制：具有 PID 控制的蒸汽冷凝器的动态模型。-matlab开发

最新推荐

HTML挑战：30天技术学习之旅

【CodeBlocks精通指南】：一步到位安装wxWidgets库（新手必备）

andorid studio 配置ERROR: Cause: unable to find valid certification path to requested target

VC++实现文件顺序读写操作的技巧与实践

【大数据时代必备：Hadoop框架深度解析】：掌握核心组件，开启数据科学之旅

opencv的demo程序

NeuronTransportIGA: 使用IGA进行神经元材料传输模拟

【Linux多系统管理大揭秘】：专家级技巧助你轻松驾驭

fofa和fofa viewer的区别

重新编码项目的探索：以Flur艺术作品为例

8-4 将红楼梦.txt 前5行的内容，使用 pickle 的 dump() 方法序列化数据，并写入红楼梦.dat 文件中，再打开文件红楼梦.dat，用 load() 方法将数据反序列化输出。

python爬取红楼梦.txt