首页文本文件“红楼梦.txt”中包含《红楼梦》小说前20章内容。对“红楼梦.txt”中的文本进行分词，并对人物名称进行归一化处理：凤姐、凤姐儿、凤丫头归一为凤姐；宝玉、二爷、宝二爷归一为宝玉；黛玉、颦儿、林妹妹、黛玉道归一为黛玉；宝钗、宝丫头归一为宝钗；贾母、老祖宗归一为贾母；袭人、袭人道归一为袭人；贾政、贾政道归一为贾政；贾琏、琏二爷归一为贾琏。提取出场次数不少于40次的人物名称，将人物名称及其出场次数按照递减排序写入out.txt文件中。

文本文件“红楼梦.txt”中包含《红楼梦》小说前20章内容。对“红楼梦.txt”中的文本进行分词，并对人物名称进行归一化处理：凤姐、凤姐儿、凤丫头归一为凤姐；宝玉、二爷、宝二爷归一为宝玉；黛玉、颦儿、林妹妹、黛玉道归一为黛玉；宝钗、宝丫头归一为宝钗；贾母、老祖宗归一为贾母；袭人、袭人道归一为袭人；贾政、贾政道归一为贾政；贾琏、琏二爷归一为贾琏。提取出场次数不少于40次的人物名称，将人物名称及其出场次数按照递减排序写入out.txt文件中。

时间: 2023-07-04 15:04:03 浏览: 199

以下是Python代码实现： ```python import jieba # 归一化人物名称 name_dict = { "凤姐儿": "凤姐", "凤丫头": "凤姐", "二爷": "宝玉", "宝二爷": "宝玉", "颦儿": "黛玉", "林妹妹": "黛玉", "黛玉道": "黛玉", "宝丫头": "宝钗", "老祖宗": "贾母", "袭人道": "袭人", "贾政道": "贾政", "琏二爷": "贾琏" } # 读取文本文件 with open("红楼梦.txt", "r", encoding="utf-8") as f: text = f.read() # 分词并统计人物出现次数 word_count = {} for w in jieba.cut(text): if len(w) < 2: continue if w in name_dict: w = name_dict[w] if w in word_count: word_count[w] += 1 else: word_count[w] = 1 # 过滤出现次数不少于40次的人物 result = [(k, v) for k, v in word_count.items() if v >= 40] # 按照出现次数递减排序 result = sorted(result, key=lambda x: x[1], reverse=True) # 写入文件 with open("out.txt", "w", encoding="utf-8") as f: for r in result: f.write("{} {}\n".format(r[0], r[1])) ``` 运行后，会生成一个名为“out.txt”的文件，其中包含按出场次数递减排序的人物名称及其出场次数。

阅读全文