Python处理文本：《笑傲江湖》与《射雕英雄传》字符与词语统计

版权申诉

197 浏览量更新于2024-08-05 收藏 15KB DOCX 举报

"Python综合应用题.docx" 在Python编程中，给定的题目涉及到文本处理和数据分析。首先，我们来详细分析每一个问题及其解决方法。问题1：统计"笑傲江湖-网络版.txt"中所有中文字符及标点符号的数量，并以CSV格式保存。这个问题可以通过读取文件内容，然后遍历每个字符，判断是否为中文字符或标点符号来实现。参考代码中，已经给出了部分解决方案。首先，打开文件并读取内容，然后创建一个字典用于存储字符计数，排除空格和换行符。接着遍历文本中的每个字符，如果不在排除列表中，则增加其在字典中的计数。最后，将结果转换为CSV格式并写入新的文件。完整代码如下： ```python fi = open("笑傲江湖-网络版.txt", "r", encoding='utf-8') fo = open("笑傲江湖-字符统计.txt", "w", encoding='utf-8') txt = fi.read() d = {} for c in txt: if c not in [' ', '\n']: d[c] = d.get(c, 0) + 1 del d[''], d['\n'] ls = [] for key in d: ls.append(f"{key}:{d[key]}") fo.write(','.join(ls)) fi.close() fo.close() ``` 问题2：计算"笑傲江湖-网络版.txt"中引号内的字符占文本总字符的比例。这个问题通过遍历文本，使用一个标志变量`flag`来跟踪当前字符是否在引号内。当遇到左引号时，设置`flag`为True，遇到右引号时设置为False。若`flag`为True，表示当前字符在引号内，计数器加一。最后，计算比例并打印结果。参考代码已给出了解决方案。问题3：统计"射雕英雄传-网络版.txt"中出现次数最多的8个中文词语。这个问题需要用到jieba库进行中文分词。首先读取文件内容，然后使用jieba的lcut函数进行分词。接下来，创建一个字典来统计词频，最后找出出现次数最多的8个词。参考代码中给出的片段需要完善，以下为完整的代码： ```python import jieba fi = open("射雕英雄传-网络版.txt", "r", encoding='utf-8') txt = fi.read() fi.close() ls = jieba.lcut(txt) d = {} for w in ls: d[w] = d.get(w, 0) + 1 sorted_words = sorted(d.items(), key=lambda x: x[1], reverse=True) top_8_words = [word[0] for word in sorted_words[:8]] print("出现次数最多的8个词语是：", top_8_words) ``` 以上代码分别解决了三个不同的文本处理问题，涵盖了字符统计、引号内字符占比计算以及词语频率统计。这些任务都是Python在文本处理和数据分析领域常见的应用场景，对于理解和掌握Python的文本操作有很好的实践价值。

《笑傲江湖》是金庸的重要武侠作品之一。这里给出一个《笑傲江湖》的网络版本，文件

名为“笑傲江湖-网络版.txt”。

问题 1：请编写程序，统计该文件中出现的所有中文字符及标点符号的数量，每个字符及数量

之间用冒号:分隔，例如“笑:1024”，将所有字符及数量的对应采用逗号分隔，以 CSV 文件格

式保存到“笑傲江湖-字符统计.txt”文件中。注意，统计字符不包括空格和回车。

问题 2：请编写程序，统计“笑傲江湖-网络版.txt”中出现在引号内所有字符占文本总字符的

比例，采用如下方式打印输出：

用程序运行结果的真实数字替换上述示例中数字，均保留整数，字符串中标点符号采用中文字

符。

参考代码：

问题 1

fi = open("笑傲江湖-网络版.txt", "r", encoding='utf-8')

fo = open("笑傲江湖-字符统计.txt", "w", encoding='utf-8')

txt = fi.read()

d = {}

for c in txt:

d[c] = d.get(c, 0) + 1

del d[' ']

del d['']

ls = []

for key in d:

ls.append("{}:{}".format(key, d[key]))

fo.write(",".join(ls))

fi.close()

fo.close()

问题 2

fi = open("笑傲江湖-网络版.txt", "r", encoding='utf-8')

txt = fi.read()

cnt = 0

flag = False

for c in txt:

if c == "“":

flag = True

continue

if c == "”":

flag = False

if flag:

cnt += 1

print("占总字符比例：{:.0%}。".format(cnt/len(txt)))

fi.close()

《射雕英雄传》是金庸的重要武侠作品之一。这里给出一个《射雕英雄传》的网络版本，

文件名为“射雕英雄传-网络版.txt”。

请编写程序，统计该文件出现的所有中文词语及出现次数（不要求输出），并输出按照出现

次数最多的 8 个词语。

下载后可阅读完整内容，剩余6页未读，立即下载

Cheng-Dashi

粉丝: 106
资源: 1万+

Python处理文本：《笑傲江湖》与《射雕英雄传》字符与词语统计

Python简单应用题.docx

14-python综合练习题.docx

Python期末考试题.docx

python基础练习题.docx

PYTHON测精彩试题.docx

python-笔试题.docx

Python每日一题.docx

Python编程练习题.docx

python考试复习题库.docx

2021年Python程序设计题库.docx

最新资源