用python代码实现对词频出现次数较高的词汇放入特征词典中，31个类的特征词都放到一个文档里。然后对训练集的31个类的文档用one-hot向量化，即将每个文档中的每个句子表示成与特征词典一样长度的向量，遍历特征词典，只要句子中包含当前的特征词，标记为1，否则标记为0。

可以使用中的`collections.Counter`来实现对词频出现次数较高的词汇的计数，然后将出现次数最高的词放入特征词典中。代码示例如下： ```python import os import collections all_word_counts = collections.Counter() dict_file = 'feature_dict.txt' # 统计所有文本的词频 classes = os.listdir('train_data') for classname in classes: class_path = os.path.join('train_data', classname) files = os.listdir(class_path) for filename in files: filepath = os.path.join(class_path, filename) with open(filepath, 'r', encoding='utf-8', errors='ignore') as f: text = f.read() words = text.split() all_word_counts.update(words) # 获取出现次数最高的前N个词 N = 1000 most_common_words = [word for (word, count) in all_word_counts.most_common(N)] # 将特征词典写入文件 with open(dict_file, 'w', encoding='utf-8') as f: f.write('\n'.join(most_common_words)) ``` 然后，可以使用以下代码将训练集的文本转换为one-hot向量化的形式： ```python import numpy as np # 读取特征词典 with open(dict_file, 'r', encoding='utf-8') as f: feature_dict = f.read().split() # 遍历所有文本，将每个词语转换为one-hot向量 num_classes = 31 class_vectors = [] for classname in range(num_classes): class_vectors.append([]) class_path = os.path.join('train_data', str(classname)) files = os.listdir(class_path) for filename in files: filepath = os.path.join(class_path, filename) with open(filepath, 'r', encoding='utf-8', errors='ignore') as f: text = f.read().lower() words = text.split() vector = np.zeros(len(feature_dict)) for word in words: if word in feature_dict: index = feature_dict.index(word) vector[index] = 1 class_vectors[classname].append(vector) # 将列表转换为numpy数组 class_vectors = [np.array(vec_list) for vec_list in class_vectors] ```

阅读全文

相关推荐

python利用多种方式来统计词频（单词个数）

利用python实现词向量训练-----附件资源

采用python程序设计语言，进行分词，再去掉停用词和标点符号等，生成文档的词典

对去停用词的文档进行词频统计，即统计每个词出现的次数。对词频出现次数较高的词汇放入特征词典中，31个类的特征词都放到一个文档里。

用python代码实现对一个中文文档的词频统计，即统计每个词出现的次数，并实现次数的由大到小排序

用python代码实现对去停用词的文档进行词频统计，即统计每个词出现的次数。

用python代码实现对去停用词的文档进行词频统计，即统计每个词出现的次数，并实现次数的由大到小排序

用python代码实现对一个中文txt文件进行词频统计，即统计每个词出现的次数，并实现次数的由大到小排序

一篇200字的诗，以出现次数最多的五个单词为特征词作出诗的词频向量，并计算这五个词的单文本词频值，用Python代码实现

一篇大于200字的诗，以出现次数最多的五个单词为特征词作出诗的词频向量，并计算这五个词的单文本词频值，用Python代码实现

使用词典计算词频并排序的python代码

用Python对中文文档进行词频统计的代码

使用python对去停用词的文档进行词频统计，即统计每个词出现的次数

python选择一个文本进行词频统计，实现输入一个词，统计出现次数

python实现中文词频统计

智慧园区3D可视化解决方案PPT(24页).pptx

大家在看

煤矿井下图像型早期火灾探测

PDK安装及cdl文件和gds文件的导入

SAP各模块字段与表的对应关系

蓝牙室内定位服务源码！

Cadence Allegro16.6高级进阶教程

最新推荐

Python 合并多个TXT文件并统计词频的实现

python使用jieba实现中文分词去停用词方法示例

Python文本特征抽取与向量化算法学习

智慧园区3D可视化解决方案PPT(24页).pptx

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构