用matlab处理TF-IDF文本特征提取代码
时间: 2023-11-30 15:02:49 浏览: 28
以下是一份Matlab代码示例,用于对文本数据进行TF-IDF特征提取:
```matlab
%% 加载数据
docSet = {'This is the first document.',...
'This document is the second document.',...
'And this is the third one.',...
'Is this the first document?'};
%% 文本预处理
documents = tokenizedDocument(docSet); % 标记化
documents = removeStopWords(documents); % 去除停用词
documents = normalizeWords(documents,'Style','stem'); % 词干提取
%% 计算TF-IDF权重
bag = bagOfWords(documents); % 创建词袋模型
tfidf = tfidf(bag); % 计算TF-IDF权重
%% 显示TF-IDF权重
tfidfTable = tfidf2table(tfidf);
disp(tfidfTable);
%% 可视化TF-IDF权重
figure;
heatmap(tfidfTable,'Colormap',redbluecmap);
xlabel('单词');
ylabel('文档');
title('TF-IDF权重');
```
这个示例代码将数据集存储在一个单元格数组`docSet`中,然后对每个文档进行了文本预处理,包括标记化、停用词去除和词干提取。接下来,使用`bagOfWords`函数创建了一个词袋模型,并使用`tfidf`函数计算了TF-IDF权重。最后,使用`heatmap`函数将TF-IDF权重可视化。
您可以将此示例代码调整为适应您的数据集和用例。
阅读全文