"人工智能实验lab1：TFIDF和OneHot编码的应用"

需积分: 0 80 浏览量更新于2024-01-13 收藏 1.18MB PDF 举报

人工智能实验报告1 本实验旨在学习和掌握文本特征抽取的方法，包括TF-IDF和one-hot编码。实验使用的数据是一段文本。实验首先介绍了TF-IDF（Term Frequency-Inverse Document Frequency）的概念，它是一种用于衡量一个词在一个文档中的重要程度的方法。TF指的是一个词在文档中出现的频率，IDF指的是该词在整个文档集合中的逆文档频率。通过将TF和IDF相乘，我们可以得到TF-IDF值。实验使用Python的机器学习库sklearn来计算TF-IDF。首先，对于给定的文本，我们需要将其进行分词和去除停用词的预处理。分词是将一段文本划分为一个个独立的词语，而停用词是指在文本分析中没有实际意义的常见词汇，如“的”、“是”等。在实验中，我们使用了jieba库来进行分词，并使用了中文停用词表来去除停用词。在进行分词和去除停用词之后，我们将文本转化为词袋模型。词袋模型是一种用于表示文本的方法，它将文本表示为一个向量，向量的每个维度代表一个词语，而向量的值表示该词语在文本中的出现次数。在实验中，我们使用了sklearn的CountVectorizer来获取词袋模型。接下来，我们计算每个词语的TF-IDF值。TF-IDF可以用于衡量一个词语在文本中的重要程度，它越大表示该词语越重要。通过计算每个词语在文本中的TF-IDF值，我们可以得到一个词语与其对应的TF-IDF值的映射。在实验中，我们使用了TfidfVectorizer来计算TF-IDF值。除了TF-IDF，实验还介绍了one-hot编码的方法。one-hot编码是一种用于表示离散数值的方法。在实验中，我们将文本进行了编码，将每个词语表示为一个向量，向量的维度等于词袋模型中的词语数量，向量的值为1表示该词语在文本中出现，为0表示该词语未出现。在实验中，我们使用了sklearn的OneHotEncoder来进行编码。最后，我们对比了TF-IDF和one-hot编码的结果。实验结果表明，TF-IDF可以更好地衡量一个词语在文本中的重要程度，而one-hot编码只能表示一个词语是否出现。因此，在文本特征抽取任务中，TF-IDF是一种更好的特征表示方法。综上所述，本实验通过对文本的分词和去除停用词预处理，以及使用TF-IDF和one-hot编码进行特征抽取，实现了对文本的表示和描述。通过实验，我们掌握了文本特征抽取的方法，并深入理解了TF-IDF和one-hot编码的原理和应用。这对于进一步的文本分析和自然语言处理任务具有重要意义。

输本统计词语：

输本和词表计算反档频率：

def TF(data):

'''

计算每篇本词语的TF值

:return:返回本词语频率的字典

'''

total = len(data) # 统计总的词语数󰮢

dict={}

for word in data:

dict[word]=(dict.get(word,0)*total+1)/total

return dict

def count_words(data):

'''

输所有本组成的表

按照出现先后收集所有的词语并组成表返回

:param data:

:return: 返回词语按先后顺序形成的表

'''

word_set=set()

word_list=[]

for record in data:

for word in record:

if word not in word_set: # 󰉁集合来查询速度快，再按照先后顺序加到

表中

word_list.append(word)

word_set.add(word)

return word_list

def IDF(data,word_list):

'''

输所有本词语组成的表，遍历󰋴标词语表并计算每个词语的IDF

:param data:

:return:返回󰋴标词语表的每个词语对应的IDF

'''

IDF_list=[]

total = len(data)

for word in word_list:

count=0

for record in data:

if word in record:

count+=1

剩余14页未读，继续阅读

蔓誅裟華

粉丝: 25
资源: 303

"人工智能实验lab1：TFIDF和OneHot编码的应用"

人工智能实验1实验报告.doc

人工智能实验报告1

人工智能 实验报告

lab1_柚子组实验报告1

浙大-操作系统课程实验-内含实验报告.zip

哈工大组合优化与凸优化研究生课程实验内含实验报告和说明书.zip

哈尔滨工业大学计算机课程实验-人智导论实验报告-内含源码和说明书.zip

哈工大操作系统实验报告和源码.zip

北交课程实验操作系统作业报告.zip

南京大学操作系统实验内含源码和报告.zip

最新资源

人工智能实验报告