以下代码中使用的方法,哪些属于研究方法,请点明在该研究方法下具体使用的是什么方法:以下使用的代码中的方法,包含了哪些研究方法,并指出说明: ###--------------------特征提取-------------------- from sklearn.feature_extraction.text import CountVectorizer # 将分词后的data_list转化为字符串列表 data_str_list = [' '.join(words) for words in data_list] # 创建CountVectorizer对象 vectorizer = CountVectorizer() # 使用fit_transform方法将文本数据转化为词频向量 X = vectorizer.fit_transform(data_str_list) # 将微博文本标记为正面或负面 y = [] for i in data_str_list: if "原谅" in i or "爱" in i or "孝顺" in i: y.append(1) else: y.append(0)
时间: 2023-09-20 10:10:57 浏览: 85
该代码中使用了文本特征提取方法,属于数据分析方法中的一部分。具体来说,使用的是词袋模型中的CountVectorizer方法,将文本数据转化为词频向量,进而对微博文本进行分类。分类方法是二分类,属于统计学习方法中的分类方法。 在该方法中,使用了基于规则的手动标注方法对微博文本进行分类,属于传统的人工智能方法。
阅读全文