x = train['contents_clean'][:10000] y = train['label'][:10000] x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2) vec = TfidfVectorizer(ngram_range=(1, 2)) ####考虑二维的特征临近的两个特征组合 X_train_vec = vec.fit_transform(x_train) X_test_vec = vec.transform(x_test) display(X_train_vec, X_test_vec) from sklearn.feature_selection import SelectKBest X_train_vec = X_train_vec.astype(np.float32) X_test_vec = X_test_vec.astype(np.float32) selector = SelectKBest(f_classif, k=min(20000, X_train_vec.shape[1])) selector.fit(X_train_vec, y_train) X_train_vec = selector.transform(X_train_vec) X_test_vec = selector.transform(X_test_vec) print(X_train_vec.shape, X_test_vec.shape)

时间: 2023-10-13 08:59:13 浏览: 247

这段代码是一个经典的文本分类流程，具体来说： - 首先，从 `train` 数据集中选择前 10000 条数据作为训练集，分别将文本和标签存储在 `x` 和 `y` 变量中。 - 然后，使用 `train_test_split` 函数将训练集划分为训练集和测试集，其中测试集大小为训练集大小的 20%。 - 接下来，使用 `TfidfVectorizer` 对文本进行特征提取，其中 `ngram_range=(1, 2)` 表示提取单个词和二元组合的词作为特征。文本特征提取后，将训练集和测试集的特征向量分别存储在 `X_train_vec` 和 `X_test_vec` 变量中。 - 然后，使用 `SelectKBest` 进行特征选择，选择最相关的前 20000 个特征。这里使用的是 `f_classif` 评价函数，该函数计算每个特征与目标变量之间的方差比值（ANOVA F-value）。 - 最后，将训练集和测试集的特征向量转换为经过特征选择后的特征向量，并打印出它们的形状。这段代码的目的是为了将原始的文本数据转换为可以用于机器学习模型训练的特征向量，并选择最相关的特征，以提高模型的性能。

阅读全文

相关推荐

Python脚本自动生成Caffe train_list.txt：步骤与示例

SHHB_train数据集txt处理与图片划分脚本

Caffe_train安装指南与COCO数据集深度训练详解

颜色分类leetcode-TensorFlow_VGG_train_test:VGG16和VGG19在TensorFlow中的训练和测试过程的

cv_template:一个图像复原或分割的统一框架，可以用于去雾:fog:、去雨:cloud_with_rain:、去模糊、夜景:night_with_stars:复原、超分辨率:alien_monster:、像素级分割等等

get_clean_data:获取和清理数据分配

JH_Clean_Data_Project:JH 数据清理类项目

Get_Clean_Data_Project:用于获取和清理数据的课程项目存储库

train_timetable_bot:Bot on python和aiogram用于通知和检查火车

tensorflow_Resnet_train_test:用于在自己的数据集上训练不同体系结构（DenseNet，ResNet，AlexNet，GoogLeNet，VGG，NiN）的代码+多GPU支持+批处理和单个图像测试支持

Get_Clean_Data_Project:这个仓库是为了开展“获取和清理数据”课程的项目

3D_BBOX_simple_test:for Dr. jie

op5-adv_train_lab:OP5高级培训实验室的包装器脚本

plot-number-train.rar_plot data_site:www.pudn.com_train_标号 matla

nlp_cloze_test:用word2vec做完形填空

yolo_mark_lite_python:为yolo_train_datas（.py）标记图像

classifier_multi_label_textcnn:multi-label，classifier，text classification，多标签文本分类，文本分类，BERT，ALBERT，multi-label-classification

classifier_multi_label:multi-label，classifier，text classification，多标签文本分类，文本分类，BERT，ALBERT，multi-label-classification

multi_task_test:使用tensorflow.contrib.slim训练用于多任务的简单CNN分类模型

YOLOv5_DOTA_OBB:带有CSL_label的DOTA中的YOLOv5。（定向对象检测）（旋转检测）（旋转BBox）

大家在看

几何清理-js实现的表格行上下移动操作示例

华为备份解压工具4.8

IS-GPS-200N ICD文件

ICCV2019无人机集群人体动作捕捉文章

基于python+opencv实现柚子缺陷识别检测源码+详细代码注释.zip

最新推荐

Kotlin开发的播放器（默认支持MediaPlayer播放器，可扩展VLC播放器、IJK播放器、EXO播放器、阿里云播放器）

AkariBot-Core：可爱AI机器人实现与集成指南

管理建模和仿真的文件

CC-LINK远程IO模块AJ65SBTB1现场应用指南：常见问题快速解决

switch语句和for语句的区别和使用方法

易语言实现程序启动限制的源码示例

"互动学习：行动中的多样性与论文攻读经历"

CC-LINK远程IO模块在环境监控中的应用：技术与案例探讨

Java 获取当前日期

轻量级开源应用程序CoverSearch快速下载音乐封面