首页jupyter 文本数据特征提取TF-IDF

jupyter 文本数据特征提取TF-IDF

时间: 2023-07-03 11:12:54 浏览: 156

在 Jupyter Notebook 中使用 Python，可以使用 scikit-learn 库来进行文本数据的特征提取和 TF-IDF 计算。下面是一个示例代码： ```python import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer # 读取文本数据 df = pd.read_csv('your_text_data.csv') # 定义 TF-IDF 向量化器 vectorizer = TfidfVectorizer(stop_words='english') # 将文本数据转换为 TF-IDF 特征矩阵 tfidf_matrix = vectorizer.fit_transform(df['text_column']) # 获取特征名称列表 feature_names = vectorizer.get_feature_names() # 输出每个文本的特征向量 for i, row in df.iterrows(): text = row['text_column'] tfidf_vector = tfidf_matrix[i] print("Text #{}:".format(i)) for j, feature in enumerate(feature_names): score = tfidf_vector[0, j] if score > 0: print(" {}: {}".format(feature, score)) ``` 在上面的代码中，首先使用 Pandas 库读取你的文本数据。然后定义一个 `TfidfVectorizer` 向量化器，其中 `stop_words='english'` 参数表示忽略常见的英语停用词。接下来，使用向量化器的 `fit_transform` 方法将文本数据转换为 TF-IDF 特征矩阵。然后，使用向量化器的 `get_feature_names` 方法获取特征名称列表，遍历每个文本数据和每个特征，输出 TF-IDF 分数大于 0 的特征和对应的分数。你需要将示例代码中的 `'your_text_data.csv'` 和 `'text_column'` 替换为你的文本数据文件名和文本数据所在的列名。另外，如果你的文本数据非常大，你可能需要使用分块读取或者其他的内存优化方法来处理数据。

阅读全文