首页dataframe某列是英文text，怎么提取关键词和其他某列权重，保留权重高的几个词语，举例

dataframe某列是英文text，怎么提取关键词和其他某列权重，保留权重高的几个词语，举例

时间: 2023-09-19 10:08:05 浏览: 103

可以使用Python中的`nltk`库进行文本处理，`nltk`提供了一些常见的文本处理操作，包括关键词提取。以下是一个示例代码，演示如何从一个DataFrame中的英文text列中提取关键词，并根据其他某列的权重保留权重高的几个词语。 ```python import pandas as pd from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer from nltk.probability import FreqDist # 加载停用词 stop_words = set(stopwords.words('english')) # 加载词形还原器 lemmatizer = WordNetLemmatizer() # 加载数据 df = pd.read_csv('data.csv') # 定义函数，用于提取关键词 def extract_keywords(text, weight): # 将文本转换为小写 text = text.lower() # 分词 tokens = word_tokenize(text) # 去除停用词和标点符号 tokens = [t for t in tokens if t not in stop_words and t.isalpha()] # 词形还原 tokens = [lemmatizer.lemmatize(t) for t in tokens] # 计算词频 freq_dist = FreqDist(tokens) # 根据权重排序 sorted_words = sorted(freq_dist.items(), key=lambda x: x[1]*weight, reverse=True) # 返回前几个词语 return [w[0] for w in sorted_words[:3]] # 提取关键词，并添加到新的列中 df['keywords'] = df.apply(lambda row: extract_keywords(row['text'], row['weight']), axis=1) ``` 以上代码中，我们首先加载了停用词和词形还原器。然后定义了`extract_keywords`函数，该函数接受一行数据中的text和weight列作为参数，对text列中的文本进行分词、去除停用词、词形还原、计算词频等操作，最终返回权重高的几个词语。我们使用`apply`函数将该函数应用到DataFrame的每一行数据中，提取关键词并添加到新的keywords列中。

阅读全文