dataframe某列是英文text,怎么提取出现最多的几个关键词,举例
时间: 2023-09-24 17:05:39 浏览: 106
中英文关键词提取方法与Python示例
可以使用Python中的nltk(自然语言处理工具包)和pandas库来实现。下面是一个示例代码:
```python
import nltk
from nltk.corpus import stopwords
from collections import Counter
import pandas as pd
# 加载英文停用词
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))
# 读取数据
df = pd.read_csv('data.csv')
# 将所有单词转为小写并分词
words = df['text'].str.lower().str.split()
# 去除停用词
filtered_words = words.apply(lambda x: [word for word in x if word not in stop_words])
# 统计词频
word_counts = Counter([word for sublist in filtered_words for word in sublist])
# 输出出现频率前10的关键词
top_n = 10
for word, count in word_counts.most_common(top_n):
print(f'{word}: {count}')
```
这个示例代码假设数据集已经存储在一个名为"data.csv"的文件中,其中包含一个名为"text"的列,该列包含英文文本。代码首先加载英文停用词,然后使用Pandas库读取数据。接下来,它将所有单词转换为小写,然后使用nltk停用词列表过滤掉停用词。最后,它使用Python的计数器类来统计词频,并输出出现频率前10的关键词。
阅读全文