首页python按关键词提取dataframe文本数据

python按关键词提取dataframe文本数据

时间: 2023-10-07 18:09:21 浏览: 118

可以使用Python中的pandas和nltk库来实现关键词提取。以下是一个简单的示例代码： ```python import pandas as pd import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords # 读取csv文件 df = pd.read_csv('data.csv') # 将文本数据转换为字符串格式 text = ' '.join(df['text'].astype(str).tolist()) # 将文本数据分词 tokens = word_tokenize(text) # 去除停用词 stop_words = set(stopwords.words('english')) tokens = [word for word in tokens if not word.lower() in stop_words] # 定义关键词列表 keywords = ['keyword1', 'keyword2', 'keyword3'] # 提取包含关键词的文本 matches = [text for text in df['text'] if any(keyword in text for keyword in keywords)] # 输出匹配的文本 print(matches) ``` 在以上代码中，首先使用pandas库读取csv文件，然后将文本数据转换为字符串格式。接着使用nltk库中的word_tokenize函数将文本分词，并去除停用词。最后定义要提取的关键词列表，使用any函数遍历文本数据，匹配包含关键词的文本并输出。