使用pandas将读取出来文本列的文本拆分成词语
时间: 2024-05-07 13:16:16 浏览: 109
Pandas实现一列数据分隔为两列
可以使用Python中的nltk库或jieba库来进行文本分词操作,然后将分词结果存储在新的列中。
以下是使用nltk库的示例代码:
``` python
import pandas as pd
import nltk
# 读取数据
data = pd.read_csv('data.csv')
# 定义分词函数
def tokenize_text(text):
tokens = nltk.word_tokenize(text)
return tokens
# 对文本列进行分词
data['tokens'] = data['text'].apply(tokenize_text)
# 输出结果
print(data.head())
```
以下是使用jieba库的示例代码:
``` python
import pandas as pd
import jieba
# 读取数据
data = pd.read_csv('data.csv')
# 定义分词函数
def tokenize_text(text):
tokens = jieba.cut(text)
return ' '.join(tokens)
# 对文本列进行分词
data['tokens'] = data['text'].apply(tokenize_text)
# 输出结果
print(data.head())
```
阅读全文