PATH = "C:\\Users\\chenjing\\Desktop\\result.csv" file_object2=open(PATH,encoding = 'utf-8',errors = 'ignore').read().split('\n') #一行行的读取内容 data_set=[] #建立存储分词的列表 for i in range(len(file_object2)): result=[] seg_list = file_object2[i].split() for w in seg_list : #读取每一行分词 result.append(w) data_set.append(result) print(data_set)结果乱码
时间: 2024-03-16 09:43:37 浏览: 71
L1034-农村养老保障问题研究-13%-chenjing-20140730-论文.zip
这段代码中打开文件时指定了`encoding='utf-8'`,也就是说文件应该以UTF-8编码保存,但是在读取文件时却没有指定编码,这可能会导致乱码。你可以尝试修改代码为如下形式,指定正确的文件编码:
```
import codecs
PATH = "C:\\Users\\chenjing\\Desktop\\result.csv"
file_object2 = codecs.open(PATH, 'r', encoding='utf-8', errors='ignore')
lines = file_object2.readlines()
data_set = []
for line in lines:
result = []
seg_list = line.strip().split()
for w in seg_list:
result.append(w)
data_set.append(result)
print(data_set)
```
这样应该就可以正确读取并分词了。
阅读全文