用python写一个对多个csv文件的分词代码,最终将结果放在一个txt文件中
时间: 2024-03-13 11:45:48 浏览: 65
AA.rar_txt文件处理_文件数据处理_读入TXT数据
好的,下面是一个基于Python的分词代码,可以对多个CSV文件进行分词,最终将结果放在一个TXT文件中:
```python
import csv
import jieba
# 定义分词函数
def segment_text(text):
seg_list = jieba.cut(text)
return " ".join(seg_list)
# 定义处理函数
def process_file(input_file_path, output_file):
# 读取CSV文件
with open(input_file_path, 'r', encoding='utf-8') as input_file:
reader = csv.reader(input_file)
headers = next(reader)
content_index = headers.index('content')
data = [row[content_index] for row in reader]
# 分词
seg_data = [segment_text(text) for text in data]
# 写入TXT文件
for seg_text in seg_data:
output_file.write(seg_text + '\n')
# 处理多个文件
input_dir = 'input' # 输入文件夹
output_file_path = 'output.txt' # 输出文件路径
file_names = ['file1.csv', 'file2.csv', 'file3.csv'] # 文件名列表
with open(output_file_path, 'w', encoding='utf-8') as output_file:
for file_name in file_names:
input_file_path = f'{input_dir}/{file_name}'
process_file(input_file_path, output_file)
```
这个代码和上一个示例的主要区别在于输出部分。我们将所有文件的分词结果写入同一个TXT文件中,因此在`process_file`函数中,将输出文件作为参数传入,每次分词完成后,将结果写入输出文件即可。
最后,我们遍历文件名列表,对每个文件进行处理,将输出文件路径传给`process_file`函数即可。
希望这个示例能够帮到你!
阅读全文