json文件遍历与内容提取及文本拆分实践

145 浏览量更新于2024-08-29 收藏 76KB PDF 举报

这段代码主要是关于在Python中处理JSON文件以及对文本文件进行操作的方法。首先，我们来分析提供的关键知识点： 1. **提取JSON文件中的值**: 作者定义了一个`load_data`函数，用于读取指定路径下的所有文件（包括子目录）。对于非目录文件，它会将文件路径添加到`li`列表中，存储为相对路径。这个函数通过`os.listdir()`获取文件列表，然后递归地遍历子目录，确保不会错过任何文件。当读取到JSON格式的文件时，使用`json.loads(line)`将每一行的JSON字符串转换成Python对象，然后提取出'answer'字段的值，并将其写入新的文本文件中。 2. **文件读写操作**: 在这里，函数不仅读取JSON文件，还进行了文件重命名和内容复制。原始的JSON文件被按照每行一个答案的方式拆分成多个新的JSON文件，每个新文件包含10000行。这样做的目的是可能为了简化后续的数据处理流程，如训练模型或进一步的数据分析，使得文件更易于管理。 3. **文本拆分**: 代码中提到的按固定行数拆分文本功能，是将一个大型JSON文件（如`new2016zh/news2016zh_train.json`）分割成多个小文件，每个小文件包含10000行。这有助于减少单个文件的大小，提高数据处理的效率，特别是在处理大数据集时。 4. **Git与GitHub集成**: 标签中提到的"gi", "git", 和 "github" 可能是指开发者在GitHub上管理代码版本控制的过程。在实际开发环境中，这段代码可能作为项目的一部分存储在GitHub仓库中，开发者可以通过Git提交、拉取、分支等操作进行协作和版本控制。 5. **Keras与测试**: 尽管标签中包含了"keras"，但代码本身并没有直接涉及Keras，Keras是一个深度学习框架，主要用于构建神经网络。如果这些代码与Keras模型训练有关，那么可能是在预处理数据或者生成特征数据集，供Keras模型使用。总结来说，这段代码提供了两种主要的功能：一是处理JSON文件，提取并重新组织其内容；二是根据行数限制拆分大文本文件。这些操作适用于需要管理和预处理大量文本数据的场景，特别是当涉及到机器学习项目时，对数据的清洗和格式化通常是前期的重要步骤。同时，它展示了如何使用Python标准库和一些基础文件操作来实现这些功能。

自己积累的一些问题和解决方法，跟我自己积累的一些问题和解决方法，跟我github上面的一样上面的一样

提取提取json文件中的值文件中的值

import json

import os

li = [] # 数据集列表

def load_data(filepath):

# 遍历filepath下所有文件，包括子目录，路径的最后要加斜杆

files = os.listdir(filepath)

for fi in files:

fi_d = os.path.join(filepath, fi+'/')

if os.path.isdir(fi_d):

load_data(fi_d)

else:

li.append(fi_d[:-1])

return li

load_data('D:/语料识别/语料库/')

print(len(li))

for i in range(0, len(li)):

# file_path = li[i] # (filepath, tempfilename) = os.path.split(file_path)

# (filename, extension) = os.path.splitext(tempfilename)

b = 'D:/语料识别/语料库/' + str(i) + '.txt'

# b = filepath + '/' + filename + '.txt'

file1 = open(li[i], 'r', encoding='utf-8')

file2 = open(b, 'w', encoding='utf-8')

for line in file1:

a_line = json.loads(line)

b_line = a_line['answer'] + ''

file2.write(b_line)

print(b)

file1.close()

file2.close()

按固定行数拆分文本按固定行数拆分文本

# 将一个大文本文件进行拆分，每10000行一次拆分

file1 = open('D:/语料识别/语料库/new2016zh/news2016zh_train.json', 'r', encoding='utf-8')

lines = file1.readlines()

try:

for j in range(0, (len(lines)//10000)+1):

file2 = open('D:/语料识别/语料库/new2016zh/train_' + str(j) + '.json', 'w', encoding='utf-8')

print(10000 * (j + 1), '/', len(lines))

for line in lines[10000*j: 10000*(j+1)]:

file2.write(line)

file2.close()

finally:

file1.close()

遍历遍历filepath下所有文件，包括子目录，存在于同一文件夹下的文件即拥有同一标签的数据下所有文件，包括子目录，存在于同一文件夹下的文件即拥有同一标签的数据

import os

import cv2

import numpy as np

import matplotlib.image as mi

dataset = [] # 数据集列表

labels = [] # 标签列表

label = 0 # 第一个标签

def load_data(filepath):

files = os.listdir(filepath)

for fi in files:

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38605144

粉丝: 6
资源: 945

json文件遍历与内容提取及文本拆分实践

GitHub 完全指南：教程、常见问题解决方法和项目示例

github加速器，可以解决github打开慢的问题

关于github的一些常见问题和解决方案

怎么解决github 443问题

解决github打不开的问题

给出GitHub的一些实用方法

GitHub Enterprise和GitHub区别

GitHub的使用方法

我的问题是GitHub的使用方法，不是python

flask框架可以挂github上面嘛

最新资源