x_note = [] x_offset = [] for press_time_dict in midi_list: last_offset = Fraction(0, 1) sorted_keys = sorted(press_time_dict.keys(), key=lambda t: float(Fraction(t))) for i, key in enumerate(sorted_keys): note_arr = np.zeros(shape=(len(total_keys), len(duration_keys)), dtype=np.float32) for note, duration in press_time_dict[key]: note_arr[total_keys.index(note), duration_keys.index(duration)] = 1. note_arr[np.max(note_arr, axis=-1) == 0., duration_keys.index('0')] = 1. cur_offset = Fraction(key) x_offset.append(str(cur_offset - last_offset)) last_offset = cur_offset x_note.append(note_arr) x_note = np.stack(x_note, axis=0) offset_keys = list(set(x_offset)) x_offset_idx = np.array([offset_keys.index(offset_type) for offset_type in x_offset]) x_offset = np.eye(len(offset_keys), dtype=np.int32)[x_offset_idx] x_offset = np.array(x_offset, dtype=np.float32) np.save("notes_array.npy", x_note) np.save("offsets_array.npy", x_offset) np.save("note_keys_dict.npy", total_keys) np.save("note_offsets_dict.npy", offset_keys) np.save("note_durations_dict.npy", duration_keys)

时间: 2024-03-30 19:34:20 浏览: 221

PDF

对pandas中to_dict的用法详解

在Python的pandas库中，`to_dict()`方法是一个非常实用的功能，它允许我们将DataFrame对象转换为Python字典。这个方法对于数据处理和分析来说非常重要，因为它提供了多种方式来组织和提取DataFrame的数据到字典结构中。以下是关于pandas中`to_dict()`方法的详细解释： 1. **参数说明**： - `orient`：这是`to_dict()`方法的主要参数，决定了转换后的字典结构。可选的值有： - `'dict'`（默认）：返回的字典中，键是DataFrame的列名，值是另一层字典，其中键是DataFrame的索引，值是该列在该索引处的值。 - `'list'`：返回的字典中，键是DataFrame的列名，值是包含该列所有值的列表。 - `'series'`：返回的字典中，键是DataFrame的列名，值是Series对象，包含了该列的所有值。 - `'split'`：返回的字典包含三个键：`'index'`、`'columns'`和`'data'`，分别对应DataFrame的索引、列名和数据。 - `'records'`：返回一个列表，其中每个元素都是一个字典，表示DataFrame的一行记录。 - `'index'`：返回的字典中，键是DataFrame的索引，值是另一个字典，其中键是列名，值是该列在该索引处的值。 2. **示例**： - 当`orient='dict'`时，例如上述代码中的`data_dict`，我们可以通过`data_dict['age']`获取到一个字典，其中键是DataFrame的索引，值是对应的年龄。再通过索引如`data_dict['age'][12]`，我们可以获取到第12个乘客的年龄。 - 当`orient='list'`时，每列的值会被转化为一个列表，如`data_dict['age']`将返回一个包含所有乘客年龄的列表。 - 当`orient='series'`时，`data_dict['age']`会是一个Series对象，可以直接进行序列操作。 - 当`orient='split'`时，`data_dict['index']`、`data_dict['columns']`和`data_dict['data']`分别存储了索引、列名和二维数组形式的数据。 - 当`orient='records'`时，`data_dict`是一个记录字典的列表，每个字典代表DataFrame的一行，如`data_dict[0]`将给出第一行的记录字典。 - 当`orient='index'`时，数据结构反转，索引成为外层键，列名成为内层键。 3. **应用场景**： - `'dict'`通常用于当需要保留DataFrame的列名和索引关系时，特别是当你想以特定的索引顺序访问数据时。 - `'list'`适合于需要将一列数据转化为列表进行进一步处理的情况。 - `'series'`可能在需要保持原始DataFrame列的Series特性时使用，例如继续进行统计计算或操作。 - `'split'`结构对于理解DataFrame的结构很有帮助，特别是在处理复杂数据时，可以单独处理索引、列名和数据。 - `'records'`在需要将DataFrame数据转换为JSON格式或其他需要独立记录的场景下使用。 - `'index'`适用于按索引组织数据的特殊需求。了解这些选项后，可以根据实际需求灵活地使用`to_dict()`方法来转换和操作DataFrame数据，这极大地提高了数据分析的效率和灵活性。在处理大型数据集时，字典结构也更容易进行内存优化和快速查找。记住，根据`orient`参数的不同选择，转换后的字典结构会有所不同，因此在实际应用中需谨慎选择。

这段代码的作用是将`midi_list`列表中的所有键值对转换为神经网络的输入格式。具体来说，它将每个键值对转换为一个二维数组，其中每行表示一个音符，每列表示一个持续时间。对于每个键值对，它还将其对应的偏移量记录在`x_offset`列表中。在代码的第一部分中，它遍历`midi_list`中的每个键值对，并按照键的顺序将其排序。然后，它遍历排序后的键，并将其转换为一个二维数组。对于每个音符，它使用`total_keys`和`duration_keys`中的索引来确定其在数组中的位置，并将该位置的值设置为1。如果一个音符在该键值对中没有出现，则该位置的值为0。对于每个键值对，它还将持续时间为0的音符设置为1，以使这些音符可以被正确地处理。在代码的第二部分中，它使用`x_offset`列表中的偏移量将每个键值对与其之前的键值对分开。然后，它将`x_note`和`x_offset`转换为NumPy数组，并将它们保存在`.npy`文件中。最后，它将`total_keys`、`offset_keys`和`duration_keys`保存为`.npy`文件，以便在模型训练过程中使用。

阅读全文

相关推荐

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通