阿里终面：大数据量下10亿数据MySQL高效插入策略

需积分: 0 103 浏览量更新于2024-08-03 收藏 589KB PDF 举报

在"阿里终面：10亿数据如何快速插入MySQL？"这篇文档中，主要探讨了在大数据场景下如何高效地将10亿级数据快速插入MySQL数据库的问题。MySQL作为关系型数据库系统，其索引结构对性能有着显著影响。文章首先提到，由于MySQL的B+树索引设计，单表建议存储上限为2000万行，这是因为超过此数量会导致索引深度增加，从而降低插入和查询性能。 B+树的叶子节点每页大小为16KB，适合存储1KB大小的数据，这意味着每个叶子节点可以存储大约16条记录。非叶子节点存储的是主键和指向叶子节点的指针，这限制了每个非叶子节点能够关联的叶子节点数量。通过计算，当数据量超过2000万，B+树的层数会从3层升至4层，严重影响性能。为了优化大量数据的插入，文档提出了以下策略： 1. 批量写入：单条插入效率低，可以通过批量插入来提高性能。比如，可以将数据分为100个批次，每批100条数据进行写入，利用InnoDB存储引擎的事务支持，确保批量写入的原子性。 2. 顺序插入：按照主键ID的顺序进行插入，能最大化利用索引性能。而非主键索引插入可能导致随机访问，影响插入速度。 3. 并发控制：并发写入同一张表可能会导致数据乱序，因此不建议这样做。可以通过增加批量插入的阈值来提升并发度，而不是并发写入单表。 4. 存储引擎选择：MyISAM虽然插入性能优于InnoDB，但缺乏事务支持，不适合大规模批量插入。因此，在追求高性能的同时，应权衡事务保障的需求。 5. 索引管理：尽量避免在表创建后频繁创建或调整非主键索引，以保持插入性能。总结来说，本文针对10亿数据快速插入MySQL的挑战，提供了基于批量操作、顺序插入和合理配置存储引擎的解决方案，强调了在大数据处理时对数据库性能优化的重要性。

图片

从数据可以看到批量写入明显优于单条写入。并且在innodb关闭即时刷新

磁盘策略后，innodb插入性能没有比myisam差太多。

innodb_flush_log_at_trx_commit: 控制MySQL刷新数据到磁盘的策略。

1. 默认=1，即每次事务提交都会刷新数据到磁盘，安全性最高不会丢失数

据。

2. 当配置为0、2 会每隔1s刷新数据到磁盘，在系统宕机、mysql

crash时可能丢失1s的数据。

考虑到Innodb在关闭即时刷新磁盘策略时，批量性能也不错，所以暂定先

使用innodb（如果公司MySQL集群不允许改变这个策略值，可能要使用M

yIsam了。）。线上环境测试时可以重点对比两者的插入性能。

要不要进行分库

mysql 单库的并发写入是有性能瓶颈的，一般情况5K TPS写入就很高了。

当前数据都采用SSD

存储，性能应该更好一些。但如果是HDD的话，虽然顺序读写会有非常高

的表现，但HDD无法应对并发写入，例如每个库10张表，假设10张表在并

剩余13页未读，继续阅读

毕业小助手

粉丝: 2737
资源: 5598

阿里终面：大数据量下10亿数据MySQL高效插入策略

Mysql5.7.37-rpm安装包（aarch64平台）

mysql高级笔记 P1 day01-02. MySQL 高级 - Linux上安装MySQL P2 day01-03. MyS

mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar

最新资源