insert parallel into

时间: 2024-07-26 12:01:18 浏览: 69

insert大量数据经验之谈

在很多时候，我们会需要对一个表进行插入大量的数据，并且希望在尽可能短的时间内完成该工作，这里，和大家分享下我平时在做大量数据insert的一些经验。　　前提：在做insert数据之前，如果是非生产环境，请将表的索引和约束去掉，待insert完成后再建索引和约束。　　1. 　　insert into tab1 select * from tab2; 　　commit; 　　这是基础的insert语句，我们把tab2表中的数据insert到tab1表中。根据经验，千万级的数据可在1小时内完成。但是该方法产生的arch会非常快，需要关注归档的产生量，及时启动备份软件，避免arc 在数据库管理中，高效地插入大量数据是一项关键任务，尤其对于大数据处理和分析而言。本文主要分享了在非生产环境中快速、大批量插入数据的一些经验技巧，这些技巧主要适用于Oracle数据库系统。基础的`INSERT INTO ... SELECT FROM`语句是最常见的数据迁移方式。例如： ```sql INSERT INTO tab1 SELECT * FROM tab2; COMMIT; ``` 这种操作适用于百万至千万级别的数据，可以在一小时内完成。然而，这种方法会导致归档日志（ARCH）快速生成，因此需要密切关注归档空间并及时备份，防止磁盘空间不足。为了优化性能，可以采用以下方法： 1. 使用`NOLOGGING`和`APPEND` Hint： ```sql ALTER TABLE tab1 NOLOGGING; INSERT /*+ APPEND */ INTO tab1 SELECT * FROM tab2; COMMIT; ALTER TABLE tab1 LOGGING; ``` 这种方法减少了归档日志的生成，加快了插入速度，但不适合在启用强制日志记录（FORCE LOGGING）的Data Guard环境中使用，因为这可能导致数据丢失风险。 2. 并行DML（Parallel DML）： ```sql ALTER SESSION ENABLE PARALLEL DML; INSERT /*+ PARALLEL */ INTO tab1 SELECT * FROM tab2; COMMIT; ``` 通过并行执行插入操作，可以显著提高效率，但并发度受到`parallel_max_servers`初始化参数的限制。同时，高并发可能导致enqueue等待，需谨慎使用。 3. 分区表并发插入： ```sql INSERT INTO tab1 PARTITION (p1) SELECT * FROM tab2; INSERT INTO tab1 PARTITION (p2) SELECT * FROM tab2; ... ``` 对于分区表，可以针对每个分区进行并发插入，增加处理速度。分区越多，可以并发的进程越多，但并发可能导致enqueue等待。 4. 批量绑定（Bulk Binding）： ```sql DECLARE TYPE dtarray IS TABLE OF VARCHAR2(20) INDEX BY BINARY_INTEGER; v_col1 dtarray; v_col2 dtarray; v_col3 dtarray; BEGIN SELECT col1, col2, col3 BULK COLLECT INTO v_col1, v_col2, v_col3 FROM tab2; FORALL i IN 1 .. v_col1.COUNT INSERT INTO tab1 WHERE tab1.col1 = v_col1(i); END; ``` 批量绑定可以减少PL/SQL和SQL引擎间的上下文切换，提高处理效率，特别适合在线处理场景，无需系统停机。 5. SQL*Plus的COPY命令： ```bash sqlplus -s user/pwd < runlog.txt SET COPYCOMMIT 2; SET ARRAYSIZE 5000; COPY FROM user/pwd@sid – TO user/pwd@sid – INSERT tab1 USING SELECT ... ``` SQL*Plus的COPY命令允许批量插入，通过调整`ARRAYSIZE`和`COPYCOMMIT`参数可以进一步优化性能。这些技巧可以根据实际场景灵活应用，以提高插入大量数据的效率。在执行这些操作时，确保对生产环境的影响降到最低，并始终监控系统的资源使用情况，以防止潜在的问题。在使用过程中，应结合实际情况测试和比较不同方法的效果，以便选择最适合的策略。

`INSERT PARALLEL INTO`是Oracle数据库中的一项特性，它允许用户同时向多张表插入数据，从而提高插入效率。这个特性通常在处理大量数据，特别是当数据来源于单个源并需要复制到多个目标表时非常有用。当你使用`INSERT PARALLEL INTO`时，通常需要以下几个步骤： 1. **启用并设置并行度**: ``` INSERT PARALLEL INTO table1, table2, ... [USING (expression)] VALUES (...), (...), ... ``` 并行度可以通过`PARALLEL`关键字后的数字指定，也可以使用`USING`子句配置自动调整。 2. **数据源**: 数据源通常是另一个表、视图或已存在的数据文件，数据会被分发到不同的进程去处理，每个进程独立地插入数据。 3. **并发控制**: Oracle会自动管理并发，确保数据一致性，避免潜在的数据冲突。 4. **优点**: - 提高了插入速度，尤其是在多CPU环境中。 - 可能减少网络I/O，因为数据可能会在本地磁盘之间移动，而不是直接从服务器传输。然而，要注意的是，并非所有场景都适合使用`INSERT PARALLEL INTO`，比如如果目标表有外键约束，或者数据更新频繁，可能需要谨慎考虑并发影响。

阅读全文

insert parallel into

相关推荐

华为数据仓库-GaussDB（DWS）入门教程

在ORACLE8中实现并行的数据处理语言.pdf

Oracle中的NOLOGGING、APPEND、ARCHIVE与PARALLEL对REDO、UNDO及执行速度的影响

[Practical Exercise] Data Storage and Analysis: Storing Scraped Data into MySQL and Performing Data ...

oracle insert into select 很慢,insert into 疑问：select 很快，但是insert into ** select 性能很慢...

oracle insert into select分批

hive insert into select大数据量

sqlserver insert如何并行

oracle数据库insert性能瓶颈

如何在多个不同窗口，使用ORACLE进行并行插入技术，防止insert导致的锁表

Amazon S3：S3静态网站托管教程.docx

基于支持向量机SVM-Adaboost的风电场预测研究附Matlab代码.rar

基于花朵授粉优化算法FPA优化TCN-BiGRU-Attention实现光伏数据回归预测附Matlab代码.rar

【粗糙面】基于matlab一维介质粗糙面双站散射系数计算【含Matlab源码 9130期】.mp4

CPPC++_半透明效果，大多数的win32飞出.zip

mondo rescue离线安装及系统恢复并且问题解决参考

VID_20241112_234319.mp4

【SCI2区】基于凌日优化算法TSOA优化TCN锂电池健康寿命预测算法研究Matlab实现.rar

基于C/C++实现根据人类手写汉字图片-使用机械臂复写汉字+源码+项目文档（毕业设计&课程设计&项目开发）

最新推荐

Navicat Premium Data Transfer.docx

sqlldr数据加载工具（sqlldr的介绍）

Oracle_SQL学习笔记.doc

微软内部资料-SQL性能优化5

Amazon S3：S3静态网站托管教程.docx

前端协作项目：发布猜图游戏功能与待修复事项

管理建模和仿真的文件

【高斯信道信号编码优化】：4大方法优化Chirp信号编码过程

对给定图，实现图的深度优先遍历和广度优先遍历。以邻接表或邻接矩阵为存储结构，实现连通无向图的深度优先和广度优先遍历。以用户指定的结点为起点，分别输出每种遍历下的结点访问序列，并调试算法。使用C语言

Spring框架REST服务开发实践指南