hive mapper 执行个数
时间: 2023-08-15 12:11:09 浏览: 47
Hive mapper 的执行个数由输入数据的大小和配置参数决定。具体来说,Hive 会将输入数据切分为若干个数据块,每个数据块由一个或多个 mapper 处理。mapper 的个数可以通过设置 mapred.map.tasks 参数来控制,但实际 mapper 的个数还受到其他因素的影响,比如输入数据的大小、数据块大小、数据分布等。一般情况下,Hive 会自动根据数据大小和配置参数来计算 mapper 的个数,以达到最优的性能和资源利用率。
相关问题
hive的100个关键词
### 回答1:
1. SELECT
2. FROM
3. WHERE
4. GROUP BY
5. ORDER BY
6. JOIN
7. LEFT JOIN
8. RIGHT JOIN
9. FULL OUTER JOIN
10. INNER JOIN
11. UNION
12. UNION ALL
13. HAVING
14. COUNT
15. SUM
16. AVG
17. MAX
18. MIN
19. DISTINCT
20. PARTITION BY
21. OVER
22. ROW_NUMBER
23. RANK
24. DENSE_RANK
25. LAG
26. LEAD
27. FIRST_VALUE
28. LAST_VALUE
29. NTILE
30. CASE
31. WHEN
32. THEN
33. ELSE
34. END
35. CAST
36. AS
37. CONCAT
38. SUBSTR
39. LENGTH
40. TRIM
41. LOWER
42. UPPER
43. REPLACE
44. REGEXP_REPLACE
45. REGEXP_EXTRACT
46. SPLIT
47. EXPLODE
48. MAP
49. ARRAY
50. STRUCT
51. IF
52. COALESCE
53. NULLIF
54. NVL
55. NVL2
56. DATE
57. TIMESTAMP
58. CURRENT_DATE
59. CURRENT_TIMESTAMP
60. YEAR
61. MONTH
62. DAY
63. HOUR
64. MINUTE
65. SECOND
66. DATE_FORMAT
67. TO_DATE
68. TO_TIMESTAMP
69. INTERVAL
70. ADD_MONTHS
71. DATE_ADD
72. DATE_SUB
73. TRUNC
74. ROUND
75. CEIL
76. FLOOR
77. ABS
78. SIGN
79. EXP
80. LN
81. LOG10
82. POWER
83. SQRT
84. MOD
85. RAND
86. PI
87. E
88. CONCAT_WS
89. INITCAP
90. INSTR
91. LPAD
92. RPAD
93. REGEXP_INSTR
94. REGEXP_SUBSTR
95. REGEXP_LIKE
96. ARRAY_CONTAINS
97. ARRAY_SIZE
98. ARRAY_JOIN
99. ARRAY_FLATTEN
100. ARRAY_SLICE
### 回答2:
1. Hive(蜂巢)
2. Hadoop(哈多普)
3. 分布式(Distributed)
4. 大数据(Big Data)
5. 数据仓库(Data Warehouse)
6. 数据处理(Data Processing)
7. 结构化查询语言(SQL)
8. MapReduce(映射与归约)
9. 数据分析(Data Analysis)
10. 数据挖掘(Data Mining)
11. 数据仓库管理(Data Warehouse Management)
12. 数据提取(Data Extraction)
13. 数据转换(Data Transformation)
14. 数据加载(Data Loading)
15. 数据查询(Data Query)
16. HiveQL(Hive Query Language)
17. 数据存储(Data Storage)
18. 行式存储(Row Storage)
19. 列式存储(Column Storage)
20. 分区(Partition)
21. 桶(Bucket)
22. 元数据(Metadata)
23. 表(Table)
24. 外部表(External Table)
25. 内部表(Internal Table)
26. 聚合函数(Aggregate Functions)
27. Join(连接)
28. Group By(分组)
29. Sorting(排序)
30. 过滤(Filtering)
31. 聚合(Aggregation)
32. 数据类型(Data Types)
33. 字符串(String)
34. 数值(Numeric)
35. 布尔(Boolean)
36. 数组(Array)
37. 映射(Map)
38. 结构体(Struct)
39. 客户端(Client)
40. 服务端(Server)
41. 驱动器(Driver)
42. HDFS(Hadoop Distributed File System)
43. 数据节点(Data Node)
44. 元数据节点(Metadata Node)
45. 提交节点(Submit Node)
46. SQL解析器(SQL Parser)
47. 查询优化器(Query Optimizer)
48. 表分区(Table Partitioning)
49. 数据压缩(Data Compression)
50. 数据索引(Data Indexing)
51. UDF(User-Defined Functions)
52. UDAF(User-Defined Aggregation Functions)
53. UDTF(User-Defined Table-Generating Functions)
54. 内置函数(Built-in Functions)
55. 存储格式(Storage Formats)
56. ORC(Optimized Row Columnar)
57. Parquet(列式存储格式)
58. Avro(序列化系统)
59. RCFile(列式存储格式)
60. SequenceFile(二进制文件格式)
61. 文件格式转换(File Format Conversion)
62. 负载均衡(Load Balancing)
63. 故障恢复(Fault Tolerance)
64. 数据备份(Data Replication)
65. 高可用性(High Availability)
66. 安全性(Security)
67. 认证(Authentication)
68. 授权(Authorization)
69. 动态分区(Dynamic Partitioning)
70. 动态查询(Dynamic Query)
71. 执行计划(Execution Plan)
72. 基准测试(Benchmarking)
73. 批处理(Batch Processing)
74. 实时处理(Real-time Processing)
75. 数据可视化(Data Visualization)
76. NoSQL(非关系型数据库)
77. 跨集群复制(Federation)
78. 嵌套查询(Subquery)
79. 联合查询(Union)
80. 执行引擎(Execution Engine)
81. 元数据存储(Metadata Storage)
82. 统计信息(Statistics)
83. 数据分组(Data Grouping)
84. 数据复制(Data Replication)
85. 聚集索引(Clustered Index)
86. 临时表(Temporary Table)
87. 远程表(Remote Table)
88. 数据格式转换(Data Format Conversion)
89. 数据治理(Data Governance)
90. 数据质量(Data Quality)
91. 常规表达式(Regular Expressions)
92. 数据集成(Data Integration)
93. 存储过程(Stored Procedure)
94. 队列(Queue)
95. 日志(Log)
96. 调度器(Scheduler)
97. Map端(Mapper)
98. Reduce端(Reducer)
99. 数据分片(Data Sharding)
100. 高性能(High Performance)
hive的物理执行计划涉及到的类
在 Hive 中,物理执行计划是通过将逻辑执行计划(Logical Plan)转换而来的,其中涉及到的类主要有以下几个:
1. PhysicalPlan:物理执行计划的根节点,包含了多个物理操作(Physical Operator)。
2. PhysicalOperator:物理操作的抽象基类,包含了执行该操作所需的输入、输出、配置等信息。
3. MapWork:MapReduce 任务的抽象基类,包含了 Map 阶段的相关信息,如 Mapper 类、输入格式、输出格式等。
4. ReduceWork:MapReduce 任务的抽象基类,包含了 Reduce 阶段的相关信息,如 Reducer 类、输入格式、输出格式等。
5. FileSinkOperator:文件输出操作,将计算结果输出到文件系统中。
6. TableScanOperator:数据扫描操作,从 Hive 表中读取数据。
7. SelectOperator:查询操作,对输入数据进行筛选、投影等操作。
8. JoinOperator:连接操作,对输入数据进行连接操作。
9. GroupByOperator:分组操作,对输入数据进行分组操作。
10. SortOperator:排序操作,对输入数据进行排序操作。
这些类都是在 Hive 的编译器中定义的,用于将用户输入的 HiveQL 查询语句转换成物理执行计划,最终生成 MapReduce 作业并提交到 Hadoop 集群中执行。