■ Contents
xvii
Combine Small Inputs ������������������������������������������������������������������������������������������� 215
Prefer a Two-Way Join over Multiway Joins ���������������������������������������������������������216
Better Execution Engine ���������������������������������������������������������������������� 216
Parallelism������������������������������������������������������������������������������������������� 216
Job Statistics ��������������������������������������������������������������������������������������� 217
Rules ��������������������������������������������������������������������������������������������������� 218
Partition Filter Optimizer ��������������������������������������������������������������������������������������� 218
Merge foreach ������������������������������������������������������������������������������������������������������218
Constant Calculator ���������������������������������������������������������������������������������������������� 219
Cluster Optimization ���������������������������������������������������������������������������� 219
Disk Space ����������������������������������������������������������������������������������������������������������� 219
Separate Setup for Zookeeper ������������������������������������������������������������������������������220
Scheduler �������������������������������������������������������������������������������������������������������������220
Name Node Heap Size ������������������������������������������������������������������������������������������ 220
Other Memory Settings ���������������������������������������������������������������������������������������� 221
Summary ��������������������������������������������������������������������������������������������� 222
■Chapter 17: Hadoop Ecosystem Tools ����������������������������������������� 225
Apache Zookeeper ������������������������������������������������������������������������������� 225
Terminology ���������������������������������������������������������������������������������������������������������� 225
Applications ���������������������������������������������������������������������������������������������������������� 226
Command-Line Interface �������������������������������������������������������������������������������������� 227
Four-Letter Commands ����������������������������������������������������������������������������������������� 229
Measuring Time ���������������������������������������������������������������������������������������������������� 230
Cascading �������������������������������������������������������������������������������������������� 230
Defining a Source �������������������������������������������������������������������������������������������������230
Defining a Sink ����������������������������������������������������������������������������������������������������� 232
Pipes ��������������������������������������������������������������������������������������������������������������������� 233
Types of Operations ���������������������������������������������������������������������������������������������� 233