开启HDFS回收站功能：配置与实战

下载需积分: 0 | PDF格式 | 2.53MB | 更新于2024-06-30 | 96 浏览量 | 举报

"HA模式部署hadoop1" 在Hadoop分布式文件系统(HDFS)中，高可用性(HA)是确保服务连续性和数据安全的关键特性。HA模式部署Hadoop旨在实现NameNode的冗余，以避免单点故障。NameNode作为HDFS的核心组件，负责元数据管理，如果NameNode出现问题，整个HDFS服务可能会中断。因此，设置HA模式可以确保即使主NameNode故障，系统仍能通过备份NameNode无缝切换继续运行。在描述中提到的操作步骤涉及到了HDFS的日常管理和数据保护机制。首先，获取日志文件是监控和故障排查的重要环节，日志可以帮助我们了解系统的运行状态和潜在问题。其次，根据日期创建HDFS目录是一种良好的数据组织习惯，便于管理和检索。接着，将日志文件上传至HDFS，利用HDFS的分布式存储特性保证数据的安全性和可访问性。最后，提及的“脚”可能是指自动化脚本，用于简化这些操作流程。标签“hadoop”提示我们讨论的内容与Hadoop生态系统相关。在提供的链接中，我们可以看到一系列关于Hadoop MapReduce的教程，这是Hadoop处理大数据的主要计算框架。课程涵盖了从基础的MapReduce概念到高级话题，如小文件问题的解决方案，以及对Shuffle过程的深入理解。其中，特别提到了HDFS的回收站功能，这是一个类似于Windows系统中回收站的设计，用于防止误删数据。在HDFS中，每个用户有自己的回收站目录（/user/用户名/.Trash/），删除的文件会被移动到这个目录，并有一个预设的生存周期。默认情况下，回收站可能未启用，需要通过配置`fs.trash.interval`（单位为分钟）来开启并设定文件在回收站的保留时间。例如，设置为1440分钟即表示文件在回收站中保留一天，超过这个时间未恢复，HDFS将永久删除文件。在实际操作中，修改HDFS配置需要谨慎，特别是涉及到NameNode或回收站这样的关键设置。通常，我们需要先验证当前配置的效果，如执行删除操作查看是否进入回收站。然后，通过集群管理工具如`stop-all.sh`停止服务，修改配置文件后重新启动集群，确保新的配置生效。 HA模式部署Hadoop涉及NameNode的冗余配置，以提高服务的可用性；HDFS的回收站功能提供了一种防止数据丢失的安全措施，通过配置可以定制数据在回收站的保留时间。这些知识点对于理解和管理Hadoop集群至关重要。

2020/11/2

3 HDFS高级丨慕课网教程

https://www.imooc.com/wiki/BigData/4003.html 4/16

执行脚本

注意：如果想要指定日期上传数据，可以通过在脚本后面传递参数实现

先创建一个日期的测试数据

执行脚本

这样后期如果遇到某天的数据漏传了，或者需要重新上传，就可以通过手工指定日期实现上传操作，在实

际工作中这种操作是不可避免的，所以我们在开发脚本的时候就直接考虑好补数据的情况，别等需要用的

时候了再去增加这个功能。

最后配置crontab定时任务，每天凌晨1点执行

HDFS的高可用和高扩展

针对目前这个一主两从的集群

log3

[root@bigdata01 log]# cd /data/shell/

[root@bigdata01 shell]# sh -x uploadLogData.sh

+ yesterday=

+ '[' '' = '' ']'

++ date +%Y_%m_%d '--date=1 days ago'

+ yesterday=2020_04_08

+ logPath=/data/log/access_2020_04_08.log

+ hdfsPath=/log/20200408

+ hdfs dfs -mkdir -p /log/20200408

+ hdfs dfs -put /data/log/access_2020_04_08.log /log/20200408

[root@bigdata01 shell]# hdfs dfs -ls /log/20200408

Found 1 items

-rw-r--r-- 2 root supergroup 15 2020-04-09 16:05 /log/20200408/acce

[root@bigdata01 shell]# cd /data/log/

[root@bigdata01 log]# cp access_2020_04_08.log access_2020_01_01.log

[root@bigdata01 log]# cd /data/shell/

[root@bigdata01 shell]# sh -x uploadLogData.sh 2020_01_01

+ yesterday=2020_01_01

+ '[' 2020_01_01 = '' ']'

+ logPath=/data/log/access_2020_01_01.log

+ hdfsPath=/log/20200101

+ hdfs dfs -mkdir -p /log/20200101

+ hdfs dfs -put /data/log/access_2020_01_01.log /log/20200101

[root@bigdata01 shell]# hdfs dfs -ls /log/20200101

Found 1 items

-rw-r--r-- 2 root supergroup 15 2020-04-09 16:17 /log/20200101/acce

[root@bigdata01 shell]# vi /etc/crontab

0 1 * * * root sh /data/shell/uploadLogData.sh >> /data/shell/uploadLogData.l



代码块



代码块



代码块



代码块



意见反馈



收藏教程



标记书签









一手资源微信：itit11223344

剩余15页未读，继续阅读

虚伪的小白

粉丝: 26

开启HDFS回收站功能：配置与实战

Hadoop HA部署

Hadoop HA 部署步骤

Hadoop部署

HadoopHA集群部署、规划HadoopHA集群教学课件.pptx

Hadoop2.0分布式HA环境部署

hadoop 高可用性HA部署

HadoopHA集群部署、YARNHA配置、启动与验证教学课件.pptx

HadoopHA集群部署、HDFSHA配置、启动与验证教学课件.pptx

Hadoop HA Docker部署与环境配置教程

Hadoop HA集群部署教程：HDFS HA配置与验证详解

最新资源