大数据面试必备:Linux与SQL知识点详解

5星 · 超过95%的资源 7 下载量 187 浏览量 更新于2024-09-02 1 收藏 179KB PDF 举报
"大数据面试题" 本资源主要涵盖了大数据面试中涉及到的Linux系统知识、SQL语言理解和大数据技术要点,是准备面试的重要参考资料。 一、Linux相关内容: 1. **交换空间(交换分区)**:交换空间是Linux操作系统中用于扩展内存的一种机制,当物理内存不足时,系统会将部分内存数据暂时存放在硬盘上的交换空间。 2. **Linux权限**:Linux文件权限包括读(r)、写(w)和执行(x),分为用户(u)、组群(g)和其他(o)三个类别,每类有三个权限位。 3. **更改权限**:使用`chmod`命令可以改变文件或目录的权限,例如`chmod 755 file.txt`设置所有者可读写执行,组和其他只可读执行。 4. **守护进程**:守护进程是在后台运行且与控制终端无关的进程,常用于提供持续服务,如Web服务器、数据库等。 5. **vi编辑器模式**:vi有命令模式、插入模式和底行模式,不同模式下执行不同操作。 6. **计算文件夹大小**:使用`du -sh`命令可以快速得到文件夹的大小。 7. **常用命令**:包括`ls`、`cd`、`mkdir`、`rm`、`cp`、`mv`等,用于文件和目录管理。 8. **三次握手四次挥手**:TCP连接的建立和关闭过程,三次握手确保连接建立,四次挥手确保连接关闭。 9. **GET和POST**:GET用于获取资源,POST用于提交数据,GET数据在URL中可见,POST数据则隐藏。 10. **硬链接和软链接**:硬链接指向文件的i节点,两个硬链接文件视为同一文件;软链接(符号链接)相当于快捷方式,指向文件路径。 二、SQL内容: 1. **Mysql锁**:包括排它锁(X)、共享锁(S)、意向锁(IS/IX)等。 2. **delete、drop、truncate**:delete删除数据可回滚,drop删除表不可回滚,truncate清空数据但不记录操作。 3. **MySQL复制**:涉及主从复制,数据从主库同步到从库。 4. **事务隔离级别**:读未提交(RU)、读已提交(RC)、可重复读(RR)、串行化(Serializable)。 5. **隔离级别现象**:如脏读、不可重复读、幻读等。 6. **存储过程**:预编译的SQL集合,用于执行多次,通过`CALL`调用。 7. **视图**:虚拟表,基于一个或多个表的查询结果。 8. **索引作用**:加速查询,但增加写入开销。 9. **Hive排序关键字**:如`ORDER BY`、`DISTRIBUTE BY`、`SORT BY`等。 10. **SQL语句**:涉及选择、聚合、连接、子查询等操作。 三、大数据: 1. **HDFS写文件过程**:数据先写入NameNode的内存,然后复制到DataNode,最后再进行元数据更新。 2. **HBase compaction**:用于合并Region中的StoreFile,减少读取时的文件数量。 3. **Hadoop生态组件**:如MapReduce、Hive、HBase、Spark等在大数据处理中的角色。 这些知识点涵盖了Linux系统运维、数据库管理和大数据处理的基础,是面试中常见的问题,对准备面试的候选人具有很高的参考价值。