2017 年山东大学大数据管理与分析考题回忆版
一共 10 道题,不难就是有点多,写的时候悠着点
1、简述一下 HDFS 数据存放、读取和复制的过程
2、简述一下如何用 MapReduce 实现 Wordcount,map 和 reduce 的输入、输出和伪
代码
3、类似于第二题用 MapReduce 统计文章被引用的次数,描述一下过程
输入如下:
引用文档 id 被引用文档 id
6451846 123
6451846 456
6451846 123
6451846 789
…………… …………
要求输出如下
被引用文档 id 被引用次数
123 2
456 1
789 1
………… ……
4、描述一下 HBASE 的数据访问过程
5、Hive 的组成模块,为什么 hive 可以作为数据仓库
6、一道简单的朴素贝叶斯计算,判断 age>30;不是 student;身高 high 的人是否会买
数据大致如下(记不清了)
Age Student Height Buy
<30 No High No
>30 Yes Low No
<30 No Low Yes
>30 Yes Low Yes
7、给了 5 个点 ABCDE 的坐标,两个初始聚类中心 A 和 D,让你算一下一次迭代过后聚
类中心,用的是曼哈顿距离
8、给了 15 个数据,让分成 3 组,然后做均值平滑,做完后问你还有没有其他的平滑方法,
和下面的一样
评论0