没有合适的资源?快使用搜索试试~ 我知道了~
首页IT面试-Hadoop总结-云计算
资源详情
资源评论
资源推荐

hadoop
面试小结
入门:
知道 MapReduce 大致流程,map, shue, reduce
知道 combiner, partition 作用,设置 compression
搭建 hadoop 集群,master/slave 都运行那些服务
HDFS,replica 如何定位
版本 0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0. 1
新旧 API 不同
进阶:.'
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建
最新:
关注 cloudera, hortonworks blog
next generation MR2 框架
高可靠性, namenode: avoid single point of failure.
数据流系统:streaming storm(twitter).
演练算法:
wordcount
字典同位词
翻译 sql 语句 select count(x) from a group by b;
经典的一道题:
现有 1 亿个整数均匀分布,如果要得到前 1K 个最大的数,求最优的算法。
(先不考虑内存的限制,也不考虑读写外存,时间复杂度最少的算法即为最优算法)
我先说下我的想法:分块,比如分 1W 块,每块 1W 个,然后分别找出每块最大值,从这最大的 1W 个值中找最大 1K 个,那么其他的 9K 个最大值所
在的块即可扔掉,从剩下的最大的 1K 个值所在的块中找前 1K 个即可。那么原问题的规模就缩小到了 1/10。
问题:
1.这种分块方法的最优时间复杂度。
2.如何分块达到最优。比如也可分 10W 块,每块 1000 个数。则问题规模可降到原来 1/100。但事实上复杂度并没降低。
3.还有没更好更优的方法解决这个问题。
1、编写一只爬虫
要求:1、可配置要爬取的网页 URL 格式
' '' '' '2、可定制要爬取的深度
' '' '' '3、对爬取下来的页面可由后期调用的程序进行存储(即事件)
2、现有大批量 url 需要爬取,其中 url 的解析以及 n 层抓取已有服务端实现(多级深度),现在给定若干台服务器以及不断增加的客户机,各服务端的 url
任务已有机制保证平衡,爬虫 url 任务由客户机向服务器请求并完成。
' '''请设计一个分布式框架,以完成单层的 ur 抓取,并且每个服务器都能尽可能平均的获取客户机资源。
' '''注意:服务器可能当机;
1、设计一套系统,使之能够从不断增加的不同的数据源中,提取指定格式的数据。
要求:1、运行结果要能大致得知提取效果,并可据此持续改进提取方法;
' '' '' '2、由于数据来源的差异性,请给出可弹性配置的程序框架;
' '' '' '3、数据来源可能有 Mysql,sqlserver 等;
' '' '' '4、该系统具备持续挖掘的能力,即,可重复提取更多信息;
2、编写一个工具,该工具能够根据不同的文档模板,生成提取格式化数据的正则表达式















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0