大数据分析题,找出重复次数最多的那个数? 现有一个10G文件的数据,里面包含了18-70之间的整数,分别表示18-70岁的人群数量统计,假设年龄范围分布均匀,分别表示系统中所有用户的年龄数,找出重复次数最多的那个数,现有一台内存为4G、2核CPU的电脑,请写一个算法实现。 23,31,42,19,60,30,36,........
时间: 2023-04-02 09:02:35 浏览: 123
计算重复次数.xlsm
5星 · 资源好评率100%
这是一个大数据分析题,可以使用MapReduce算法来解决。首先将10G的数据分成多个小文件,每个小文件的大小不超过4G,然后对每个小文件进行处理。对于每个小文件,可以使用哈希表来统计每个年龄出现的次数,然后找出出现次数最多的那个数。最后将每个小文件的结果合并起来,再找出全局出现次数最多的那个数即可。
阅读全文