没有合适的资源?快使用搜索试试~ 我知道了~
首页程序员面试智力、算法题汇总一.pdf
资源详情
资源评论
资源推荐

程序员面试智力编程题汇总
——By tzj
1、12 球三次称出坏球及轻重:
2、数组循环移位
设计一个算法,把一个含有 N 个元素的数组循环右移 K 位,要求时间复杂度为 O(N),且
只允许使用两个附加变量。
首先我们来看下解法一,一般人都会想到的
void rightShift(int* arr, int n, int k)
{
k %= n;
while(k)
{
int t = arr[n-1];
for(int i = n-1; i > 0; i--)
arr[i] = arr[i-1];
arr[0] = t;
k--;
}
}
复杂度为 O(k*N),0<k<N 有点不符合要求哈哈。。。

解法二:我们来举个例子看看清楚啊
比如 12345abcde,向右移 4 个位置,则移动后变为 bcde12345a,我们看出 bcde 和 12345a 顺序
都保存不变,
所,我们可以这样处理啊。。。
(1)12345a 反转得 a54321;
(2) bcde 反转得 edcb,此时数组 a54321edcb;
(3)哈哈,看出来了吧,再反转 bcde12345a。
复杂度多少呢 O(N)。
void reverse(int*arr,int begin,int end)
{
for(;begin<end;begin++,end--)
{
int temp=arr[begin];
arr[begin]=arr[end];
arr[end]=temp;
}
}
void rightShift(int* arr,int k,int n)
{
k%=n;
reverse(arr,0,n-k-1);
reverse(arr,n-k,n-1);
reverse(arr,0,n-1);
}
3、求二进制中 1 的个数
题:对于一个正整数,用二进制表示,求其中 1 的个数
解法一:
思路:我们一般都会想到模 2 操作,余 1 则加 1
int count(int v)
{
int num=0;
while(v) {
if(v%2 == 1) {
num++;
}
v /= 2;
}
return num;
}
解法二:
思路:位操作,0x01 和末位 1"与"为 1,和末位 0"与"为 0
int count(int v)
{
int num=0;
while(v) {
num += v & 0x01;
v >>= 1;

}
return num;
}
解法三:
我们知道,如果一个数 v 为 2 的整数次幂,则 v&(v-1)=0;受到这个启发,我们可以让每一次
减 1,则每次会消灭一个 1(从低位到高位),复杂度 O(m),m 为 v 中 1 的个数:
int count(int v)
{
int num=0;
while(v)
{
v &= (v-1);
num++;
}
return num;
}
解法四:
如果该整数的范围在一定范围内,且该操作十分频繁,则可以先建立一个查找表,即数组,
o(1)的复杂度。
4、使用用最小堆来找 N 个数中最大的 K 个数
题目描述:有很多个(N 个)无序的数,我们姑且假定它们各不相等,怎么选出其中最大的
若干个(k 个)数呢?
1、N=100,K=10 的时候怎么处理?
2、N=1000,k=100 呢?
3、N=1 亿亿个,K=100 呢?
如果这些数是整数的话,怎么处理?如果是浮点数呢?
如果这些数是整数,并且存在上界呢?
如果将题目中的“各不相等”这个条件去掉呢?处理方式又会出现什么变动么?
针对这个问题,我们根据不同的数据量,可能采取不同的处理方式:
第一,针对小数据量,我们可以采用好的排序算法,将数据排序后找出最大的 k 个数。
第二,针对数据量比较大,不能一次性全部装入内存的情况,我们可以采用外排序的方法。
第三,就是 Hilbert 提到的,当数据量巨大的情况下,排序可能已经没办法得到比较好的效
果,我们可以采用建立 k 个元素的最大堆来处理。
另外,如果需要处理的数据是整数,各不相同,而且知道最大值,那么我们可以采用位图
的思想,如果某个数存在,那么对应的那一位就置 1,然后从高位往低位扫描位图,输出前 k 个
为 1 的位的下标即可。
具体讨论如下:
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////// /////////////////
一道经典的面试题:如何从 N 个数中选出最大(小)的 n 个数?
这个问题我前前后后考虑了有快一年了,也和不少人讨论过。据我得到的消息,Google 和微软都面过
这道题。这道题可能很多人都听说过,或者知道答案(所谓的“堆”),不过我想把我的答案写出来。我的
分析也许存有漏洞,以交流为目的。但这是一个满复杂的问题,蛮有趣的。看完本文,也许会启发你一些
没有想过的解决方案(我一直认为堆也许不是最高效的算法)。在本文中,将会一直以寻找 n 个最“大”的

数为分析例子,以便统一。注:本文写得会比较细节一些,以便于绝大多数人都能看懂,别嫌我罗嗦:) 我
很不确定多少人有耐心看完本文!
Naive 方法:
首先,我们假设 n 和 N 都是内存可容纳的,也就是说 N 个数可以一次 load 到内存里存放在数组里(如
果非要存在链表估计又是另一个 challenging 的问题了)。从最简单的情况开始,如果 n=1,那么没有任何疑
惑,必须要进行 N-1 次的比较才能得到最大的那个数,直接遍历 N 个数就可以了。如果 n=2 呢?当然,可
以直接遍历 2 遍 N 数组,第一遍得到最大数 max1,但是在遍历第二遍求第二大数 max2 的时候,每次都要
判断从 N 所取的元素的下标不等于 max1 的下标,这样会大大增加比较次数。对此有一个解决办法,可以
以 max1 为分割点将 N 数组分成前后两部分,然后分别遍历这两部分得到两个“最大数”,然后二者取一得
到 max2。
也可以遍历一遍就解决此问题,首先维护两个元素 max1,max2(max1>=max2),取到 N 中的一个数
以后,先和 max1 比,如果比 max1 大(则肯定比 max2 大),直接替换 max1,否则再和 max2 比较确定是
否替换 max2。采用类似的方法,对于 n=2,3,4„„一样可以处理。这样的算法时间复杂度为 O(nN)。
当 n 越来越大的时候(不可能超过 N/2,否则可以变成是找 N-n 个最小的数的对偶问题),这个算法的效率
会越来越差。但是在 n 比较小的时候(具体多小不好说),这个算法由于简单,不存在递归调用等系统损耗,
?
堆:
当 n 较大的时候采用什么算法呢?首先我们分析上面的算法,当从 N 中取出一个新的数 m 的时候,它
需要依次和 max1,max2,max3„„max n 比较,一直找到一个比 m 小的 max x,就用 m 来替换 max x,平
均比较次数是 n/2。可不可以用更少的比较次数来实现替换呢?最直观的方法是,也就是网上文章比较推崇
的堆。堆有这么一些好处:1.它是一个完全二叉树,树的深度是相同节点的二叉树中最少的,维护效率较
高;2.它可以通过数组来实现,而且父节点 p 与左右子节 l,r 点的数组下标的关系是 s[l] = 2*s[p]+1 和 s[r] =
2*s[p]+2。在计算机中 2*s[p]这样的运算可以用一个左移 1 位操作来实现,十分高效。再加上数组可以随机
存取,效率也很高。3.堆的 Extract 操作,也就是将堆顶拿走并重新维护堆的时间复杂度是 O(logn),这里
n 是堆的大小。
具体到我们的问题,如何具体实现呢?首先开辟一个大小为 n 的数组区 A,从 N 中读入 n 个数填入到
A 中,然后将 A 维护成一个小顶堆(即堆顶 A[0]中存放的是 A 中最小的数)。然后从 N 中取出下一个数,
即第 n+1 个数 m,将 m 与堆顶 A[0]比较,如果 m<=A[0],直接丢弃 m。否则应该用 m 替换 A[0]。但此时
A 的堆特性可能已被破坏,应该重新维护堆:从 A[0]开始,将 A[0]与左右子节点分别比较(特别注意,这
里需要比较“两次”才能确定最大数,在后面我会根据这个来和“败者树”比较),如果 A[0]比左右子节点
都小,则堆特性能够保证,勿需继续,否则如左(右)节点最大,则将 A[0]与左(右)节点交换,并继续
维护左(右)子树。依次执行,直到遍历完 N,堆中保留的 n 个数就是 N 中最大的 n 个数。这都是堆排序
的基本知识,唯一的 trick 就是维护一个小顶堆,而不是大顶堆。不明白的稍微想一下。维护一次堆的时间
复杂度为 O(logn),总体的复杂度是 O(Nlogn)这样一来,比起上面的 O(nN),当 n 足够大时,堆的效
率肯定是要高一些的。当然,直接对 N 数组建堆,然后提取 n 次堆顶就能得到结果,而且其复杂度是 O(nlogN),
当 n 不是特别小的时候这样会快很多。但是对于 online 数据就没办法了,比如 N 不能一次 load 进内存,甚
至是一个流,根本不知道 N 是多少。
败者树:
有没有别的算法呢?我先来说一说败者树(loser tree)。也许有些人对 loser tree 不是很了解,其实它是
一个比较经典的外部排序方法,也就是有 x 个已经排序好的文件,将其归并为一个有序序列。败者树的思
想咋一看有些绕,其实是为了减小比较次数。首先简单介绍一下败者树:败者树的叶子节点是数据节点,
然后两两分组(如果节点总数不是 2 的幂,可以用类似完全树的结构构成树),内部节点用来记录左右子树
的优胜者中的“败者”(注意记录的是输的那一方),而优胜者则往上传递继续比较,一直到根节点。如果
我们的优胜者是两个数中较小的数,则根节点记录的是最后一次比较中的“败者”,也就是所有叶子节点中
第二小的那个数,而最小的那个数记录在一个独立的变量中。这里要注意,内部节点不但要记录败者的数
值,还要记录对应的叶子节点。如果是用链表构成的树,则内部节点需要有指针指向叶子节点。这里可以
有一个 trick,就是内部节点只记录“败者”对应的叶子节点,具体的数值可以在需要的时候间接访问(这
一方法在用数组来实现败者树时十分有用,后面我会讲到)。关键的来了,当把最小值输出后,最小值所对
应的叶子节点需要变成一个新的数(或者改为无穷大,在文件归并的时候表示文件已读完)。接下来维护败
者树,从更新的叶子节点网上,依次与内部节点比较,将“败者”更新,胜者往上继续比较。由于更新节
点占用的是之前的最小值的叶子节点,它往上一直到根节点的路径与之前的最小值的路径是完全相同的。
内部节点记录的“败者”虽然称为“败者”,但却是其所在子树中最小的数。也就是说,只要与“败者”比

较得到的胜者,就是该子树中最小的那个数(这里讲得有点绕了,看不明白的还是找本书看吧,对照着图
比较容易理解)。
注:也可以直接对 N 构建败者树,但是败者树用数组实现时不能像堆一样进行增量维护,当叶子节点
的个数变动时需要完全重新构建整棵树。为了方便比较堆和败者树的性能,后面的分析都是对 n 个数构建
的堆和败者树来分析的。
总而言之,败者树在进行维护的时候,比较次数是 logn+1。与堆不同的是,败者树是从下往上维护,
每上一层,只需要和败者节点比较“一次”即可。而堆在维护的时候是从上往下,每下一层,需要和左右
子节点都比较,需要比较两次。从这个角度,败者树比堆更优一些。但是,请注意但是,败者树每一次维
护必定需要从叶子节点一直走到根节点,不可能中间停止;而堆维护时,“有可能”会在中间的某个层停止,
不需要继续往下。这样一来,虽然每一层败者树需要的比较次数比堆少一倍,但是走的层数堆会比败者树
少。具体少多少,从平均意义上到底哪一个的效率会更好一些?那我就不知道了,这个分析起来有点麻烦。
感兴趣的人可以尝试一下,讨论讨论。但是至少说明了,也许堆并非是最优的。
具体到我们的问题。类似的方法,先构建一棵有 n 个叶子节点的败者树,胜出者 w 是 n 个中最小的那
一个。从 N 中读入一个新的数 m 后,和 w 比较,如果比 w 小,直接丢弃,否则用 m 替换 w 所在的叶子节
点的值,然后维护该败者树。依次执行,直到遍历完 N,败者树中保留的 n 个数就是 N 中最大的 n 个数。
时间复杂度也是 O(Nlogn)。
前面有提到,堆的优点中包括“完全树”,“用数组实现”,以及“父节点与左右子节点之间的下标的特
殊关系”。其实败者树也可以用数组来实现。其实我以前没有这么想过,我进微软实习的时候的考我的编程
题就是文件归并,我是用败者树做的,当时是用指针来构建树,2 个小时的题,我弄了 3 个小时才弄出来,
差点没弄死我。指针维护起来太麻烦了。昨天旁边的 David 提到败者树可以用数组实现,恍然大悟。其原
理和堆的数组实现是相同的,唯一的区别是堆的所有节点都是数据节点,而败者树只有叶子节点是数据节
点。所以在空间复杂度上,败者树所需的空间大小是堆的一倍(完全树的内部节点的个数是叶子节点个数
减一)。
这个问题还要接着分析下去,是不是都快睡着了?呵呵
类快速排序方法:
快速排序大家大家都不陌生了。主要思想是找一个“轴”节点,将数列交换变成两部分,一部分全都
小于等于“轴”,另一部分全都大于等于“轴”,然后对两部分递归处理。其平均时间复杂度是 O(NlogN)。
从中可以受到启发,如果我们选择的轴使得交换完的“较大”那一部分的数的个数 j 正好是 n,不也就完成
了在 N 个数中寻找 n 个最大的数的任务吗?当然,轴也许不能选得这么恰好。可以这么分析,如果 j>n,
则最大的 n 个数肯定在这 j 个数中,则问题变成在这 j 个数中找出 n 个最大的数;否则如果 j<n,则这 j 个
数肯定是 n 个最大的数的一部分,而剩下的 j-n 个数在小于等于轴的那一部分中,同样可递归处理。
令人愉悦的是,这个算法的平均复杂度是 O(N)的。怎么样?比堆的 O(Nlogn)可能会好一些吧?!
(n 如果比较大肯定会好)
需要注意的是,这里的时间复杂度是平均意义上的,在最坏情况下,每次分割都分割成 1:N-2,这种
情况下的时间复杂度为 O(n)。但是我们还有杀手锏,可以有一个在最坏情况下时间复杂度为 O(N)的
算法,这个算法是在分割数列的时候保证会按照比较均匀的比例分割,at least 3n/10-6。具体细节我就不再
说了,感兴趣的人参考算法导论(Introduction to Algorithms 第二版第九章 “Medians and Orders Statistics”)。
还是那个结论,堆不见得会是最优的。
本文快要结束了,但是还有一个问题:如果 N 非常大,存放在磁盘上,不能一次装载进内存呢?怎么
办?对于介绍的 Naive 方法,堆,败者树等等,依然适用,需要注意的就是每次从磁盘上尽量多读一些数
到内存区,然后处理完之后再读入一批。减少 IO 次数,自然能够提高效率。而对于类快速排序方法,稍微
要麻烦一些:分批读入,假设是 M 个数,然后从这 M 个数中选出 n 个最大的数缓存起来,直到所有的 N
个数都分批处理完之后,再将各批次缓存的 n 个数合并起来再进行一次类快速排序得到最终的 n 个最大的
数就可以了。在运行过程中,如果缓存数太多,可以不断地将多个缓存合并,保留这些缓存中最大的 n 个
数即可。由于类快速排序的时间复杂度是 O(N),这样分批处理再合并的办法,依然有极大的可能会比堆
和败者树更优。当然,在空间上会占用较多的内存。
总结:对于这个问题,我想了很多,但是觉得还有一些地方可以继续深挖:1. 堆和败者树到底哪一个
更优?可以通过理论分析,也可以通过实验来比较。也许会有人觉得这个很无聊;2. 有没有近似的算法或
者概率算法来解决这个问题?我对这方面实在不熟悉,如果有人有想法的话可以一块交流。如果有分析错
误或遗漏的地方,请告知,我不怕丢人,呵呵!最后请时刻谨记,时间复杂度不等于实际的运行时间,一
剩余58页未读,继续阅读















安全验证
文档复制为VIP权益,开通VIP直接复制

评论2