国科大 2013 年秋季《现代信息检索》第二次作业(第六章到第十五章)
以下 1-16 每题 6 分,第 17 题 3 分,共计 100 分。
1. 习题 6-10 考虑图 中的 篇文档 、、 中几个词项的 情况,采用图 中的
值来计算所有词项 、 及 的 值
Doc1 tf-idf Doc2 tf-idf Doc3 tf-idf
car 44.55 6.6 39.6
auto 6.24 68.64 0
insurance 0 53.46 46.98
best 21 0 25.5
2. 习题 6-15 回到习题 中的 权重计算,试计算采用欧氏归一化方式处理后的文档向量,
其中每个向量有 维,每维对应一个词项。
doc1、doc2 和 doc3 欧几里得长度分别为 49.60、87.25 和 66.52
则 doc1=( 0.898, 0.126, 0, 0.423)
doc2=(0.076, 0.787, 0.646, 0)
doc3=(0.595, 0, 0.706, 0.383)
3. 习题 6-19 计算查询 及文档 的向量空间相似
度并将结果填入表 的空列中。假定 N,对查询及文档中的词项权重( 对应的
列)采用对数方法计算,查询的权重计算采用 ,而文档归一化采用余弦相似度计算。将
看成是停用词。请在 列中给出词项的出现频率,并计算出最后的相似度结果。
表 6-1 习题 6-19 中的余弦相似度计算
词
查 询 文 档
q
i
d
i
归一化的
1 1
3 3
1 1 !" 1.56
0 0
2 0
1 1 !" 0
1 1
"
2.3 2.3
2 1.3 ! 1.56
Idf=log(N/df) wf-idf=1+log(>0) wf-idf=0(=0)
4. 习题 7-1 图 # 中倒排记录表均按照静态得分 g$d%的降序排列,为什么不采用升序排列?
G(d)值越高,文档得分越高,在检索是更容易找到 top-K
5. 习题 7-8 平面上的最近邻问题如下:在平面上给出 N 个数据点并将它们预处理成某种数据结
构,给定查询点 Q,在 N 个点中寻找与 Q 具有最短欧氏距离的点。很显然,如果我们希望能够
避免计算 Q 和所有平面上的点的距离时,簇剪枝就能够作为最近邻问题的一种处理方法。请给
出一个简单的例子来说明:如果只选择最近的两个先导者,那么簇剪枝方法可能会返回错误的
结果(也就是说返回的不是离 Q 最近的数据点)。