国科大2013《现代信息检索》作业解析：TF-IDF、向量空间模型与相似度计算

需积分: 20 69 浏览量更新于2024-09-11 收藏 173KB DOCX 举报

"国科大2013年秋季《现代信息检索》第二次作业，包含章节6-15的相关题目，涉及tf-idf权重计算、欧氏归一化、向量空间相似度、倒排记录表排序原理、最近邻问题处理及正确率与召回率的关系。" 在这份现代信息检索的作业中，主要涵盖了多个关键知识点： 1. **TF-IDF权重计算**: TF-IDF是一种用于信息检索与文本挖掘的常用加权技术，它结合了词频（Term Frequency, TF）和逆文档频率（Inverse Document Frequency, IDF）。在习题6-10中，要求根据词项的tf值和idf值计算词项car、auto/insurance及best在三个文档中的tf-idf值。 2. **欧氏归一化**: 习题6-15涉及到将文档向量进行欧氏归一化处理，目的是使各个向量长度为1，便于比较不同文档之间的相似性。例如，doc1、doc2和doc3的欧氏长度分别计算得出，并给出了归一化后的向量表示。 3. **向量空间模型的相似度计算**: 在习题6-19中，要求计算查询“digitalcameras”与文档“digitalcamerasandvideocameras”的相似度。这里采用了对数方法计算词项权重，使用idf对查询权重化，并通过余弦相似度来归一化文档。同时，停用词“and”被忽略。 4. **倒排记录表的排序**: 习题7-1讨论了倒排记录表为何按静态得分g(d)的降序排列，这是因为高得分的文档更可能在检索时位于top-K位置，从而提高检索效率。 5. **最近邻问题与簇剪枝**: 习题7-8指出，最近邻搜索时，仅选取两个最近的先导者可能导致错误结果。这强调了在数据结构和预处理策略选择中，需要考虑如何有效地避免剪枝错误。 6. **信息检索评价指标**: 习题8-5探讨了正确率（Precision）和召回率（Recall）的关系。正确率是检索结果中相关文档的比例，而召回率是所有相关文档在检索结果中的比例。两者存在等值点，例如当没有查到相关文档（tp=0）或误检和漏检相等（fp=fn）时。这些题目覆盖了信息检索领域的核心概念和技术，包括文本表示、检索策略、相似度计算以及评估标准等方面，对于理解和应用现代信息检索理论至关重要。

国科大 2013 年秋季《现代信息检索》第二次作业(第六章到第十五章)

以下 1-16 每题 6 分，第 17 题 3 分，共计 100 分。

1. 习题 6-10　考虑图  中的  篇文档 、、 中几个词项的  情况，采用图  中的

 值来计算所有词项 、 及  的  值

Doc1 tf-idf Doc2 tf-idf Doc3 tf-idf

car 44.55 6.6 39.6

auto 6.24 68.64 0

insurance 0 53.46 46.98

best 21 0 25.5

2. 习题 6-15　回到习题  中的  权重计算，试计算采用欧氏归一化方式处理后的文档向量，

其中每个向量有  维，每维对应一个词项。

doc1、doc2 和 doc3 欧几里得长度分别为 49.60、87.25 和 66.52

则 doc1=( 0.898, 0.126, 0, 0.423)

doc2=(0.076, 0.787, 0.646, 0)

doc3=(0.595, 0, 0.706, 0.383)

3. 习题 6-19　计算查询  及文档  的向量空间相似

度并将结果填入表  的空列中。假定 N，对查询及文档中的词项权重（  对应的

列）采用对数方法计算，查询的权重计算采用 ，而文档归一化采用余弦相似度计算。将 

看成是停用词。请在  列中给出词项的出现频率，并计算出最后的相似度结果。

表 6-1　习题 6-19 中的余弦相似度计算

词

查　　询文　　档

    q

   

归一化的 



1 1



3 3

1 1 !" 1.56



0 0



2 0

1 1 !" 0



1 1

"

2.3 2.3

2 1.3 ! 1.56

Idf=log(N/df) wf-idf=1+log(>0) wf-idf=0(=0)

4. 习题 7-1　图 # 中倒排记录表均按照静态得分 g$d%的降序排列，为什么不采用升序排列？

G(d)值越高，文档得分越高，在检索是更容易找到 top-K

5. 习题 7-8　平面上的最近邻问题如下：在平面上给出 N 个数据点并将它们预处理成某种数据结

构，给定查询点 Q，在 N 个点中寻找与 Q 具有最短欧氏距离的点。很显然，如果我们希望能够

避免计算 Q 和所有平面上的点的距离时，簇剪枝就能够作为最近邻问题的一种处理方法。请给

出一个简单的例子来说明：如果只选择最近的两个先导者，那么簇剪枝方法可能会返回错误的

结果（也就是说返回的不是离 Q 最近的数据点）。





下载后可阅读完整内容，剩余5页未读，立即下载

不多不少の

粉丝: 4
资源: 6

国科大2013《现代信息检索》作业解析：TF-IDF、向量空间模型与相似度计算

信息检索教程 第二版

2018 中科院 现代信息检索 大作业

中科院信息检索作业

IR-homework:ITIS信息检索课程功课

HomeWork2.2

homework4:PHPMySQL的ToDoList

homework-12:员工追踪器CMS

full-stack-js-course-homework

Sevda_Kiziltas_Yemeksepeti_Bootcamp_Homework

OS_Homework:同济大学软件学院，操作系统（42002402）。 操作系统课程分配

最新资源

信息检索教程第二版

2018 中科院现代信息检索大作业

OS_Homework:同济大学软件学院，操作系统（42002402）。操作系统课程分配