给定文档语料: d1: 北京安立文高新技术公司 d2: 新一代的网络访问技术 d3: 北京卫星网络有限公司 d4: 是最先进的总线技术。。。 d5: 北京升平卫星技术有限公司的新技术有。。。 利用中文切分词软件,分别得到用“/”分开的一些字词: d1: 北京/ 安/ 立/ 文/ 高新/ 技术/ 公司/ d2: 新/ 一/ 代/ 的/ 网络/ 访问/ 技术/ d3: 北京/ 卫星/ 网络/ 有限/ 公司/ d4: 是/ 最/ 先进/ 的/ 总线/ 技术/ 。。。 d5: 北京/ 升/ 平/ 卫星/ 技术/ 有限/ 公司/ 的/ 新/ 技术/ 有。。。 设计一个针对这些文档的信息检索系统。具体要求是: (1). 给出系统的有效词汇集合(说明取舍原因)。 (2). 写出d1和d2在VSM中的表示(使用tf*idf,写出各项的数字表达式,具体数值不必实际计算出来)。 (3). 画出系统的倒排文件示意图。 (4). 按照向量夹角的余弦计算公式,给出针对查询“技术的公司”的前3个反馈结果。
时间: 2023-07-30 21:04:33 浏览: 92
(1) 有效词汇集合:
- 北京
- 公司
- 技术
- 网络
- 卫星
- 新
- 有限
- 高新
- 文
- 访问
- 总线
说明:去除了一些常见词汇如“的”、“是”、“最先进”等,同时将一些词汇合并为一个词,如“北京卫星网络有限公司”合并为“北京卫星网络有限公司”。
(2) d1 在 VSM 中的表示:
- 北京:tf=1,idf=log(5/3)≈0.176,tf*idf≈0.176
- 安立文高新技术公司:tf=1,idf=log(5/1)≈1.609,tf*idf≈1.609
- 技术:tf=1,idf=log(5/3)≈0.176,tf*idf≈0.176
- 公司:tf=1,idf=log(5/3)≈0.176,tf*idf≈0.176
其他词汇的 tf 为 0,因此不计入表示中。
最终表示为 [0.176, 1.609, 0.176, 0.176, 0, 0, 0, 0, 0, 0, 0]
d2 在 VSM 中的表示:
- 新一代的网络访问技术:tf=1,idf=log(5/1)≈1.609,tf*idf≈1.609
其他词汇的 tf 为 0,因此不计入表示中。
最终表示为 [0, 1.609, 0, 0, 0, 1.609, 0, 0, 0, 0, 0]
(3) 倒排文件示意图:
- 北京:d1, d3, d5
- 安立文高新技术公司:d1
- 技术:d1, d2, d4, d5
- 网络:d2, d3, d5
- 卫星:d3, d5
- 新:d2, d5
- 有限:d3, d5
- 高新:d1
- 文:d1
- 访问:d2
- 总线:d4
(4) 查询“技术的公司”的前3个反馈结果:
首先将查询转化为 VSM 表示:[0, 0, 1.609, 0, 0, 0, 0, 0, 0, 0, 0]
然后计算与每个文档的余弦相似度,结果如下:
- d1:0.459
- d3:0
- d5:0.157
因此前3个反馈结果为:d1、d5、d3。
阅读全文