给定文档语料: d1: 北京安立文高新技术公司 d2: 新一代的网络访问技术 d3: 北京卫星网络有限公司 d4: 是最先进的总线技术。。。 d5: 北京升平卫星技术有限公司的新技术有。。。利用中文切分词软件，分别得到用“/”分开的一些字词： d1: 北京/ 安/ 立/ 文/ 高新/ 技术/ 公司/ d2: 新/ 一/ 代/ 的/ 网络/ 访问/ 技术/ d3: 北京/ 卫星/ 网络/ 有限/ 公司/ d4: 是/ 最/ 先进/ 的/ 总线/ 技术/ 。。。 d5: 北京/ 升/ 平/ 卫星/ 技术/ 有限/ 公司/ 的/ 新/ 技术/ 有。。。设计一个针对这些文档的信息检索系统。具体要求是： (1). 给出系统的有效词汇集合（说明取舍原因）。 (2). 写出d1和d2在VSM中的表示（使用tf*idf，写出各项的数字表达式，具体数值不必实际计算出来）。 (3). 画出系统的倒排文件示意图。 (4). 按照向量夹角的余弦计算公式，给出针对查询“技术的公司”的前3个反馈结果。

时间: 2023-07-30 21:04:33 浏览: 92

(1) 有效词汇集合： - 北京 - 公司 - 技术 - 网络 - 卫星 - 新 - 有限 - 高新 - 文 - 访问 - 总线说明：去除了一些常见词汇如“的”、“是”、“最先进”等，同时将一些词汇合并为一个词，如“北京卫星网络有限公司”合并为“北京卫星网络有限公司”。 (2) d1 在 VSM 中的表示： - 北京：tf=1，idf=log(5/3)≈0.176，tf*idf≈0.176 - 安立文高新技术公司：tf=1，idf=log(5/1)≈1.609，tf*idf≈1.609 - 技术：tf=1，idf=log(5/3)≈0.176，tf*idf≈0.176 - 公司：tf=1，idf=log(5/3)≈0.176，tf*idf≈0.176 其他词汇的 tf 为 0，因此不计入表示中。最终表示为 [0.176, 1.609, 0.176, 0.176, 0, 0, 0, 0, 0, 0, 0] d2 在 VSM 中的表示： - 新一代的网络访问技术：tf=1，idf=log(5/1)≈1.609，tf*idf≈1.609 其他词汇的 tf 为 0，因此不计入表示中。最终表示为 [0, 1.609, 0, 0, 0, 1.609, 0, 0, 0, 0, 0] (3) 倒排文件示意图： - 北京：d1, d3, d5 - 安立文高新技术公司：d1 - 技术：d1, d2, d4, d5 - 网络：d2, d3, d5 - 卫星：d3, d5 - 新：d2, d5 - 有限：d3, d5 - 高新：d1 - 文：d1 - 访问：d2 - 总线：d4 (4) 查询“技术的公司”的前3个反馈结果：首先将查询转化为 VSM 表示：[0, 0, 1.609, 0, 0, 0, 0, 0, 0, 0, 0] 然后计算与每个文档的余弦相似度，结果如下： - d1：0.459 - d3：0 - d5：0.157 因此前3个反馈结果为：d1、d5、d3。

阅读全文

相关推荐

KWDLC:京都大学网络文档负责语料库

Segmentor:使用北大​​-富士通语料库，LSTM网络的中文分词系统

Name-Identification-and-Aggregation:该项目的技术目标是开发软件，在给定文本语料库的情况下，尝试识别

利用给定的stringr::words中的常用单词语料库，创建正则表达式以找出满足下列条件的所有单词

附加题：利用pyhanlp工具包，对给定的中文语料实现中文文本依存语法分析，抽取出主语、谓语和宾语

聊天机器人chatrobot 100万条中文闲聊对话高质量语料数据集:nlp开放域对话学习训

python 文本挖掘借助语料库中文分词AttributeError: 'Series' object has no attribute 'decode'

给定训练语料： " He is a teacher ", " Mary is a student ", " She teaches the course " 根据2元文法求句子" Lon teaches the course "的概率？

用python代码实现：编写程序计算trigram模型中句子的条件概率（自行搜集训练语料）。

FileNotFoundError: [Errno 2] No such file or directory: './IEMOCAP语料库.pkl'

以MSR语料为例进行标准化评测。评测流程为：训练、预测、计算准确率。输出代码

使用huggingface上的GPT-2模型实现：输入中文需求， 生成 对于需求的 Python 代码的功能

任务1:文本预处理与展示 NLP开发环境搭建、语料库及NLTK、文本预处理、分词、词性标注等

优化一下代码并添加中文分词与评价指标功能：

语料库：[我吃包子，我吃米饭，我喝水]，使用 共现矩阵对其中的词进行词向量的编码表示。

语料库：[我吃包子，我吃米饭，我喝水], 使用共现矩阵对其中的词进行词向量的编码表示。

FailedPreconditionError: ft-conll2003 is not a directory

基于RNN的聊天机器人 -题目范畴：RNN, 对话系统

请编写一段python程序，题目为：2、 自己选择语料，构建一个词云，并进行简要的分析

大家在看

plink的GWAS数据处理作业流程.docx

论文研究-一种面向HDFS中海量小文件的存取优化方法.pdf

SuperSocket(客户端+服务端实现).zip

Mellanox Adapters Programmer’s Reference Manual (PRM)

RK eMMC Support List

最新推荐

SCI神器：Academic-Phrasebank-2021.pdf

python gensim使用word2vec词向量处理中文语料的方法

ssm-vue-校园代购服务订单管理系统-源码工程-32页从零开始全套图文详解-34页参考论文-27页参考答辩-全套开发环境工具、文档模板、电子教程、视频教学资源.zip

【毕业设计】matlab植物虫害检测的系统源码.zip

降低成本的oracle11g内网安装依赖-pdksh-5.2.14-1.i386.rpm下载

管理建模和仿真的文件

云计算术语全面掌握：从1+X样卷A卷中提炼精华

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔ 平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。

Java基础实验教程Lab1解析

"互动学习：行动中的多样性与论文攻读经历"

Segmentor:使用北大-富士通语料库，LSTM网络的中文分词系统

使用huggingface上的GPT-2模型实现：输入中文需求，生成对于需求的 Python 代码的功能

语料库：[我吃包子，我吃米饭，我喝水]，使用共现矩阵对其中的词进行词向量的编码表示。

请编写一段python程序，题目为：2、自己选择语料，构建一个词云，并进行简要的分析

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。