先进信息检索领域的研究

157 浏览量更新于2023-12-12 收藏 646KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

理论计算机科学电子笔记225（2009）303-317www.elsevier.com/locate/entcs高级信息检索Fuji Ren1，2德岛大学情报科学研究科德岛信息工程北京邮电大学中国北京David B. Bracewell3德岛大学情报科学研究科德岛摘要在本文中，我们将探讨一些最重要的领域，先进的信息检索。尤其是-在此基础上，我们研究了跨语言信息检索、多媒体信息检索和基于语义的信息检索。跨语言信息检索是指用一种语言提出问题，用一种或多种不同的语言检索文档。随着经济的日益全球化，以其他语言查找信息的能力正在成为一种必要。多媒体信息检索处理文本以外的媒体，即音乐和图片。随着数字媒体的爆炸式发展，在因特网上可用并呈现在用户的计算机上，用于快速和准确地找到所需媒体的技术是重要的。基于语义的信息检索超越了传统的信息检索，它利用语义信息来理解文档和查询，以辅助检索。基于语义的信息检索超越了标准的表面信息，通过使用文档和查询中表示的概念来提高检索性能。关键词：信息检索，跨语言信息检索，多媒体检索，语义学，基于语义的信息检索1引言自从有了书面语言以来，人类一直在开发快速索引和检索信息的方法。从古希腊第一个使用al-phabetization的图书馆到杜威十进制系统再到互联网，信息的数量和种类都在增长和发展。信息检索1本研究得到日本文部科学省科学研究补助金（B）19300029的部分支持。2电子邮件：ren@is.tokushima-u.ac.jp3电子邮件：davidb@is.tokushima-u.ac.jp1571-0661/© 2008 Elsevier B. V.根据CC BY-NC-ND许可证开放访问。doi：10.1016/j.entcs.2008.12.082304F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303(IR)是存储、搜索和检索与用户请求匹配的信息的行为直到20世纪50年代，信息检索主要是一门图书馆学。1945年，万尼瓦尔·布什提出了他的未来设想，即机器将被用来提供方便地访问世界各地的图书馆[5]。在50年代，第一个计算机检索系统的设计，利用穿孔卡。然而，计算机能力的缺乏限制了这些系统的实用性[20]。从70年代开始，计算机开始有足够的处理能力来处理几乎即时结果的信息检索。随着互联网的开始，信息检索变得越来越相关和研究。现在，大多数人每天都在使用某种类型的现代信息检索系统，无论是谷歌还是一些专门为图书馆创建的系统本文将探讨一些更先进的信息检索领域。我们将重点讨论跨语言信息检索、多媒体信息检索和基于语义的信息检索。跨语言信息检索是指用一种语言提出问题，用一种或多种不同的语言检索文档。随着经济的日益全球化，以其他语言查找信息的能力正在成为一种必要。多媒体信息检索处理的是查找文本以外的媒体，即音乐和图片。由于计算机现在用于存储视频和音频集合，需要快速和准确的检索方法。最后，基于语义的信息检索超越了传统的信息检索，使用语义信息来理解文档和查询，以帮助检索。本文件将继续如下。首先，在第二节中，我们将研究跨语言信息检索.然后，在第3节中，我们将研究多媒体内容的信息检索。接下来，在第4节中，将研究基于语义的信息检索。最后，在第5节中将作总结性发言2跨语言信息检索跨语言信息检索（CLIR）是信息检索的一个领域，它引起了人们的极大兴趣，并取得了许多令人兴奋的进展。 CLIR的目标是允许用户使用一种语言进行查询，并使用一种或多种其他语言检索文档。然后，可以将结果文档翻译成用于查询的语言，以允许用户获得关于检索到的信息的要点。例如，用户用英语进行关于“花架布置”的查询，最近，一些轨道和研讨会如雨后春笋般涌现，以支持在这一领域的研究。TREC（文本检索会议）在2002年之前有一个跨语言IR轨道。CLEF（跨语言评估论坛）自2000年以来一直在NTCIR（NII Test Collection for IR Systems）项目是日本的年度竞赛，涵盖许多主题，包括处理日语、英语、汉语和F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303305韩国人所有这三个都汇集了该领域最好的研究，并显示出每年的性能改进和技术进步CLIR中的大多数系统使用某种类型的翻译。虽然存在非翻译方法，例如同源匹配[3]，潜在语义索引[19]和关联模型[35]，但占主导地位的方法仍然是翻译。因此，CLIR的主要问题之一是处理语言翻译。应该翻译什么，应该怎么翻译，如何剔除不好的翻译是CLIR的主要研究领域。此外，如何获取足够多的翻译数据也是一个活跃的研究课题。因为这些问题，即使是现在，也是最重要的问题，所以本节专门介绍为缓解这些问题而进行的本节内容如下。首先，我们来看看应该翻译什么。然后，我们来看看用于翻译的方法。接下来，我们将看看研究人员提出的自动获取翻译资源的方法。最后，我们来看看CLIR的未来2.1翻译什么翻译内容的三大选择是查询、文档或两者兼而有之。查询翻译涉及将查询翻译成目标语言。文档翻译将文档翻译成源语言（即用于查询的语言）。2.1.1文件翻译文档翻译通常使用机器翻译系统来完成，例如CITRAN [64]。McCarley [42]指出了文件翻译的几个可能的优点。最吸引人的是，通过翻译文档，有更多的机会正确地翻译一个词或将其翻译成同义形式，用于查询。在比较文档翻译和查询翻译方面所做的大量研究发现，文档翻译通常更好。Oard发现，在某些情况下，文档翻译比TREC-6数据的查询翻译提供了更好的结果[48]。Chen和Gey发现，文档翻译为CLEF 2003测试集提供了稍好的结果[12]。然而，文件翻译存在一些问题。主要的一个原因是机器翻译在计算上是昂贵的，在某些情况下是不切实际的[8]。然而，随着现代计算机的发展，这已不再是一个问题，特别是对于较小的文档集合。其他问题包括机器翻译系统的成本和缺乏可用的翻译系统，一个广泛的语言对。2.1.2查询翻译查询翻译通常使用双语词典或并行语料库方法来完成。基于查询的翻译的主要优点是它的速度和306F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303简单性[42]。查询翻译中的主要问题是处理歧义和是否应该翻译单词或短语最简单的方法是逐字翻译，并使用共现信息来消除歧义。Fukui等人发现这种类型的技术在专利检索中效果很好[21]。然而，这种方法通常不会给出最佳结果。Gao等人发现使用衰减共现方法也利用了句法依赖性[23]。 Gao和Nie发现，更专业的翻译模型，如NP翻译，在TREC集合上给出了更好的结果[22]。除了标准的查询转换之外，还有查询扩展。查询扩展扩展查询词，以包括类似的概念，以便更好地检索。在单语IR中，这通常是通过同义词词典来完成的。对于CLIR，有两种类型的扩展：翻译前和翻译后。翻译前扩展从查询所用的语言中添加新的查询词.翻译后，获取翻译后的查询，然后通过某种方式对其进行扩展。麦克纳米和梅菲尔德表明，即使质量下降，翻译（即差的字典或容易出错的平行语料库）使用两个前和翻译后扩展大大改善结果[43]。2.1.3同时进行文档和查询翻译最后一个选项是翻译文档和查询。虽然这是最昂贵的，但它似乎也能产生最好的效果。原因是文档翻译涉及从目标语言到源语言的翻译，而查询翻译则相反，从源语言到目标语言。即使在训练时，同样的数据，翻译质量可以大大不同[42]发现。同时进行这两种翻译，可以让系统充分利用双向翻译。 McCarley发现它给出了最好的结果[42]法语和英语。Chen和Gey还发现它提供了更好的整体结果[12]。2.2翻译方法翻译的三个主要来源是词典、平行语料库和机器翻译系统。在大多数情况下，文档翻译只使用机器翻译。查询翻译通常使用基于词典或基于语料库的翻译。2.2.1机器翻译机器翻译方法简单地使用机器翻译系统来翻译文档或查询。如前所述，其主要缺点是计算成本高。在有大量收集的情况下，当你在网上搜索文档时，机器翻译是不切实际的。F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）3033072.2.2平行语料在基于词典的翻译和基于语料库的翻译之间，基于语料库的翻译通常提供更好的性能，如[43]所发现的。然而，并行语料库的创建是复杂且相当昂贵的。为某些语言找到平行语料库可能非常困难，或者足够大以供使用。Rogati和Yang使用并行语料库和GIZA++ [49]来确定可用于查询翻译的翻译概率[55]。他们的目标是表明，黑盒商业机器翻译系统和用于创建透明系统的免费材料之间的性能下降是如此之小，以至于更倾向于使用透明系统，因为它允许研究人员更大的控制。他们在大多数测试中都能取得良好的结果，平均精度大于0.3，即使使用pivot语言进行翻译。Nie等人介绍了一种结合并行语料库的CLIR概率模型[47]。他们对法语和英语进行了测试，结果与机器翻译方法相当。他们还介绍了一种简单的方法，一个使用网络的平行语料库，使他们相信他们的方法比机器翻译更灵活。2.2.3基于词典由于机器翻译的成本和平行语料库的困难，双语词典被广泛使用。双语词典是源语言中的单词及其在目标语言中的翻译的列表。可选地，这些字典具有允许消歧和加权的分配的翻译概率。Levow等人非常详细地研究了基于字典的CLIR [36]。他们得出结论，CLIR比翻译和检索更复杂。他们还认为，基于词典的CLIR的研究可以帮助提高基于语料库的CLIR。Hedlund等人建立了一个名为UTACLIR的基于词典的系统，该系统适用于各种语言对[29]。因为他们处理许多欧洲语言，UTACLIR特别注意在芬兰语和德语等语言中大量存在的复合词。为了处理无法翻译的单词，他们使用N-gram进行部分字符串匹配。2.3获取翻译资源基于语料库和基于词典的翻译的主要问题是覆盖率和质量。质量差的语料库和词典会大大减少系统的性能[43]。覆盖范围涉及词汇表外的单词，或字典或语料库中不存在的单词。这些话将有没有翻译，而在一些相关的语言中，这是没有问题的，在其他语言对中，如中文和英文，这是一个大问题[75]。因此，人们对自动或半自动获取双语语料库或双语词典进行了大量的研究。308F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303在这方面最著名的研究是Resnik和Smith的[54]。他们研究了使用HTML中的结构信息来确定双文本网页对。他们的方法使用搜索引擎和网络蜘蛛来确定可能的文档对。然后，当两个页面具有不同的结构时，他们使用结构信息和基于内容的相似性度量来确定正确的配对。Utsuro等人使用双语新闻文章来挖掘日英双语词典[68]。他们的系统获得了英语和日语的可比新闻文章。然后，他们使用这个可比的语料库来估计双语词典。为了改善对低频词的估计，他们使用单语语料库重新估计了这些值。他们发现，使用重新估计能够提高词汇的质量2.4未来尽管CLIR近年来取得了很大的进展，但它仍然落后于单语言检索.通常，结果不如单语结果好。此外，获取词汇和平行语料库仍然是一个绊脚石，特别是对少数民族语言。在未来，我们可以期待看到更多的研究利用万维网。最后，在CLIR达到单语IR的水平后，仍然存在如何呈现信息的问题。对用户的作用。并非所有用户都有能力阅读他们检索的文档。正因为如此，我们希望看到更多关于快速可靠的机器翻译的研究。3多媒体信息检索多媒体信息检索（MIR）涉及搜索各种媒体，如视频，音乐和图像[41]。随着用户计算机和Internet上的音乐、视频和照片数量的不断增长，所需的媒体正在迅速增长。本节将介绍MIR的历史和一些最近的研究。最早的MIR研究是基于计算机视觉研究[37]。近年来，研究人员正从基于特征的检索转向基于内容的检索.还有一个增加的任务，使系统更加以人为中心，这意味着使系统更好地响应用户的满意度。很多用户已经开始使用某种类型的MIR，通过谷歌视频和图像搜索，Altavista音频搜索等，虽然不是最先进的，这些系统正在把MIR带到普通用户。有许多关于和记黄埔的会议和讲习班。一些比较著名的会议包括ACM SIGMM和图像和视频检索国际会议。此外，在多媒体会议、计算机视觉会议等中通常有特殊的轨道。与MIR打交道Lew等人给出了MIR系统的两个基本需求：搜索和实现这些目标F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303309需求主要分为两类：基于特征的需求和基于类别的需求。最近，基于类别的方法变得越来越流行，因为它们表达了媒体的语义，从而可以更好地检索。考虑到对和平号系统的两种需要，本节将继续如下。首先，我们将介绍目前正在进行的音乐检索研究。接下来，我们将看看在图像检索方面所做的研究。然后，我们将看看在视频检索方面所做的研究。最后，我们将讨论MIR的未来。3.1音乐检索在过去的5年里，通过iTunes、Napster、eMusic等服务提供的音乐数量激增，即使是最随便的用户也能在电脑上快速获取千兆字节的音乐数据。而且互联网上很容易就有PB级的可用数据正因为如此，音乐检索是一个热门话题。Downie列出了音乐信息检索的许多挑战，包括音高和节奏等特征之间的相互作用[18]。此外，他指出，表示方案决定了计算成本，如带宽。Byrd和Crawford说，在文本IR中使用的相同方法，例如他们接着我说音乐IR要难得多，因为没有统一的定义，意义单位是什么，切分比切分汉语要难得多[6]。什么特征（音高，速度等），如何表现它们，什么是音乐的基本单位仍然在争论和研究中另一个问题是查询音乐数据库的方法。其中一种越来越标准和流行的查询方法是“哼唱查询”。这种方法允许用户通过哼唱一小部分来找到歌曲。Ghias等人的早期工作之一专注于单声道数据[25]，并使用旋律轨道中的音高来表示。他们将用户输入的数据转换为基于音高的符号形式，并使用这种形式搜索音乐数据库[25]。皮肯斯等人然后扩展了查询技术来处理复调音乐数据[51]。他们使用语言模型框架来检索钢琴演奏的音乐，并使用各种表示方法音乐IR的一个可行方法是借鉴文本IR的研究。前面提到的Pickens等人的研究使用了语言建模的标准文本IR方法[51]。Uitdenbogerd和Zobel使用n-gram和近似字符串匹配构建了一个架构[67]。他们发现，使用旋律信息对于实际系统来说已经足够了，并且每种方法，n-gram和近似字符串匹配，都适用于某些类型的音乐数据。另一个活跃的研究领域是音乐过滤。该区域处理确定用户可能喜欢的音乐集合中的哪些音乐。已经对自动播放列表生成[52]和音乐推荐[7]进行了研究。最近，Hijikata等人在基于内容的过滤系统上完成了工作，该系统具有用户可编辑的配置文件[30]。他们使用决策树来学习用户的个人资料，然后允许用户在在线环境中编辑这些树他们使用不同的310F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303节奏和调性等特征3.2图像检索在过去的几年里，数码摄影已经开始超越传统的印刷摄影。随着数字图像数量的增长，一个简单而有效的方式来搜索想要的东西。而不是通过成千上万或数百万的照片，它是更希望只是问图像检索真正开始于20世纪70年代，由计算机视觉和数据库管理研究人员进行研究[56]。在早期，直到在过去的15年左右，搜索的主要方法是首先用文本注释集合中的每个图像，然后使用标准的文本IR方法，例如如[11]。近年来，与多媒体信息检索的其他领域一样，正在被大量研究。Smeulders等人将图像检索应用分为三类用户视图：通过关联搜索，目标搜索和类别搜索[61]。“通过关联搜索”是指除了试图找到新的有趣的图像之外没有真正的目标。“目标搜索”是指用户有一个特定的图像或对象，他们正在寻找。“类别搜索”是指用户只需要一张图片，任何人，从一个类别的对象，即“汽车图片”。有了这三个类别以下各段将回顾过去几年在这一领域Corridoni等人研究了基于颜色语义的图像检索，例如温暖，一致性，对比度等[14]。该系统允许用户给出某些颜色语义并找到匹配的图像。Kato等人开发了一个系统，该系统可以获取用户完成的草图，并找到该图像和其他类似的图像[31]。Bujis和Lew开发了imagescape应用程序，该应用程序还允许用户绘制草图在图像中找到与之相似的图像[4]。Natsev等人使用每个图像的多个签名来帮助计算给定图像与数据库中的图像之间的相似性[46]。他们发现，这种方法比传统方法找到了更准确的语义结果。 Chang等人表明统计学习方法有助于提高视觉信息检索系统的性能[10]。他们发现他们需要引入新的算法来处理稀疏的训练数据和训练数据类型的不平衡。Rui等人在他们的MARS系统中添加了相关性反馈，允许用户指导系统以改善搜索结果[57]。Tieu和Viola创建了一个框架，该框架使用许多功能和提升算法以在线方式学习查询[66]。他们能够实现因为它们使用了选择性特征，所以只需要少量的训练数据就可以得到很好的结果。F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）3033113.3视频检索最近，电视节目、电影、纪录片等已经变得可从不同数量的站点下载。此外，数字视频和家庭编辑正在成为常态。视频检索旨在帮助用户找到他们所寻找的视频，无论是完整的视频还是只是一个场景。像图像检索，一些最早的方法，其中注释视频数据和使用标准的红外技术。这仍然被用于现代在线视频系统，如YouTube和谷歌。然而，随着从广播或其他方式自动收集的越来越多的集合，注释是不可能的。因此，需要自动化技术。Wactlar等人创建了一个TB大小的视频库[70]。他们使用自动获取的描述符进行索引和分割。研究人员还试图在视频领域模仿文本IR技术。 Sivic和Zisserman在文本IR和视频IR之间进行了类比[60]。他们的目标是创建一个快速的系统，它在视频上的工作效果和谷歌在文本上的工作效果一样好。他们在每个方面都使用了这个类比，比如建立一个视觉词汇表和使用停止列表删除。他们发现，虽然仍然存在一些问题，但与文本IR的类比工作得很好，并为他们留下了未来的研究可能性。视频检索涉及内容分析和特征提取等任务[1]。Aslandogan和Yu还指出，视频检索最重要的部分之一是分割或分区[1]。Zhang等人在同一直方图上使用多个阈值来检测渐变和相机中断[74]。Gunsel等人研究了使用句法和语义特征进行无监督的基于内容的视频分割[28]。Sebe等人列出了语义视频检索、学习和反馈策略以及交互式检索所使用的一些新技术[58]。以下段落将介绍使用这三种技术进行的一些研究Naphide和Huang使用概率框架将低级特征映射到语义表示[45]。语义表示，然后用于索引，搜索和检索。 Snoek等人开发了一个语义价值链从视频中提取概念[62]。他们使用了32个概念词汇，并能够在2004年TREC视频轨道中取得非常好的表现Browne和Smeaton结合了各种相关反馈方法，并使用了基于对象的交互和排名[2]。Yan等人在2002年TREC视频跟踪中使用了负伪相关反馈[72]。他们发现这种方法比标准检索提高了性能。Yan和Hauptman引入了一种称为Co-Retrieval的提升算法，用于确定最有用的特征[71]。Gaughan等人建立了一个系统，该系统集成了语音识别，并进行了测试。在互动的环境中[24]。Girgensohn等人构建了一个专注于用户界面的系统，并使用文本和视觉搜索的故事分割[26]。他们的系统是TRECVID最好的系统之一312F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）3033.4未来随着可用多媒体数据量的持续增长，对精确MIR系统的需求也将增长。目前，MIR所有领域的主要推动力是基于内容的检索，它使用图像、视频或音频的语义。随着底层算法的改进以及对音频、图像和视频语义的更好理解，系统的精度和实用性也将大大提高。除了提高精度外，还必须考虑用户满意度。为此，MIR的未来将在很大程度上依赖于在并行计算方面取得的进展。4基于语义的信息检索语义信息检索试图通过定义文档和查询中的概念来改进检索，从而超越传统方法。在前面的多媒体信息检索部分中，我们看到当前的趋势是基于内容的检索，或者说语义检索。以类似的方式，基于语义的信息检索是文本信息检索的下一个发展基于语义的IR的一些最早的工作是由Raphael在1964年完成的[53]。他建立了SIR系统，将不同的查询/问题分解为不同的子程序进行处理。与拉斐尔相似，李等人使用语义信息学习问题分类器[38]。研究人员一直在桥接基于语义的IR和传统自然语言处理研究领域的研究。Li等人使用多种信息资源来帮助测量单词之间的语义相似性[39]。Varelas等人研究了基于WordNet的语义相似性方法，以及它们如何应用于基于Web的信息检索[69]。实现基于语义的信息检索的主要方法有本体论、语义网络和语义网.本体和语义网络可以带来特定领域的知识，从而实现更好的性能。语义网在过去几年里一直是一个热门词汇，它承诺以标准化元数据的形式本节内容如下。首先，我们将看看本体是如何在IR中使用的。接下来，我们将看看使用语义映射或网络的研究。然后，我们将看看语义网。最后，我们将讨论基于语义的信息检索的未来。4.1本体在信息检索中使用的语义信息的一种常见形式是本体。本体通过将概念链接在一起来表示知识，并且通常导致分层分类。 Khan等人使用本体模型来生成音频元数据，并发现性能优于传统的关键字方法[32]。Gomez-Perez等人将本体论用于面向法律的信息检索系统[27]。他们发现本体论有助于指导F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303313用户选择更好的查询条件。Soo等人使用本体作为域规范信息来提高图像检索系统的性能[63]。Cesarano等人在他们的语义IR系统中使用了本体来帮助分类网页。4.2语义地图和网络语义网络是一种常用的知识表示方法，它将概念表示为有向图中的节点，将关系表示为边。它们有许多用途，并已广泛用于基于语义的IR。Cohen和Kjeldsen开发了GRANT系统，该系统使用约束扩散激活来帮助检索资金来源[13]。他们发现，与以前的系统相比，它提高了召回率和准确率，并具有更高的用户满意度。Tang等人研究了对等信息检索中的自组织语义覆盖网络[65]。Lin等人研究了自组织语义映射[40]。他们基于Kohonen的自组织映射算法创建了一个语义映射，并将其应用于一组文件。从地图上获得的信息便于书目数据的导航。4.3语义Web语义网为面向网络的信息检索开辟了一个新的可能性领域。 Shah等人描述了一种使用语义网进行检索的方法[59]。他们开发了一个原型系统，允许用户使用来自两个本体的语义信息来注释他们的查询。使用这些额外的信息，他们能够显着提高基于标准文本的方法的精度。与其他语义信息一样，语义Web技术可以帮助描述特定于领域的信息，从而有助于改善结果。Mukherjea等人将生物医学专利的语义网用于信息检索和知识发现系统[44]。Yu等人着眼于使用Web服务将语义Web的力量带入个人信息检索[73]。语义网的主要问题之一是需要注释。然而，[33]，[16]和[17]等研究正在研究自动注释方法。丁立等研究了无监督信息提取技术来创建种子文档，然后将其用于引导学习过程[17]。Dill等人构建了SemTag系统，旨在自动标记具有语义信息的大型语料库[16]。4.4未来基于语义的信息检索面临着一些问题，首先是语义信息源的可用性。在英语中，这不是一个大问题，但在其他语言中，如中文，语义资源仍然稀缺。第二个问题是，通常，处理语义的算法比标准的IR算法慢得多。将来，随着自然语言处理研究人员在语义研究方面的进展，这些问题可能不会那么大。如果314F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303语义网能够达到它的目标，自动标注方法能够为了精确地工作，那么在未来，至少对于web来说，没有理由不使用基于语义的IR5结论本文介绍了高级情报检索的一些领域的概况。重点讨论了跨语言信息检索、多媒体信息检索和基于语义的信息检索。这三个领域代表了信息检索领域最活跃的研究领域。所有提出的领域都取得了很大进展，对未来很重要然而，目前的IR系统被设计为实现高召回率和精确度，这当然是期望的，但忽略了用户满意度。正如多媒体信息检索领域的研究人员所发现的那样，未来的系统必须使用户满意度成为他们的首要任务之一。为此，在未来，我们相信，一个有效的计算将是一个必要的所有领域的信息检索。信息检索和智能计算领域的研究人员都看到了这一需求。Picard是并行计算领域的重要人物之一，他给出了并行计算的许多用途，包括信息检索[50]。Dalrymple和Zweizig对信息检索系统的用户满意度进行了评估[15]。这种类型的研究和未来集成的想法，从一个有效的计算需要帮助使红外系统以人为本。引用[1] 阿斯兰多根岛A.和C. T. Yu，图像和视频检索的技术和系统，知识与数据工程11（1999），pp. 56比63[2] Browne，P. and A. F. Smeaton，使用对象和明示相关反馈的视频信息检索，SAC1084-1090.[3] 巴克利角，M. Mitra，J. A. Walz和C. Cardie，Using clustering and superconcepts within SMART：TREC 6，Information Processing and Management36（2000），pp. 109-131[4] Buijs，J. M.和M. S. Lew，imagescape中简单语义的视觉学习，第三届视觉信息和信息系统国际会议，2003年。[5] Bush，V.，《大西洋月刊》176（1945年），第176页。101-108.[6] Byrd ， D. 和 T. Crawford ， Problems of Music Information Retrieval in the Real World ， InformationProcessing and Management：an International Journal38（2002），pp.249-272.[7] Cano，P.，M. Koppenberger和N. Wack，一个工业强度的基于内容的音乐推荐系统，在：SIGIR673-673.[8] Carbonell，J.，Y. 扬河，巴西-地弗雷德金河布朗，Y。Geng和D.翻译信息检索1997年，第十五届国际人工智能联合会议论文集，第15页。708-715[9] Cesarano角，A. d'Acierno和A. Picariello，An intelligent search agent system for semantic informationretrieval on the internet，in：WIDM111-117[10] Chang，E.，L. Beitao，G. Wu和K.吴，统计学习在视觉资讯撷取上的应用，载于：IEEE国际影像处理，2003年。F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303315[11] 张，S。和T.Kunii，Pictorial Database Systems，IEEE Computer14（1981），pp.13比21[12] Chen，中国山核桃A.和F. C. Gey，在跨语言检索中结合查询翻译和文档翻译，在：跨语言评估论坛第四次研讨会，2004年，pp.108-121[13] Cohen，P. R.和R. Kjeldsen，语义网络中的约束扩散激活信息检索，Inf.过程管理。23（1987），pp.255-268。[14]Corridoni，J.， A. D. Bimbo和P.Pala，基于颜色语义的图像检索，多媒体系统7（1999），pp. 175-183.[15] Dalrymple，P. W.和D. L.陈文辉，《信息检索系统的用户167比81[16] Dill，S.，N. Eiron，D.吉布森，D。格鲁尔河Guha，A.Jhingran，T.Kanungo，S.Rajagopalan，A.汤姆金斯J. A.汤姆林和 J.Y. Zien ， Semtag 和 seeker： bootstrapping the semantic web via automated semanticannotation，在：WWW178-186。[17] Dingli，A.，F. Ciravegna和Y. Wilks，使用无监督信息提取和集成的自动语义标注，在：K-CAP 2003知识标记和语义标注研讨会论文集，2003年。[18]唐尼，J.，音乐信息检索，信息科学与技术年度评论37（2003），pp. 295-340[19] Dumais，S. T.，T. A. Letsche，M. L. Littman和T. K.陈文生，基于语义检索的文本检索系统，北京：计算机科学出版社，1997。[20] 弗林河，编辑，[21] 福井，M.，S. Higuchi，Y. Nakatani，M.田中A. Fuji和T.石川，一种混合查询翻译方法在日英跨语言专利检索中的，见：ACM SIGIR 2000专利检索研讨会，2000年。[22] Gao，J.和J. - Y. Nie，查询翻译的统计模型研究：找到一个好的翻译单位，在：SIGIR194-201.[23] 高，J.，M.周杰- Y. Nie，H.他和W。Chen，Resolving query translation ambiguity using a decaying co-occurrence model and syntax dependence relations，in：SIGIR183-190。[24] Gaughan，G.，A. F.斯米顿角Gurrin，H. Lee和K. McDonald，交互式视频检索系统的设计、实现和测试，MIR23-30.[25] Ghias，A.，J. Logan，D. Chamberlin和B. C.史密斯，通过哼唱查询：音频数据库中的音乐信息检索，在：多媒体'95：第三届ACM国际会议论文集《多媒体》（1995年），pp. 231-236[26] Girgensohn ， A.， J. Adcock， M. D.库珀和 L. Wilcox ， A synergistic approach to efficient interactivevideo retrieval，in：INTERACT 2005，2005，pp. 781-794。[27] Gomez-Perez，A.，F. Ortiz-Rodriguez和B. Villazon-Terrazas，基于本体论的法律信息检索，以改善电子政务中的信息访问，在：WWW1007-1008.[28] Gunsel，B.， A. Ferman 和A. Tekalp，使用无监督聚类和语义对象跟踪的时间视频分割， Journal ofElectronic Imaging7（1998），pp. 592-604.[29] Hedlund，T.，E.艾里奥凯斯库斯塔洛河Lehtokangas，A. Pirkola和K. Jrvelin，Dictionary-based cross-language information retrieval： Learning experiences from clef 2000-2002， Information Retrieval7（2004），pp. 99比119[30] Hijikata ， Y. ， K. Iwahama 和 S. Nishida ， Content-based Music Filtering System with editableuserprofile，in：SAC1050-1057[31] Kato，T.，T.栗田，N. Otsu和K.平田，彩色影像资料库之检索方法-以视觉为例，于：第十一届国际电脑视觉与应用会议论文集，1992年。316F. Ren，D.B.Bracewell/Electronic Notes in Theoretical Computer Science 225（2009）303[32] 汗湖，D. McLeod和E. Hovy，基于本体的信息选择模型的检索效率，VLDB期刊，国际超大型数据库期刊13（2004），pp.71比85[33] Kiryakov，A.，B.波波夫岛Terziev，D. Manov和D. Ognyano，语义标注，索引和检索。，J.Web Sem.第2卷（2004年），第页。49比79[34] 科尔夫哈格河R.，[35] Lavrenko，V. M. Choquette和W. B. Croft，跨语言相关性模型，SIGIR175-182.[36] 莱沃，G.一、D. W. Oard和P. Resnik，基于词典的跨语言信息检索技术，信息处理和管理：国际期刊41（2005），pp.523-547[37] Lew，M.美国，N.塞贝角Djeraba和R. Jain，基于内容的多媒体信息检索：状态的艺术和挑战，ACMTrans. 多媒体计算Commun. Appl. 2（2006），pp.1-19[38] Li，X.， D. Roth和K. 小，语义信息在学习问题分类器中的作用，在：2004年，首届自然语言处理国际联合会议[39] 李， Y.， Z. A. Bandar和 D. McLean ， An approach for measuring semantic similarity between wordsusing multiple information sources ， IEEE Transactions on Knowledge and Data Engineering15（2003），pp. 871-882.[40] 林，X.，D. Soergel和G. Marchionini，A self-organizing semantic map for information retrieval，in：SIGIR262-269.[41] Maybury，M.T.，主编，[42] McCarley，J.S.，在跨语言信息检索中，我们应该翻译文档还是查询？第37届计算语言学协会计算语言学年会论文集（1999年），pp. 208-214[43] McNamee，P.和J. May field，通过降低翻译资源来比较跨语言查询扩展技术，在：SIGIR1

下载后可阅读完整内容，剩余1页未读，立即下载