没有合适的资源?快使用搜索试试~ 我知道了~
理论计算机科学电子笔记134(2005)189-202www.elsevier.com/locate/entcs在传统图书馆环境中使用欧拉图J'er om eThi`evr e,Marri e-LuceViaud1INA,4,avenue deAnne Verroust-Blondet2INRIA Rocquencourt,B.P. 一百零五,78153 LE CHESNAY Cedex法国摘要在本文中,我们提出了一个新的图形界面,传统的图书馆环境,它允许用户在搜索过程中,方便和有效地阐述新的策略。 该工具基于两个链接的交互式欧拉图表示。第一个是构成图书馆文献核心的结构的交互式表示。用户可以导航和选择项目,对数据库的内容、结构和访问进行自己的理解。第二个是组合查询结果的基于集合的可视化。 这允许用户验证他的搜索上下文,并制定策略来浏览结果。这两个界面的关联产生了一个工具,允许用户通过图形操作来详细说明主要的搜索策略。保留字: 欧拉图,用户界面,数字图书馆1介绍国家视听研究所的作用1电子邮件:jthievre@ina.fr,mlviaud@ina.fr2电子邮件:Anne. inria.fr1571-0661 © 2005由Elsevier B. V.出版,CC BY-NC-ND许可下开放获取。doi:10.1016/j.entcs.2005.02.024190J. Thièvre等人理论计算机科学电子笔记134(2005)189使其更容易获得。此外,根据法国1992年6月20日关于法律保存的法律和1993年12月31日关于实施的法令,国家图书馆负责整理和提供广播电视声音档案和视听文件,参与编写和分发国家书目,并向公众提供这些文件供研究之用为了完成这一任务,INA的信息官员每天都要对收到的视听文件进行索引.对于收到的每一份文件,索引编制的这一阶段包括尽可能生成最完整和最不含糊的文字说明。文献或索引工具根据一套称为文献核心的权威分类来确保这些描述的一致性。自1975年该数据库开始以来,该核心一直在不断发展。它包含几个同义词。 同义词词典是一个术语图,用于描述文档集,可以被视为一个层次集。例如,普通名词词库包含大约10000个术语。纪录片的核心构成了纪录片过程的“附加值”。事实上,它允许控制描述的术语,以尽量减少搜索过程中的在这样的背景下搜索不同于网络搜索,因为客户端通常知道他想要什么样的视频序列。结果通常是一个目标,研究人员的任务将包括在文件内核中找到导致一小部分相关结果的微小路径。事实上,这样的方法通常需要用户进行大量的实践才能有效。2003年,全国学徒培训协会开始为选定的一批客户提供网上互联网访问其部分数据库的机会。此时,文档内核不可访问,使得用户的搜索过程变得复杂。为了使公众更容易获得档案,有必要开发新的导航和搜索用户界面。这些界面必须非常适合对文档技术和相关工具了解有限的未来用户。文档内核由图、树和列表等大型结构组成。查询由从内核中提取的术语列表、布尔表达式和结果列表组成。目前,还没有统一的界面来可视化这些对象。本文试图在这样的背景下提出一个统一的接口本文描述了一个基于欧拉图表示的搜索和导航用户界面。欧拉图构成了一个交互式的,统一的和直观的表示,允许用户执行图形复杂的查询。接口由以下部分组成:• 文档内核对象的可缩放表示,J. Thièvre等人理论计算机科学电子笔记134(2005)189191一BCD一D B C探索和选择与文档数据库相关的有效语义场。• 根据预选字段对结果进行交互式绘图2当局叙词表是传统文献核心中最复杂的对象。同义词库用于两个过程。在文档的索引过程[7,8,15]中,同义词词典定义了可用于描述文档的术语。它还用于文档检索任务,以执行比全文模式更精确的搜索同义词词典是一个有向图,其中每个节点描述一个术语,它的含义,它的同义词和它与其他密切术语的链接(“参见”关系)。每个术语可以有多个子术语。这种父子关系可以用几种不同的方式来解释:• 儿童术语更具体(下位词),• 子项是父项的一个方面• 子项是父项的元素同义词词典的结构通常被视为从最通用的术语到最具体的术语的树状结构。它为数据库中的语义导航提供了一个有趣的起点。用户必须能够从一个术语导航到另一个术语,或者查找特定的术语,从而到达相应的文档。与“另见”关系相关联的动态横向路径2.1树与欧拉图欧拉图是一种自然和直观的方式来可视化集合[14]。如果我们把每个树节点看作一个包含其子节点的集合,那么用欧拉图来表示树就变得容易了。图1显示了以节点链接图或欧拉图形式可视化的同一棵Fig. 1. 节点-链路图和欧拉图。192J. Thièvre等人理论计算机科学电子笔记134(2005)1892.2视觉属性视觉属性,如Bertin [3]所定义的,是图形对象的各种特征。主要属性是在平面中的位置、形状、大小和颜色。在我们的系统中,节点的位置和形状是自动固定的。节点的位置意味着它包含在其父节点中,所有节点都用圆表示,以保持传统的欧拉圆表示。我们决定使用节点的大小(这里是直径)来编码索引文档的数量或术语的后代数量。颜色用于区分同一兄弟节点的节点。“另请参阅”链接的存在2.3节点布局该算法在树的广度优先遍历中布局节点。根是任意放置的,然后我们计算比例因子和它所有子节点的位置。节点的比例因子与其子节点的数量成比例。子节点的中心位于一个圆上,并且彼此之间的子圆距离是恒定的。术语“运输”的布局结果图二. “运输”一词2.4导航、搜索文本字段和选择导航基于焦点变化和缩放[13,2]。用户可以通过点击任何可见节点来获得焦点。然后视图会缩放,直到详细显示焦点节点。当焦点从节点A变为节点B时,动画将分解从A到B的最小路径:视图缩小到最小的共同祖先(如果存在),然后放大到B。文本字段允许用户对名称和同义词执行文本搜索J. Thièvre等人理论计算机科学电子笔记134(2005)189193的条款。与查询不对应的节点将显示为灰色。命中节点也显示在列表中。在导航期间,可以选择术语并将其用于制定搜索查询。2.5讨论通过分层链接和“另请参阅”横向链接的导航文本搜索的功能使用户能够快速定位感兴趣的节点。通过节点大小对文档数量进行编码,可以快速跟踪最重要的术语,从而给出一种数据库地图。此外,还提供全文检索,可与任何预定义术语选择相结合。3文件夹DocumentSearcher是一个允许用户并行可视化n个查询(n从1到5)的结果的界面。这些查询中的每一个都与轮廓相关联,并且在下文中将被称为轮廓查询。轮廓查询可以是术语或布尔查询。 我们的目标是为用户提供一套基于地图表示的数据库内容,对于这些轮廓查询。3.1维恩图一个维恩图[14]将包含所有可能的交叉区之间的n设置,即使区域不包含任何文档。为了使表示更可读,我们只绘制每个轮廓具有椭圆曲线的图在这种情况下,由于[14],轮廓查询的最大可绘制数量为5。更准确地说,我们的维恩图表示是这样的(参见。 图3):• 一个唯一的维恩图对应于一个给定的n。这个图是这样的,根据定义它的轮廓查询的数量,从中心到边界对区域进行排序(中心区域对应于由n个轮廓查询索引的文档集)。• 区域的颜色对应于与它们相关联的文档的数量194J. Thièvre等人理论计算机科学电子笔记134(2005)1891n > 9其他(57)18着陆战争11 > n > 56 > n > 00030010n =51文件01940/1950年419电视新闻图三. 四项的维恩图。3.2扩展欧拉图根据[16],存在n ~ 9的平面扩展欧拉图.<“扩展欧拉图”的概念由可能具有孔的平面的连接区域来表示,并且n个集合的子集的每个非空交集对应于平面的唯一区域。 注意,具有公共相交如[4]所示,总是平面的。我们使用扩展的欧拉图来生成消除空区的地图。在我们的上下文中,已经生成了许多排他的索引来对具有最小模糊性的文档进行分类。由于所有项的交集所对应的区域然而,在这些情况下,扩展欧拉图是有趣的,因为它们提供的表示包含比维恩图少得多的区域。我们期望这些表述将更具有可读性(参见图3和图4)。着陆1其他(57)1117834159战争1940/1950年1电视新闻见图4。扩展的欧拉图我们目前正在实现扩展的欧拉图表示。J. Thièvre等人理论计算机科学电子笔记134(2005)1891953.3讨论维恩图或欧拉图的使用简化了布尔公式:通过选择感兴趣的区域交互式地完成查询的公式化[12]。一个有趣的属性是,每个文档都属于这个地图上的一个唯一区域。这一互动工具还可能带来新的搜索策略:• 任何区域的选择都可以被用作执行新搜索的集合,从而允许容易的渐进公式化;• 这种表示提供了一种Meta分类,允许用户详细说明一种策略来查看结果。• 该制图是根据等高线查询集的数据库的局部地图,并为用户提供了验证等高线查询中使用的术语4搜索策略在分析一组大约100个真实查询时,出现了几种类型的情况,导致不同的搜索策略:• 用户获取的文档太多他通过选择任何项的子项来减少结果集• 用户获取的文档太多。他执行迭代查询,同时对结果集制定新的查询。我们观察到,用户通常不使用超过5个查询并行和迭代制定是最新的战略。• 用户确切地知道他正在寻找的视频序列,因为他已经看过了。他选择语义术语来制定他的查询,但他概括了查询中所选择的术语,同时选择了一组与同义词词典中的父术语或几个兄弟节点相对应的文档• 用户浏览关于主题的数据库。他制定了组成的查询,并试图详细说明他的主题分类文件的路线图。• 用户继续分析关于主题的数据库由此产生的分类,数量和特定和选定术语的相关性将构成研究人员的新数据集• 用户有所需序列的描述,但相关术语的选择例如一196J. Thièvre等人理论计算机科学电子笔记134(2005)189所研究的查询的公式化如下:“戴头盔的希拉克总统”。在这种情况下,由于术语“头盔对于其中的许多任务,我们的图形工具提供了简单的图形操作。事实上,根据文档内核扩展或集中术语的含义可以通过在权威浏览器中选择父节点、兄弟节点或子节点来完成文档检索中结果的分布允许用户快速识别和修改不适当的术语(不适当的术语返回太多或不够的文档)。只需在文档搜索器中选择图的区域,就可以轻松执行迭代策略。图形属性允许用户快速分析和感知文档相对于文档内核或当前查询的分布。然而,如果必须推断术语,则用户的知识和策略仍然是快速成功的主要因素。5场景以下场景通过几个问题案例说明了我们的工具的实用性。5.1简单的布尔查询公式一些研究[12,5,1]表明,复杂的布尔查询的文本表述主要问题是:• 大多数用户不知道运算符优先级的概念,因此括号的使用是错误的一个重要来源;• 逻辑DocumentSearcher的维恩图工具可以用来以图形方式组合任何复杂的布尔查询,以生成语法上有效的查询。此外,这种集合和子集交互选择的过程避免了[12,11,5,10,17]中所示的大部分语义误解。场景:复杂布尔查询任务是查找用于检索有关20世纪50年代音乐和歌曲的文档的查询。文本布尔查询公式如下:这其中最常见的错误J. Thièvre等人理论计算机科学电子笔记134(2005)189197例如,忘记括号。 在这种情况下,查询的含义和结果将是不同的。这个查询的公式可以用交互式维恩图工具来简化(参见图5),因为用户必须在时间段轮廓内选择属于音乐或歌曲的区域图五. 关于“音乐”、“歌曲”和“时期:[1950 - 1960]”的维恩图5.2重构查询相关性分析在维恩图中,我们显示了对应于每个轮廓和区域的文档数量。该信息给出了每个轮廓查询的相关性的良好反馈事实上,如果轮廓查询与少量文档相关联,则出现两种可能性:数据库不包含与这些查询术语相关的这可能导致使用当局的浏览器重新制定查询,以便找到形成初始轮廓查询的术语。这个过程对于索引词依赖于时期的数据库变得很重要。新闻数据库最关心的就是这种词汇的演变。场景:评估轮廓查询相关性这里的任务是找到戴高乐1950年至1970年外交政策的文件在法国,外交政策的术语随着时间的推移而变化由于文件主要是在广播时被索引的,因此随着时间的推移,以下三个术语可能被用来描述“外 交政 策” :“ 国 际政 治” ( i-terna l policy ) , “政 治” ( ex- terna lpolicy)和“政治”(politiqu e etran gere)。 然后,“国际政治”和“戴高乐”的问题和日期:[1950 - 1970]将给出一个令人惊讶的维恩图,其中“国际政治”是一个空集合。图6)。我们可以很容易地看到,这个词是从来没有使用和战略198J. Thièvre等人理论计算机科学电子笔记134(2005)189图六、维恩图上的我们将尝试将其他术语结合起来。图7显示了更真实的结果。图7.第一次会议。 Vennd iagra mon“p oli t i q u e ′ etra n g ` ere”,“D e Ga u ll e“and d“d a t e:[195 0 −1970].5.3确定最佳结果合取查询(另一方面,双析取查询产生巨大的结果集。文氏图区域内的文档的重新分区允许用户迭代地遍历结果集,同时首先选择与最相关的术语组合相对应的区域。情景:确定最相关的文件这里的任务是找到涉及法国,英国,德国和美国的战争和冲突的文件。让J. Thièvre等人理论计算机科学电子笔记134(2005)189199WAR:war conciliict armymilitary FRANCE:法国英国:英格兰美国:USA对于析取查询WAR OR FRANCE OR UK OR GERMANY OR USA,我们得到15204个文档,而对于合取查询,我们没有文档。与相应的维恩图(cf.图8)我们可以找到两个有趣的文档。这些文件由WAR和4个特定国家中的3个索引。见图8。 “战争”、“法国”、“英国”、“德国”、“美国”的制图5.4数据库制图我们称数据库制图为任何表示数据库重新分区的图,并且从文档集合到轮廓查询中使用的术语集合存在此外,这些术语在语义上应该是时间制图图9显示了从1930年到2004年,根据目录的文档再分配图。这张地图很好地展示了法国电视的发展我们观察到,1930-1950年期间包含的文件比其他轮廓查询。事实上,这一时期的节目都是电影,而且制作成本很高。此外,这张地图说明了INA的数字化政策。200J. Thièvre等人理论计算机科学电子笔记134(2005)189图9.第九条。[1940- 1950]、[1950- 1965]、[1965- 1980]、[1980- 1990]、[1950- 2004]的制图见图10。“歌曲和音乐”、“体育”、“小说、电影和连续剧”、“新闻”和“纪录片”的制图。程序类型制图图10示出了主要节目类型的绘图:歌曲和音乐;体育;小说、电影和电视剧;新闻;纪录片这些类别占该数据库的三分之二,其中主要包括新闻和纪录片比小说少得多。体育主要在新闻节目中播出。J. Thièvre等人理论计算机科学电子笔记134(2005)1892016结论在传统的图书馆环境中使用维恩图或欧拉图改进了搜索过程。正如在[6]中所注意到的,用户有严重的和复杂的信息需求。但他们可能无法表达他们,以建立有效的查询,因为缺乏知识的纪录片的核心。权威浏览器为他们提供了一种简单而快速的方法来获得合适的术语来组成他们的查询。文档查询提出了一种表示方法来分析和浏览组合查询的结果。此外,这一互动工具帮助用户制定战略,并提供了一个这项工作正在用户中进行测试和验证。正在讨论图形属性和附加功能,以满足用户的需要和愿望。引用[1] J. Avrahami和Y. Kareev 当你要一杯咖啡时,你期望得到什么 和一个面包或羊角面包吗论含有多重连接词的句子的理解国际人机研究杂志,第38期,第429-434页,1993年.[2] B. Bederson,J.Grosjean和J.迈耶交互式结构化图形工具包设计IEEE软件工程学报,30(8),第535- 546页,2004年[3] J. Bertin 图形符号学。 威斯康星大学出版社,1983年。[4] S. Chow和F.拉斯基绘制面积比例欧拉图的一般解法。在Euler Diagrams 2004,ENTCS,2004中。[5] M. Chui和A.狄龙使用四个布尔查询系统的速度和准确性。 第十届中西部人工智能和认知科学会议,第36-42页,1999年。[6] R. K.法国,L.T. Nowell,E.A.福克斯,R.A. Saad和J. Zhao。数字图书馆检索系统的使用和可用性。未出版的手稿,1999年。[7] ISO 999:信息和文献-索引的内容、组织和表示指南,1996年。[8] ISO 5963:文件-检查文件、确定其主题和选择索引术语的方法,1985年。[9] J. Flower和J. Howse。生成欧拉图。在Diagrams 2002,第61-75页,LNAI 2317,SpringerVerlag,2002中。[10] M. Hertzum和E. 弗罗克雅联机文献的浏览与查询:用户界面与交互过程研究。ACMTransactions on Computer-Human Interaction,Vol. 3,No 2,pages 136-161,1996.[11] S.琼斯数字图书馆的图形查询规范和动态结果预览。在ACM用户界面软件和技术研讨会上,第143-151页,1998年。[12] A.迈克尔非专业用户的一种新的数据库查询语言:设计原理和人机工程学评估。行为和信息技术,卷。1,3,第279-288页,1982。[13] K. Perlin和D.狐狸.焊盘:计算机接口的另一种方法。在SIGGRAPH'93的会议记录202J. Thièvre等人理论计算机科学电子笔记134(2005)189[14] F.拉 斯 基 文 氏 图 综 述 电 子 组 合 学 杂 志 , 2001年 , 网 址 :http://www.combinatorics.org/Surveys/ds5/VennEJC.html[15] G.索尔顿 术语联想在自动情报检索中的应用。 Coling'86,第11届国际计算语言学会议,第380-386页,1986年[16] A. Verroust和M-L。 维奥 确保扩展欧拉图的可绘制性八套。InDiagrams 2004,pages 128-141,Cambridge,2004.[17] D.杨和B。施奈德曼一个布尔逻辑的图形过滤器/流表示:一个原型实现和评估。Journal of theAmerican Society for Information Science,Vol. 44,No 6,pages 327-339,1993.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功