136
义网数据查询,能够以一个特定领域的搜索系统为切入点,利用语义网技术帮助
获取传统 Web 上的信息。
3. 技术方法和研究现状
语义搜索的研究涉及到多个领域,包括搜索引擎、语义 Web、数据挖掘和知
识推理等。运用的主要方法可归纳为:(1)图理论;在语义网的技术框架中,
RDF(Resource Description Framework)是一个非常基础、且又非常重要的数据模型。
通过 RDF 数据模型可将语义网中的本体组织为图结构,图中的弧和由结点和弧
组成的路径中都包含着信息,因此在语义搜索中应用到了不同形式的图遍历方法,
如实例扩展及查询的形式化方法等;(2)匹配算法,在语义搜索中需进行概念与
关键字或者实例与关键字的匹配,关键字提供了一种快速定位信息的入口,而关
键字和概念的匹配方法是语义搜索中重要的一环;(3)逻辑特别是描述逻辑、模
糊逻辑等。逻辑和推理已经被整合到未来的语义 Web 框架中。描述逻辑是知识
的一种形式化表示方法[Baader, et al., 2003],作为本体语言的基础为人们所熟知
[Horrocks, et al., 2003],如 OIL,DAML+OIL,OWL。语义搜索的目的是为了准
确地理解用户的输入,因此必须要使计算机具有逻辑推理能力,即如果输入为“小
米 Note3是 Note2的升级版吗?价格是多少?”计算机要确切理解“小米”、“Note2”、
“Note3”代表的含义,并且理解“Note2”和“Note3”之间的关系。
3.1.主流语义网搜索引擎
在新一代的语义搜索引擎中较为典型的有两个,且都是基于本体的语义搜索
引擎,分别为:Swoogle 和 TUCUXI。其中,Swoogle 从搜索返回结果的 Web 文
档中提取出本体,然后依据本体间的语义关联性确定出文档间的语义关系;
TUCUXI 则通过所获得的本体在 Web 上以特定规则爬行,并通过语义处理找出
最符合要求的网页。目前已开发出许多建立于本体上的语义搜索引擎,如,
Congnition、Hakia、DeepDyve、Factbites、Kngine 等。
Swoogle 是由马里兰大学计算机科学和电气工程系于美国国家科学基金会
(NSF)和美国国防部下署高级研究计划署(DARPA)的资助下所建立的。与那
些传统意义上的语义网搜索引擎不同,Swoogle 在资源获取方面拥有一系列突出
的解决方案,可自动发现语义网中 RDF 格式的文档,通过 Link-Following 和 Meta-
Search 的方式识别出语义网文档(SWDs),通过语义分析不断发现新的语义网文
档,并可对其中元数据建立相关索引提供高效率的查询服务,利用 Rational
Random Surfing 模型提供高质量的排序结果[Ding, et al., 2004] [Ding and Finin,
2006]。Swoogle 的核心功能有:
- 提取语义网中的实例数据;