查询隧道封装：Web源的受限接口和结果模式的整合查询能力

47 浏览量更新于2024-01-15 收藏 712KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

理论计算机科学电子笔记150（2006）55-70www.elsevier.com/locate/entcs利用查询隧道封装具有受限查询接口的Web源Thomas Kabisch1和Mattis Neiling2计算与信息结构（CIS）柏林工业大学德国摘要万维网中的信息源通常对用户采用两种不同的方案，用户可以查询的接口模式和用户可以浏览的结果模式。接口模式通常比结果模式更受限制，而且许多源代码只提供关键字搜索接口。因此，这些来源的查询能力是非常小的，一个有用的整合到一个基于中介的信息系统使用查询能力几乎是不可能的。我们提出了查询隧道架构的包装这些受限的Web源。通过Query Tunnel包装源隐藏了限制性的查询接口，并使这些源完全可基于其结果模式进行查询。查询过滤的过程分为两个主要步骤，查询松弛，使一个更高的顺序查询适合于一个受限的接口和结果限制，以过滤结果使用原始查询。关键词：信息抽取，信息集成，信息过滤，查询能力，模式映射，Web查询接口，包装。1介绍在联邦信息系统的上下文中，包装器被用来封装异构的信息源[6]。某些包装器的特定设计是高度异构的，它取决于底层源、所需的查询功能和所使用的查询语言。在这种情况下，包装器为预定义的信息源提供查询接口。1电子邮件地址：tkabisch@cs.tu-berlin.de2电子邮件地址：mneiling@cs.tu-berlin.de1571-0661 © 2006 Elsevier B. V.在CC BY-NC-ND许可下开放访问。doi：10.1016/j.entcs.2005.11.03456T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）55查询语言因此，包装器需要桥接底层源的各种异质性。应包装可通过小型查询接口访问的Web源，以支持更高级别的查询功能。这方面是我们贡献的主要重点。之前提交我们将讨论一些类型的信息源，并简要概述RDF [23]和RDQL [3]，我们将其用作支持复杂查询的基础设施和接口。3信息来源信息来源可以按照许多标准进行分类。在这里，我们将讨论其中的两个，源结构化的程度和源的可访问性的程度。结构化特定于源代码的包装器功能取决于应该包装的源代码的类型。源可以分为结构化、半结构化和非结构化源。• 结构化源（例如SQL数据库）可以通过更高的查询语言进行查询，并提供模式。包装器必须在中介语言和特定源的语言之间转换查询和结果。• 半结构化源（例如XML源）不一定提供模式，但具有较少约束的结构。更高级的查询语言（例如XQuery [24]）正在开发中，可以使用。因此，包装器还必须在语言之间转换查询和结果• 非结构化的源（例如HTML页面）更难处理。这些数据源没有模式，并且通常不提供更高级别的查询语言。它们是为人类互动而设计的。可访问性与传统的数据库信息源（例如，具有SQL查询接口的关系数据库）相比，Web数据库通常仅允许对底层数据源的受限访问。这些来源的可访问性方面的瓶颈带有HTML-Frontend的Web数据库通常提供基于表单的查询接口。这样的查询接口仅限于一些可查询的属性，这些属性可以通过键入关键字来请求，并且通常仅通过一个操作符来组合它们。另一个限制是普遍缺乏类型系统，在提交查询时每个参数都被解码为字符串3RDF扩展了RESSEARCHD描述框架，而RDQL代表ResktopD escription QueryL language。T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）5557RDF/RDQL作为基础设施我们使用RDF [23]及其查询语言RDQL [3]作为基础设施。RDF是描述资源的标准。因此，我们的包装器在RDQL中是可查询的，并提供RDF结果。RDF作为公共数据模型RDF格式和相关的RDF模式非常适合半结构化的Web数据及其描述元数据。查询语言和RDQLRDF查询语言有几种建议我们决定使用RDQL，因为它非常可读-符号与SQL非常相似。设计一个基于中介的信息系统，应该考虑所选择的数据模型对特定领域的查询能力和映射规则以及中介组件的查询执行器和结果集成器都有影响。在分布式信息系统中，查询语言的语义和查询能力应该被精确地定义，特别是选择和投影属性之间的逻辑。使用Jena API[14]，如果元组包含所有选定的属性，则它仅是RDQL查询的RDF结果的一部分。在联邦信息系统中，不合适：用户通常需要任何他可以得到的信息，即使某些选定的属性丢失。介绍实例Web资源大多是非结构化的（例如HTML），通常可以通过一个小的查询接口进行查询。然而，可查询的Web源生成的HTML页面通常带有一些可以利用的规则结构。作为一个例子，我们将讨论科学出版物来源“CiteSeer”，参见。[19 ]第10段。此数据源仅支持关键字查询。Fig. 1. CiteSeer接口CiteSeer提供一个接口模式ICiteSeer，它只允许关键字检索：ICiteSeer=（keyword）。结果模式RCiteSeer更加复杂，我们将在这里讨论概述页面，其模式可以表示为RCiteSeer=（title，author，year，link，citations）。只有一个问题，此来源的可能性是关键字→（标题，作者，年份，链接，引用）。更58T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）55图二.CiteSeer结果片段一般不支持复杂查询。基于四个不同的查询示例，我们将讨论我们的方法。例1.1[简单查询]返回作者“Garcia-Molina”的所有论文。这是一个简单查询的示例，不能直接针对接口属性author不是有效的查询属性，但该值可以是关键字查询的选择条件例1.2 [不可查询属性]返回作者“Garcia-Molina”的所有引用次数超过100次的论文。这个查询是具有挑战性的，因为引用的数量是一个元素，结果模式，但不可查询-属性在基础数据源中没有索引。例1.3 [Range Query]返回作者“Garcia-Molina”在1998年到2004年之间的所有论文。大多数源只支持精确匹配-因此范围查询不能发行即使这个给定的查询可能被重写为某些精确的查询，这通常也不是合适的方式。一个复杂的查询，包含可查询属性的选择标准，并结合布尔运算符（例如， AND、OR和括号（.）），如果查询接口支持相应的运算符，则可以否则，如果源不能够进行这种复杂的查询，则需要适当的处理以便将查询拆分成其原子。如果收到不同查询的结果，则将进行整合例1.4 [Complex Query]返回所有由“Garcia-Molina”撰写或标题中包含“federation”的出版物。如果源不支持析取（OR）查询，则必须将查询拆分为两个查询：• 归还“加西亚-莫利纳”撰写的所有出版物，• 返回标题包含“联邦”的所有出版物。然后，结果的并集形成原始查询结果的超集。T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）5559导出接口本文的其余部分组织如下。第2节介绍了我们的通用包装架构，这是查询隧道的基础。第三、四部分详细介绍了查询松弛和结果限制，第五部分对相关工作进行了概述，第六部分简要介绍了我们的MiWeb原型系统[5]，它实现了查询松弛和结果限制。第七部分是结论和展望。2通用Web包装架构我们对包装的一般理解是包装器提供一个查询接口，它支持更高级别的查询语言并提供结构化的结果。目前，该架构仅针对合取查询。所提出的通用包装器体系结构是沿着不同的transformation任务，需要由一个web包装器，以支持更高级别的查询接口。图3画出了一幅总图，列出了卷筒纸包装机可能包括的所有组件。本节简要概述了整个包装体系结构，并总结了需要支持的所有任务和转换。本文的主要重点是查询松弛和结果限制组件。所有其他组件仅作简要说明。导出查询导出结果模式映射查询放松结果限制查询序列化结果集成参数提取结果提取源储存库源查询源结果源接口源图3.第三章。Web源代码的通用包装体系结构60T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）55组件我们的通用架构支持分布式处理不同类型的异构性-因此，该架构针对这些任务进行了分割，每个组件负责一个特定的转换任务。查询放松/结果限制Web页面通常只提供一个小的查询接口，允许非常小的可查询属性集，而底层的源模式具有较高的复杂性。因此，复杂的查询需要放松，以应对受限的接口。查询松弛支持两个主要用例：• 属性替换• 属性消除在大多数情况下，查询松弛导致所需结果集的超集因此，在第二步骤中，在已向源发出宽松查询之后，必须应用结果限制在结果集被转换回RDF表示之后此步骤将结果集缩减为所有有效元素w.r.t.这个查询。模式映射在一般的包装体系结构中，该组件解决了模式异构性问题。映射规则（主要在属性级别上）被指定，以弥合这种异质性。在我们的方法中，这个任务是由一个额外的组件来执行的，这个组件在这里没有讨论，但在[5]中讨论。参数/结果提取此组件将复杂的查询状态减少为需要通过管道传输到源的查询参数列表在返回的过程中，该组件处理提取，如果源输出不是类似数据库的结构，则会发生提取。结果提取步骤的输出符合源的所谓结果模式，并且结构良好（例如，采用RDF或XML）。大多数网络资源都是基于HTML的，因此没有结构化的输出。结果抽取是许多相关工作的焦点，例如。[10]、[8]、[7]或[25]。[16]对这个问题有一个很我们遵循基于语法的范式[15]。当时的语法是手工开发的，但在未来，我们计划采用一种自动化的解决方案，类似于[10]，[20]。查询序列化/结果集成查询序列化/结果集成组件负责将更高级别的查询拆分为多个查询，并在源操作员将其内容分布在多个页面上时将结果收集在一起。两个主要案例值得关注：主-细节页面许多深网源首先返回一个概述页面，其中显示了合适的结果列表。每个交付结果的详细信息存储在额外的页面上。为了让所有的匹配-T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）5561−−这个细节页面的形成也需要考虑在收集了所有相关信息之后，发布一个集成过程，将数据转换为包装器导出模式的实例。[11]研究了主细节来源。限制每页的数量Web资源的另一个挑战是限制结果集。许多信息来源提供了第一个k或前k个结果一次仅产生。为了得到完整的结果集，需要发出一个以上的查询，或者（在HTML中）需要跟随到“下一个”k个元素的超链接源储存库通常，源存储库包含用于配置包装器的Meta信息。每个包装组件都使用源存储库来完成自己的任务。因此，它包含四个部分映射规则，松弛规则和串行化信息和提取语法。Relaxation Rules相应Relaxation组件的任务是确保到源的完全可查询的接口，该接口基于源结果模式R。因此，松弛规则被制定来回答以下问题：• R的哪些属性是接口模式I的一部分？• R的哪些属性是可查询的，哪些是不可查询的？映射规则尽管松弛规则是基于源结果模式R的，但是如果所需的导出模式W与结果模式R不同，则必须应用附加的映射规则.如果目标是整合到一个具有共同模式的基于中介的信息系统中，情况大多如此。在这种情况下，模式映射规则的公式，解决模式之间的异构性R和W。在我们的原型MiWeb [5]中，我们使用了一个额外的map- ping组件来进行模式映射。提取语法用于提取语法的存储库条目需要区分为用于参数提取的参数提取语法和结果提取语法。第一个用于从松弛和序列化的查询表达式中提取可查询字段。这些语法的这一部分中的一个重要点是将一个接口字段的多个查询条件聚合到一个表达式。结果表达式语法需要从HTML源提供的非结构化结果文档一些方法使用正则表达式来完成这项任务，其他方法则推导出自己的包装语法[7]，[20]，[11]，[10]。62T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）55→→序列化信息在此存储库段下，我们总结了由于结果分布在多个页面上而需要序列化查询时所需的信息。在主-详细Web源的情况下，必须有信息，无论是在主页面或详细页面或两者上都可以找到特定的属性属性，为了避免由源限制引起的部分结果集，必须提供有关源行为的附加信息：它要么一次交付所有结果，要么在预定数量的结果之后进行剪切。在这种情况下，如何将查询拆分为部分查询，存储所有有效结果这一部分是未来研究的主题3查询放松放松规则松弛规则将被区分为属性替换规则和属性消除规则。如果在查询接口模式I中没有提供源结果模式attr R的属性，但是存在接口模式的属性attr I，则制定属性替换规则，其可以用于隐式地查询attrR。在这种情况下，我们将attrR称为可查询属性，因为attrR的扩展被索引并且可以被查询。属性替换规则表示为：阿特岛应用属性替换规则的最常见的用例是基于表单的数据源，它只提供相反，如果结果模式attrR的属性不存在于接口模式I中，并且另外，如果不存在允许对attrR的隐式查询的接口模式的合适属性，则发生消除规则。在这种情况下，不可能有任何有用的映射，映射上的更多内容将产生不正确的查询松弛。我们将这种属性称为不可查询属性，这意味着源的接口不提供任何查询机会为他们不可查询属性attrR的松弛规则写为attrR <$r，这意味着在对源发出查询值得注意的是，该方法提供了一个附加值，因为不可查询的属性在包装器导出接口上变得可查询，我们将在第4节中详细说明。虽然CiteSeer的查询接口只提供关键字搜索，但我们的包装器能够查询结果模式的属性，它提供了T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）5563∗ ∗ ∗ ∗ ∗→结果模式RCiteSeer。因此，包装器提供查询能力（标题、作者、年份、链接、引用）（标题、作者、年份、链接、引用）。在内部，每个左边的属性都必须映射到CiteSeer的接口模式（即，关键字）或从查询：标题<$→关键字，作者<$→关键字，年份<$→关键字，链接<$→链接，以及引文<$→。使用松弛规则的从原始RDQL查询输出，包装器根据源描述放松它。中包含的每个选择属性必须检查查询属性R，它是否是可查询的，即，是否存在替换规则。在这种情况下，相应地重写选择条件。否则，存在消除规则，因此将从查询中删除该属性。然后，该选择属性attrR必须稍后在结果限制阶段中应用。我们将沿着第1节中介绍的示例讨论查询松弛。仅使用可查询属性进行查询（参见实施例1.1和1.4）。示例1.1的简单查询可以用RDQL编写为(Q1)选择 *Where（？资源cs：author>？作者）和？作者=~“Garcia-Molina”使用cs为使用替换规则author<$→关键字，可以简单地放宽到(Q2)选择 *Where（？资源cs：keyword>？关键字）和？关键字=~“加西亚-莫利纳”使用cs为例1.4中给出的复杂查询在RDQL中表示为：(Q3)选择 *Where（？资源cs：author>？作者）（？资源？标题）AND（？作者=~“Garcia-Molina”||？title=~/联邦/）使用cs为由于作者和标题都可以通过关键字field查询，因此可以放宽到(Q4)选择 *Where（？资源？关键字）64T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）55→AND（？关键字=~“加西亚-莫利纳”||？keyword =~“联邦”）使用cs为具有不可查询属性的查询（参见实施例1.2）。必须对不可查询的属性应用消除规则。从以下RDQL查询传出：(Q5)选择 *Where（？资源cs：author>？作者），（？资源cs：citations>？引文）然后呢？作者=~“加西亚-莫利纳”&&？引文>= 100使用cs为应用排除规则citation <$s-citations属性不能通过查询接口查询。最后，它也被放松到查询（Q2）使用替代规则。范围查询（参见实施例1.3）。如果不能通过查询接口应用范围查询，则必须从查询中消除相应的选择谓词，如不可查询的属性，并应用于之后的结果。值得注意的是，如果我们对可平等查询的属性year应用如下范围查询，也会产生关键字查询（Q2）(Q6)选择 *Where（？资源cs：author>？作者），（？资源cs：year>？年）AND（？作者=~“加西亚-莫利纳”&&？年份>= 1998年&&？年份= 2004年）使用cs为或者，可以用几个析取选择条件来放松这个查询：(Q7)选择 *Where（？资源？关键字）AND（？关键字=~“加西亚-莫利纳”&&（？关键字=~“1998”||什么？关键字=~"1999 "||？keyword=~“2000“||什么？2001年，||？“2002年“||什么？“2003年“||？keyword =~“2004”）使用cs为但一般来说，范围查询不能重写为基于等式的查询，T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）5565例如，对于条件？year< = 2000或连续范围间隔。4结果限制由于我们对源提出了宽松的查询，结果集可能包含超复杂的记录。例如，如果为关键字搜索访问全文索引（如CiteSeer），则结果可能在相应文档的任何位置包含选择标准，而不一定在作者或标题属性中。此外，考虑到上面的宽松范围查询（Q7），结果集中的几条记录可能在其引用部分包含相应的年份，并且不一定在1998和2004之间发布。因此，必须对结果进行w.r.t.过滤。此前放宽的选拔标准。为了得到满足原始RDQL查询中所有选择条件的结果，我们对中间RDF结果集执行原始查询。我们举一个例子。例4.1对于第10页的RDQL查询（Q5），我们对CiteSeer发出第9页的宽松查询（Q2）因此，此查询的结果必须进行后处理，如下所示：• 只有被报告为至少被引用100次的结果才应被过滤，并且• 字符串后面的结果将从结果中删除。由于我们的架构，中间结果以RDF表示，因此我们可以通过Jena API对其执行RDQL查询。针对放松查询的结果执行原始RDQL查询将提供正确的结果。例如，给定显示的三个结果在第12页的图4中，只有第一个结果填充了原始查询，将由包装器返回。详细地说，对于第二个结果，字符串<在第三个结果中，两个选择标准都没有满足-它被引用的次数不到100次，并且元素不符合标准。事实上，这两篇文章都引用了“Garcia-Molina”66T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）55<？XML version=“1.0”encoding=“UTF-8”？> 对象海峡交流异构信息源/cs：title>. 赫克托·加西亚·莫利纳/1995/cs：year> www-db.stanford.edu/pub/papers/icde95.ps/cs：link>243/cs：citations>管理语义.Richard Hull/cs：author>1997/cs：year> cs：link>.& lt;/cs：link>88/cs：citations>5相关工作见图4。 RDF结果示例信息源包装是近年来研究的一个重要课题。一方面，在中介系统中的组件的特定焦点中讨论包装。 [ 21 ][22][23][24][25][26][27][28][29][29]Garlic通过规划支持丰富了包装功能。另一方面，有许多系统专注于Web源的包装。一些框架已经开发了这个任务[13]或[25]。许多先前的作品详细描述了内容提取任务[10]，[18]或[7]。最近的一些研究方法集中在Web表单上[28]，[12]或[27]。一种较新的方法是区分接口和结果模式，并识别它们之间的扩展重叠以进行包装任务[26]。这些论文中只有少数讨论了过滤问题。据我们所知，他们中没有人使用RDF和RDQL来完成这项任务。T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）5567NE学习对象元数据NE-包装器用户界面RDQL-LOMRDF-LOMRDQL-LOMRDF-LOMQEL GoogleRDF Google谷歌-包装关键字HTMLCiteSeerResearchInde谷歌搜索引擎RDF-LOMRDF-Google映射映射器鲁多夫GoogleQEL/RDF接口CiteSeer-包装QC调解人6实验我们在MiWeb-System[5]中测试了这种方法，MiWeb-System是一个基于中介的信息系统，用于集成Web源。MiWeb系统集成了描述不同类型网络文档的元数据源：搜索引擎Google [1]4、科学引文索引Citeseer [19]以及NewEconomy（NE）项目中开发的电子学习专用资源[2]。MiWeb由三个主要组件组成（参见图5）：中介器、包装器和映射器。在MiWeb-System内部查询Tunnel用于Roodolf和CiteSeer数据源的包装器组件图五. MIWeb系统在MiWeb中，元数据被表示为RDF模型，这意味着资源描述框架RDF[23]被用作公共数据模型[22]。中介者模式遵循用于描述电子学习资源的学习对象元数据标准（LOM）[9]。用户可以使用RDQL查询系统[3]。中介器负责回答针对中介器模式的查询。这包括• 为了生成用于查询集成包装器的计划以使得可以回答全局查询（查询重写），• 通过与包装器通信来执行这些查询，4详细地说，我们使用已经存在的QEL/RDF包装器Roodolf（[4]）68T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）55• 通过消除冗余和识别数据冲突来整合结果。查询规划基于包装器接口的描述– the 因此，中介器组件还包括一个管理器，用于注册、更改和删除查询功能。它用于动态地将数据源集成到系统中在MiWeb系统中，大多数包装任务都是用基于语法的方法完成的，这适用于多种源。用户输入的查询处理如下。首先，生成一个如何将查询划分为对注册源的子查询序列（计划）的计划。当这些查询被发送到这些源时，包装器将结果转换为特定于源的RDF表示。映射器组件将特定的RDF转换为符合LOM规范的RDF，由中介器使用。中介器组件收集由源提供的所有信息，并将它们集成到结果中，然后将结果发送回用户界面。7总结和展望提出了一种克服Web资源查询能力受限的方法。更详细地说，使用QueryTunnel可以提出查询，这些查询可能包含针对仅存在于结果模式中的属性的选择标准-而不是在Web源的查询接口采用查询隧道的包装器可以很容易地适应，因为配置是元数据驱动的-以描述性的方式提供源特定信息。由于Web源通常只提供有限数量的结果每页，查询序列化起着重要的作用，包装器，即一个查询分成几个或重复处理几个结果页面。这与查询Tunnel特别相关，因为对于宽松的查询，结果的数量会定期增加。因此，有时需要为一个查询处理多个结果页。因此，我们将改进查询序列化。有效地处理松弛查询会导致难以管理的大型结果集（即如果仅使用不可查询的属性作为选择标准）将是我们未来研究的另一个方向。为了管理这些问题，将调查关于属性选择性的统计元数据。进一步研究的另一个重点将集中在如何通过使用查询和结果接口之间的识别技术自动推断松弛规则的方法上，如[26]中所述。T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）5569虽然我们讨论了基于RDF/RDQL框架的方法，但它可以独立于所选择的数据表示和查询语言而适用。总之，通过查询Tunnel可以向Web源发出高阶查询，而不会违反它们对语义丰富查询的自主性。引用[1] Google. http://www.google.de/网站。[2] 新经济-首页http://www.dialekt.cedis.fu-berlin.de/neweconomy/网站。项目成立的bmb+f在程序[3] RDQL-RDF数据查询语言。 http://www.hpl.hp.com/semweb/rdql.htm网站。[4] RooDolF2.0.http://nutria.cs.tu-berlin.de:8080/roodolf2/index.html。[5] Susanne Busse，Thomas Kabisch，and Ralf Petzschmann. MiWeb：基于中介的集成WEB来源。技术报告，柏林科技大学，2005年。[6] Susanne Busse，Ralf Kutsche，Ulf Leser，and Herbert Weber.联邦信息系统：概念、术语和体系结构。技术报告，柏林技术大学，1999年。[7] 张嘉慧IEPAD：基于模式发现的信息抽取。第十届国际万维网会议，第681-687页[8] W.科恩，M。Hurst和L.詹森。一个灵活的学习系统，用于包装表格和列表HTML文档中。第十一届国际万维网会议WWW-2002，2002年。[9] IEEE学习技术标准委员会。信息技术标准.教育和培训系统.学习对象和元数据。技术报告，IEEE，2002年。[10] Valter Crescenzi，Giansalvatore Mecca，and Paolo Merialdo. Roadrunner：从大型网站自动提取数据在VLDB期刊，第109[11] ChristophGüol，ThomasKabis ch，and JüornGuySu. 开发具有基于内容识别的机器人包装机系统在WRAP2004 ： Proceedings of the First International Workshop on Wrapper Techniques forLegacy Systems，Computer Science Reports。[12] Bin He，Kevin Chen-Chuan Chang，and Jiawei Han.发现跨web查询接口的复杂匹配：一种相关性挖掘方法。在KDDACM Press，2004.[13] Kevin Chen Chang Bin He和Zhen Zhang。迈向大规模集成：在Web上的数据库载于CIDR，2005年。[14] 惠普实验室。 Jena Java RDF API和工具包。 http://www.hpl.hp.com/semweb/网站。[15] 托马斯Kabis ch.格拉马特基耶尔特斯塞曼蒂什河包装富尔féoderierteinformationssysteme.在塔贡斯班德 15 号。GI-Workshop Grundlagen vonDatenbanken ，第 62-66 页。 FakultatfuerInformatik ， Otto-v on-Gueri c k e-Uni v ersit ？atMagdeburg，2003.[16] A.伦德湾Ribeiro-Neto，A.席尔瓦和J.特谢拉。 Web数据抽取工具概述。SIGMOD记录，31（2），2002年6月。70T. Kabisch，M.Neiling/Electronic Notes in Theoretical Computer Science 150（2006）55[17] ChenLi ， RamanaYerneni ， VasilisVassalos ， HectorGarcia-Molina ， YannisPapakonstantinou，Je Escherey Ullman，and Murty Valiveti. TSIMMIS中基于能力的调解。在SIGMODACM Press，1998.[18] I. Muslea，S. Minton和C.诺布洛克 Stalker：学习半结构化的提取规则。在AAAI-98人工智能和信息集成研讨会论文集，技术报告WS-98-01，AAAI出版社，Menlo Park，CA（1998）。[19] NEC研究所。CiteSeer科学文献数字图书馆。http://citeseer.nj的网站。nec.com/cs网站。[20] Mattis Neiling，Markus Schaal，and Martin Schumann. Wrapit：自动集成具有延伸重叠的Web数据库。2003年。[21] 作者：Mary Tork Roth，Peter M.施瓦茨别弄坏了，包起来！一种包装器架构，遗留数据源。在VLDB摩根·考夫曼出版公司，一九九七年。[22] F. Saltor，M. Castellanos和M.加西亚·索拉科数据模型作为联邦数据库规范模型的适用性。ACMSIGMOD记录，20（4）：44[23] W3C万维网联盟。资源描述框架（RDF）模型和方法。W3C Recommendation 22 Feb 1999，REC-rdf-syntax-19990222，Feb.1999年[24] W3C万维网联盟。XQuery1.0：一种XML查询语言。W3C工作草案2005年2月11日，2005年。网址：//www.w3.org/TR/2005/WD-xquery-20050211/网站。[25] Jiying Wang和Fred H.洛霍夫斯基网络数据库的数据抽取和标签分配。在2003年的《国际万维网会议》中，第470[26] Jiying Wang，Ji-Rong Wen，Fred Lochovsky，and Wei-Ying Ma.通过特定于域的查询探测对Web数据库进行基于实例的模式匹配。 VLDB'04：2004年超大型数据库会议记录，2004年[27] Wensheng Wu，Clement Yu，AnHai Doan，and Weiyi Meng.基于交互式聚类的深网源查询接口集成方法。SIGMODACM Press，2004.[28] Zhen Zhang，Bin He，and Kevin Chen-Chuan Chang.理解web查询接口：使用隐藏语法的最佳排序解析。SIGMODACM Press，2004.

下载后可阅读完整内容，剩余1页未读，立即下载