Hybrid.AI：大规模结构化数据的学习搜索引擎

67 浏览量更新于2023-10-16 收藏 13.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15070Hybrid.AI：用于大规模结构化数据的学习搜索引擎0Sean Soderman，Anusha Kola，Maksim Podkorytov，Michael Geyer，MichaelGubanov，德克萨斯州圣安东尼奥大学计算机科学系0摘要0大数据的多样性[17，40，44，47，52]是想要在大规模结构化数据集内进行搜索的人面临的重要障碍。例如，互联网上有数百万个表可用，但最相关的搜索结果不一定完全匹配关键字查询，这是由于以多种方式表示相同信息的原因。在这里，我们描述了Hybrid.AI，这是一个用于大规模结构化数据的学习搜索引擎，它使用自动生成的机器学习分类器和统一著名对象（UFOs）[33]从大规模Web表语料库返回最相关的搜索结果。我们通过从用户那里收集99个查询及其结果来对其进行评估，并观察到显著的相关性提升。0ACM参考格式：Sean Soderman，Anusha Kola，MaksimPodkorytov，Michael Geyer，MichaelGubanov。2018。Hybrid.AI：用于大规模结构化数据的学习搜索引擎。在WWW '18 Companion：2018年Web会议Compan-ion，2018年4月23日至27日，法国里昂。ACM，美国纽约，8页。https://doi.org/10.1145/3184558.319160001 引言0随着大规模数据管理系统的出现，数据科学家和分析师拥有比以往更多的信息。这些数据的涌入使得检索所需信息变得具有挑战性[6，39，47，56]。考虑一个使用结构化数据工作的数据科学家，他拥有最近挖掘的大规模Web表数据集。如果他想要丰富他关于该地区天气的信息，他可能倾向于使用关键字搜索来在数据集中找到最感兴趣的记录。然而，标准的关键字搜索在结构化数据上，本质上可能会提供不准确或不完整的搜索结果，即使使用了复杂的排名函数，也可能由于查询与相关信息不匹配或相关术语出现在无关的数据行中而导致[5]。此外，大多数结构化数据搜索引擎返回整个表而不是从许多表中融合的最相关行。尽管人类语言和文本的属性是这些问题的根本原因，但通过分析数据的语义属性可以减少这些问题。这就是我们在Hybrid.AI中所做的，它是一个智能搜索引擎，可以自动生成机器学习分类器来识别相似的数据元组，以返回与标准关键字搜索相比更相关的搜索结果。0本文是根据知识共享署名4.0国际（CC BY4.0）许可发布的。作者保留在其个人和公司网站上传播该作品的权利，并附上适当的归属。WWW '18 Companion，2018年4月23日至27日，法国里昂©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31916000为了生成上述分类器，我们利用用户指定的关键词从包含这些关键词作为属性的表中搜索行。这些关键词意味着与某个对象相关联，例如，如果我们想为“工作”创建一个分类器，我们的系统将使用诸如“薪水”、“日期”和“职位”等关键词生成训练数据。完成此操作后，我们自动训练分类器，然后使用它来聚类可能与工作相关的表行。最后，我们从这组分类行中提取核心属性[33]。非正式地说，核心属性是对象的最重要属性（例如，鸟的翅膀），是UFO的关键组成部分，是用于融合以不同方式表示的相似结构化数据对象的数据结构[27，41]。我们使用核心属性作为软约束，提高与特定感兴趣对象相关的结果的排名。通过这种方法，与结构化数据的关键字搜索的标准检索和排名方案相比，我们可以获得更相关的结果。本文的贡献如下：0•机器学习增强的大规模结构化数据信息检索方案：我们提出了一种基于融合的信息检索方案，利用机器学习分类器和统一的著名对象（UFO）[33]。我们在一个拥有数百万个Web表格的大规模结构化数据集上对其进行了广泛评估，使用纯关键字检索作为基准，并观察到显著的检索相关性提升。•一个用于大规模结构化数据的学习搜索引擎 -Hybrid.AI，将关键字搜索与生成的机器学习分类器相结合。0我们并不是第一个尝试搜索Web表格的人。例如，[10]描述了从Web搜索借鉴的技术来索引和搜索Web表格。另一个最近的项目专注于Web表格搜索，而不是通用的结构化数据搜索[54]。本文的其余部分组织如下。第2节讨论相关工作。第3节描述系统架构和分类器生成。第4节描述了一个搜索场景和分类场景，说明了我们的系统。UFOs：统一的著名对象，是一种用于抽象数据表示差异的结构[27, 33,41]。请参阅第5节，以深入讨论UFOs。为了对来自[28]的大规模Web表格语料库中的元组进行排名，我们设计和评估了几个针对大规模结构化数据优化的排名函数，并在我们的系统中使用最佳函数。有关排名的更多详细信息，请参阅第6节。为了评估我们的排名，我们将其与在结构化数据搜索中流行的标准排名函数的增强版本进行比较[5,10, 13,54]，请参阅第7节。第8节描述了未来的工作。我们在第8节中总结。0Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27,2018, Lyon, France150802 相关工作0我们研究了Web搜索、大规模数据管理和信息提取/检索中的各种相关系统。[10]描述了Web表格的不同搜索方法。作者用于改进搜索结果的关键技术是使用AcsDB，这是一个关于语料库中表属性的统计数据库。它用于计算一致性分数，该分数使用PMI（Pointwise MutualInformation）来奖励更有可能配对的项目。他们的系统与我们自己的主要区别在于，他们对整个表进行排名，而我们对每一行（可能来自不同的表）进行单独排名。这使我们能够从整个语料库中获取最相关的元组，并将其组合成简明的结果集。[54]描述了一个用于Web表格的问答（Q&A）系统。该系统从表格中检索单个单元格以回答一类有限的问题。例如，对于问题“法国人说什么语言”，它将表格“国家”中的列“主要语言”识别为最相关的，并列出其中的语言。作者还使用精确度和召回率评估了他们的系统的有效性。我们使用nDCG[38]而不是精确度和召回率来评估我们的系统，因为我们的系统是一个搜索引擎，而不是一个问答系统。nDCG不仅考虑精确度和召回率，还考虑结果的排序，这对于搜索引擎非常重要。DBxplorer[5]是一个用于关系数据库的关键字搜索引擎，支持连词关键字查询。它还可以连接表格，创建包含搜索查询中的所有关键字以及来自不同表格的属性的行，并且与我们的方法相反，我们使用更灵活的并列关键字搜索，融合并按相关性对来自具有不同模式的数百万个Web表格的元组进行排名。并列关键字搜索允许检索可能相关的行，即使它们不包含所有使用的搜索词。DBxplorer通过使用生成行中涉及的连接数量而不是使用查询和元组中的术语权重或更高级的技术来对行进行排名，与此形成对比，详见第6节。作者使用连接数量进行排名的原因是多个连接生成的表格更难理解（[5]，第6.2节）。这与使用关键字接近性来帮助排名有些相似，因为必须连接表格直到所有关键字都存在，但它不考虑搜索结果中的更强的相关性信号。[13]开发了一个用于数据库查询的排名系统。它不返回满足查询条件的所有元组，而是计算前k个相关的元组。为了计算相关性，它使用依赖于用户偏好的全局分数，以及考虑查询中指定和未指定术语之间相关性的条件分数。相比之下，我们的排名函数依赖于查询中的术语和Web表格中元组的相关性分数。在[16]中，创建了一个基于表格是否可以连接的相关性定义框架，以及用于检测可以联合或连接的相关表格的算法。这样做是为了使用此输入表格作为查询而不是关键字来检索与输入表格相关的表格。作者为相关性定义了两个定义：实体补充和模式补充。0前者指出，两个表T1和T2，从可能不存在的表T派生而来，必须使用对T的相同属性集进行选择，使用不同的谓词来创建。除此之外，T1和T2中选定的元组的组合必须包含T中的所有内容。最后，这些选择的任何投影必须在相同的属性集上，并且包括定义表中描述的实体的主题列。一个例子是关于汽车型号的表。如果表T1具有属性“型号”，“制造商”和“年份”，而另一个表T2具有属性“名称”，“保修”和“马力”，那么这两个表都可能是从一个包含所有这些属性的表投影出来的，其中某个属性表示“名称”或“型号”，因为它们是同义词。为了确保表相关性的这种度量是有意义的，作者还确保了虚拟表的一致性。为了做到这一点，他们确保T1和T2中的实体是相同类型的，例如“名称”和“作者”都是标识符。一个不一致的表的例子是存储关于棒球卡和剧院放映时间的信息的表。这样的表的一致性得分会很低。然而，存储关于2016年和2017年NBA冠军的信息的表将被认为是合理的。关于模式补充，两个表T1和T2必须使用具有相似结构的查询Q1和Q2创建。这些查询必须是投影的形式，此外，它们必须选择属性，使得T1和T2至少有一个不共有的属性，以及至少一个共有的属性。最后，这两组投影属性的并集必须包含虚拟表T中的属性。我们使用分类器创建相关内容的表，而不是推断表是否可以一致地连接或合并。因此，我们不使用这样的人为相关性度量。我们不关注相关表的排名，因为我们一次只对单个元组进行排名，以便从成千上万个表中形成简明的结果集。此外，由于我们专注于单个元组，我们不需要推断两个结果是否可以从类似的SQL查询中形成。他们增强用户表的目标也与我们从整个语料库中统一检索最相关元组的愿景不同。[12]在Microsoft的BingWeb搜索引擎的数据基础上构建了一个Web表服务。他们的搜索服务使用机器学习来识别实体列，该列包含表中其他属性的值描述的实体。这是针对诸如“SanAntonio的人口”和“Bexar县的人口”之类的查询，因为即使表只描述其中一个实体的人口，这两个查询可能匹配同一行。作者还使用静态特征，如行数和PageRank，来辅助对表进行排名，此外还使用基于单元格位置和列/行频率的某些关键字匹配的特征。很难确定他们的Web表排名有多有效，因为他们没有提供评估结果。我们在第7节中使用广泛使用的评估搜索结果相关性的度量nDCG对我们的排名进行了彻底评估。我们的方法使用机器学习来识别属于同一类对象的行，而不是识别实体。我们还使用关键字交集和核心属性匹配的组合进行排名，不考虑除了我们的关键字接近度计算之外的术语位置。最后，我们返回来自不同表的行的组合。0Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27,2018, Lyon, France15090而不是一次返回整个表。这个合并的搜索结果包括来自许多相关表的行，相比于只返回一些可能或可能没有与查询相关的所有行的少数完整相关表，提供了更相关的搜索结果。02.1 统一著名对象（UFO）：定义和应用0[27, 32, 33,41]开发了一个系统，提供了一种统一的、面向对象的方式来查询来自不同数据源的数据。使用UFO隐藏了数据源之间的结构差异，并提供了一个可查询的抽象，对来自不同源的元数据的差异毫不知觉。它还可以使用已经构建的UFO来识别新的、熟悉的对象[3, 7, 14, 19,20, 29-31, 34, 35, 46,48]。这与我们的系统不同，因为它是一个用于数据集成而不是搜索引擎的系统。[33]描述并评估了UFO[27]创建的算法。作者们通过精确匹配、标记化匹配和使用词性标注的NLP增强版本的标记化匹配来说明了匹配属性（例如BuyItNowPrice到Buy-It-Now-Price）和更不相似的属性（例如ConvertedCurrentPrice到CurrentPrice）的预UFO技术。作者们定义了核心属性或核心属性，这些属性必须存在才能存在UFO。有关更多详细信息，请参阅[33]。我们的系统专注于使用术语匹配来生成这些核心属性集，以计算它们的出现次数来断定数据集中的行的相关性，而不是构建用于识别相似对象的UFO。[32]应用UFO[27]来识别和融合生物医学数据，并将其用于预诊断早发性阿尔茨海默病。作者们演示了UFO如何简化将患者的DNA序列与参考序列进行比较，从而得出预诊断结果。我们的系统使用UFO的核心属性来提升搜索结果的排名。我们的搜索系统还使用非结构化的关键字查询而不是XQuery，将其转换为SQL。另一个关键区别是如何从多个表中返回一行的单个、合并的结果。03 架构0图1显示了我们系统组件的概述。以下是每个组件的简要描述。03.1 数据集0我们使用了一个大规模的Web表格数据集，其中包含约8600万个Web表格元组（约5500万个非垃圾邮件元组）[28，55]。这些实例来自于从在线论坛，社交媒体网站，产品优惠等来源提取的Web表格。它们由这些Web表格的数据项或属性组成。我们通过在元组中存储该表格的ID来将每个元组链接到它来自的Web表格。我们使用[42,53]来存储该数据集。03.2 摄入0与电子邮件或网页类似，从网络中提取的表格也存在垃圾邮件（例如空表格，HTML格式，垃圾广告等），需要在摄入之前进行清理。我们训练了自己的J48网络表格垃圾邮件分类器[43，55]，以过滤具有这些特征的表格。使用10倍交叉验证，0图1：Hybrid.AI架构0用于估计模型性能的技术[43]（在本例中，我们的分类器的性能），我们观察到72.6％的精确度和70.6％的召回率。03.3 使用SQL生成训练数据0在清洗数据之后，一旦它们被摄入到并行列存储中，我们就可以使用SQL查询检索一组相似的对象。这些查询是由用户提供的一组关键词构建的（参见图4），例如“专辑”，“标题”和“价格”，在这种情况下可能已经被选择用于生成用于识别以歌曲为导向的数据的分类器的训练数据。03.4 生成可扩展的机器学习分类器0我们使用在前一步中生成的查询生成大规模的机器学习分类器。例如，共享属性“trailer”、“length”和“director”的表簇涉及电影，在对该簇中的数据进行训练后，分类器可以识别语料库中与该电影数据相关联的更多行。请注意，通过该分类器标记为正样本的数据不一定具有与生成的训练数据相同的属性集。我们使用10折交叉验证[43]来评估生成的分类器的精确度/召回率，在九个对象类别（例如歌曲、职位发布、博客发布、房地产发布等）上观察到平均精确度为92.5%，召回率为92.1% [19, 21–26, 45, 51]。03.5 元数据分类器0为了将我们的解决方案扩展为完全自动化，我们需要识别包含属性标签的行。也就是说，我们必须识别表的描述性元数据[18]。一组0Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27,2018, Lyon, France15100处理了900,000条记录，创建了一个具有6,900个特征的向量空间。从这些行中，使用一系列规则收集了训练数据。例如，其中一个规则是，在单个HTML表中，最多只能考虑一行作为元数据。另一个规则是，单词计数较低的行更有可能是元数据。然后对这些训练数据进行手动检查和修剪，以提高准确性，结果得到6,500个负样本和540个正样本。使用这些训练数据，我们使用线性核[15]和一对一决策函数[37]生成了一个支持向量机分类器，用于识别包含元数据的行。由于训练集相对于向量空间的大小较小，选择了这个模型来帮助补偿。在执行10折交叉验证[43]来评估精确度和召回率后，我们观察到平均精确度为80%，召回率为64%。03.6 搜索0我们设计了一个使用在前一步中训练的分类器增强的关键词搜索方案，以返回最相关的搜索结果。我们的排名函数使用前一段中描述的分类器、交集、接近和UFOs [33]来对搜索结果进行排名。有关排名算法及其广泛评估的更多详细信息，请参见第6节和第7节。03.7 接口0我们使用一个交互式用户界面来执行对我们的Web表语料库的搜索查询。它还充当一个用于训练机器学习分类器、生成和执行SQL查询以获取训练数据的工具（参见图4）。04 使用场景0在图2和图3中，是我们搜索引擎的Web前端的屏幕截图，对应于我们的两个搜索场景。在第一个场景中，用户使用默认模式搜索数据，即基于交集的关键词接近增强的关键词搜索Web表元组。第二个场景通过使用从我们的大规模数据集的分类子集中收集的UFO核心属性来增强这种方法。每当用户输入一个标签，比如“:songs”，我们就会使用与该标签相关联的Web表属性来增加共享这些属性的结果的排名，而不是过滤所有与该标签不匹配的数据。有关基于属性的排名计算的更多详细信息，请参见第6节。在描述了我们的系统如何进行搜索之后，我们说明了用户如何指定关键词，例如“make”、“model”和“year”，以获取具有这些属性的训练数据（参见图4）。为了在搜索场景中使用我们改进的排名函数，我们首先需要训练这些分类器，然后使用它们来识别所有属于某个特定类别（例如歌曲）的行。04.1搜索场景0这里用户希望找到关于科学发现的文章。使用结构化数据的标准流行排名函数给出了模糊的搜索结果（图2）。这些结果的主要问题是它们包含很少有用的信息，实际上可能是一些文章的指针。0在图3中，使用我们的UFO核心属性增强查询方案，用户在查询中指定了感兴趣的对象类别，这里是文章，使系统在初始基于关键字的检索之后执行属性匹配算法。该算法奖励来自与面向文章数据共享属性的表的行（有关详细信息，请参见第6节）。0图2：我们的大规模Web表语料库的搜索结果。没有标签，我们面临的数据很可能是URL或锚文本（第1到3行），而不是这个主题下的文章标题。0图3中的结果比图2中的结果有了很大的改进。重要的是要注意，我们不仅在排名上看到了改进（结果是实际的科学文献，而不是似乎是网站元素），我们还观察到了我们的系统能够返回具有相同查询的不同属性的结果。从图3的结果中呈现的数据的内容的多样性可以看出这种属性的差异。04.2分类器训练场景0在这里，我们描述了如何自动生成一个机器学习分类器，从Web表的语料库中识别出特定类型的行。用户在图4的左下框中输入一些描述性关键字[28]，例如“制造”，“型号”，“年份”。我们使用这些关键字来获取包含它们作为属性的Web表的行。除了属性名称，用户还可以输入行长度和列长度的下限和上限。行长度是Web表元组中的字符数。列长度是行长度，但是相对于Web表的列来定义的。由于我们将所有Web表存储在一个数据库表中，属性和行的数量在表之间是变化的，所以需要这些参数。用户还可以选择与每列对应的复选框，以指示过滤器应用于哪些列。我们的界面允许用户以这种方式选择最多7列。有关分类器生成的更多详细信息，请参见[28]。关键字输入并选择过滤器后，用户点击“生成训练数据”以检索具有这些属性的训练数据。样本将显示给用户在图4的右侧框中。最后，用户可以通过切换单选按钮选择分类器类型（例如J48，朴素贝叶斯）。之后，用户点击0专题：PROFILES和数据搜索：国际网络数据分析研讨会WWW 2018，2018年4月23日至27日，法国里昂{"Songs": {"name": ["name", "nom", "nome","タイトル", "naam", "tÃtulo", "title","lyrics", "nombre", "song"],"price": ["price", "preis", "prix","prezzo", "prijs", "precio", "preço","perhour"],"time": ["time", "length", "länge","lengte", "durée", "durata","duración", "duração"],"artist": ["artist", "artista", "artiest","artiste", "interpret"],"album": ["album", "Ã¡lbum", "movie"],"download": ["download", "search"],"description": ["description","descripción"],"music": ["music", "type"],"date": ["date", "datum"],"show": ["show"],"type": ["type", "all styles"]}}Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27, 2018, Lyon, France15110图3：我们的大规模Web表语料库的搜索结果。使用标签“文章”显著改善了结果。我们可以看到前两行直接与科学发现的文章有关。第三行是一本书，揭示了一些历史上重要科学家所做的一些科学发现的真相。请注意，这些行的结构是异构的，说明获取单个行而不是整个表的优势。0点击“生成模型”按钮，触发使用这些生成的训练数据训练机器学习分类器的过程。训练集包含正标记的训练数据，如上所述创建，以及从没有正标记的语料库中选择的负标记的训练数据。我们使用50%的负行和50%的正行创建一个平衡的训练集。模型训练完成后，它会运行以对Web表行进行分类，并在图4的右侧框中向用户输出一个样本。如果用户对模型的性能满意，他/她点击“添加到模式”按钮，将模型添加到左侧框中的对象列表中。之后，用户可以在左侧框中点击它，分类的数据行将显示在右侧框中。05 统一著名对象 - 歌曲0UFO是在[27]中引入的一个抽象概念，用于协助来自不同数据源的相同对象的数据融合。图1中的JSON中存储的UFO示例说明了对于“Songs”而言，“name”属性具有从不同数据源累积的不同表示的集合，包括不同语言中的表示。关于我们对核心属性的使用，图1展示了我们在第6节中描述的算法中收集和使用的属性样本。不同语言中的属性仍然有助于收集与某个对象（这里是“songs”）相关的数据。有关UFO定义以及使用UFO进行自动构建和数据融合的更多细节，请参阅[27, 32, 33, 41]。0图1：JSON中UFO Songs的片段06 搜索结果的排名0在这里，我们正式描述了我们在下面的第7节中评估的两种排名方法。关于我们的基准方法，我们使用了一个词语交集的组合，我们发现这种方法比基于词频的方法更有效，并且还增加了关键词的接近度。因此，这种方法的有效性Rint (ρ,C,Q) =�t ∈Qti(t, ρ) × idi(C,t)(1)idi(C,t) = ln|C||C | Cit(2)15120图4：根据用户提供的几个描述性属性（例如-制造商、型号、年份），自动生成和训练一个大规模机器学习集合，以识别感兴趣的对象。用户可以输入关键词，点击“生成训练数据”按钮，使用关键词生成训练数据。然后，点击“生成模型”按钮将触发使用生成的训练数据自动训练分类器的过程。0使改进它的挑战更加困难。06.1 基准排名0我们使用了一个基于交集的关键词排名方案的派生版本作为基准进行比较。这是一种在结构化数据[5]、Web[9]和文档搜索[36]中被广泛采用的流行搜索方案之一。ti − idi ( Term Intersection - InverseDocument Intersection)：我们针对大规模结构化数据集的排名函数考虑了搜索关键词在任意数据库行中的高冗余性，这是我们观察到的这类数据集的现象。即使在问题行不是垃圾邮件的情况下，这种情况也可能发生[55]。一个例子是包含大量有关贵族的信息的行，词语“lady”可能会出现多次。在用户发出“lady gaga songs”的查询时，传统的t f − id f排名在数据库上下文中会暴露出这个问题，因为与贵族相关的不相关信息的排名要比有关LadyGaga音乐的信息高得多，仅仅是因为这个词在行中出现了很多次。因此，除了包含所有标准关键词搜索排名特征之外，我们定义了以下排名函数来解决这个问题：0其中 ρ 是我们正在排名的行，C 是我们的语料库，Q是用户的查询。t 是查询中的单个术语。ti 的定义如下：0ti ( t , ρ ) = � 如果 t ∈ ρ 则为1，否则为0注意，此函数仅检查行中是否存在该项，因此它是布尔值。因此，在公式1中，我们有效地选择了我们希望求和的idi权重。这些权重由以下度量定义：0直观地说，分子是语料库中的行数。分母是语料库中术语 t出现的行数。这是以对数形式缩放的，因此我们越接近语料库的行基数，权重越接近0。有关IDF的正当性和形式细节，请参见[49]。在这个基本排名方案中，我们使用关键词接近度[8]来降低包含关键词的行的排名。我们计算最接近的关键词术语在一行中出现的总距离（当所有单词相邻时从1开始），并将 ti - idi分数除以该值的自然对数。这是因为我们不希望过分严厉地惩罚可能相关的行的分数。如果行中只有一个关键词存在，我们通过100的自然对数来降低 ti - idi分数，因为这样的结果极不可能是相关的。我们通过实验得出这个常数，以防止只有一个匹配项的行出现，如果语料库中存在更多匹配项的行。0Track: PROFILES & Data Search: 国际网络数据概况和搜索国际研讨会 WWW 2018，2018年4月23日至27日，法国里昂In this scheme, we first extract UFO core attributes [33, 41] fromeach Web tables’ subset labeled by our trained classifier to belongto a certain class (e.g. songs), then use them to retrieve the mostrelevant search results from the entire corpus. We extract this setof core attributes with a query that fetches attribute rows thatbelong to the classified data. Each row in our corpus contains afilename, identifying the Web table it came from. We join the setof classified data rows with all metadata rows from the corpuson their filename. We then iterate through this table of attributes,counting the occurrences of all attributes and inserting the attributefrequencies into our table of core attributes. This step is done offlineper UFO to reduce overhead during query-time. See [41] for moredetail on UFO construction and core attributes. During online queryprocessing, we load the pre-computed set of core attributes into aJava HashMap. We then load a result set of the rows containing atleast one term from the query into memory, ranking them accordingto Equation 1. Finally, we increase the ranking of each tuple inthe result set by matching each of its attributes to core attributes,increasing their rank by the natural logarithm of the sum of allmatched core attribute frequencies. We perform this logarithmicscaling because of the high frequency of many of the attributes inour dataset. Doing this approximates matching an extra keyword forespecially popular attributes, thus making it easier to see how coreattributes affect the ranking of rows. An even better ranking couldbe achieved by using Unified Famous Objects (UFO) not only forcore attributes, but also for attribute matching [33]. This will enableus to go beyond simple keyword matching, matching words thatare either synonymous or closely related to one another to improvea row’s rank. See [33] for details on UFOs and object recognitionevaluation for UFOs.DCGn(S) =Where S is the set of ranked rod label is the value of the user-assigned relevance label for the row, and n is the number of resultsfrom the result set we consider from the query. To compute thenormalized DCG, we must first compute iDCG, the DCG value of asearch engine that is able to rank the results perfectly. By sortingrelevant S by label (in descending order), then computing DCG, weget iDCG. Dividing the DCG by iDCG then produces our nDCGvalue for a particular query. nDCG thusly rewards highly relevantresults when their position is more appropriate (higher). Refer to[38] for more formal details on nDCG.In Figure 5, each point is the delta between the nDCG15 value ofthe same query run using two different query processing schemes.The first is with UFO core attributes and classifiers, the second isthe baseline ranking scheme. Many queries get better as we cansee from the graph, at the same time there are queries that gotworse. For example, the largest relevance decrease we observedwas for the query “fifth element”, where several of the most relevantresults did not have proper metadata attributes in our dataset. This,combined with terms from iTunes being present in the set of filmcore attributes, caused the query to fetch more song data for thisquery instead of film data. More queries improve overall, which isreflected by an average 1.5% increase in nDCG over all 99 queries,which is considered significant in web search [4].15130使用经过训练的分类器和统一著名对象来获得更相关的搜索结果07 评估0评估使用我们的分类器+UFO排名方案在结构化数据上的有效性是很重要的。为了衡量在我们从用户那里收集到的99个不同查询上的相关性增益，我们将其与上述“基线排名”进行比较，该基线排名在第6节的“基线排名”段落中进行了描述。为了评估我们排名函数提供的相关性增益，我们请28名参加数据库课程的学生提出一些他们可能有兴趣在我们的Web表数据集上执行的查询。在积累了99个不同的查询之后，我们请两位独立的评估者为这些查询的所有（查询，搜索结果）对分配从1-差到5-完美的相关性标签。我们对每个查询取前15个结果。当评估者意见不一致时，我们会删除一个标签。根据这些标签和我们的排名方案进行排名，我们从每个查询中取前15个结果来计算它们的nDCG15，这是一个用于评估搜索相关性的工业标准度量[4]。它代表了搜索结果与特定查询的相关性。它根据用户分配的相关性标签对结果集中的行进行计算，折扣它们对总体DCG分数的贡献，其位置越低。以下方程形式化了这个直觉：0图5：我们系统在99个用户查询上的搜索相关性评估。每个点是我们的AI增强和基线排名函数之间的nDCG 15的差值。0n �0S i.0i = 00loд 2 ( i + 1 ) (3)0Track: PROFILES & Data Search: 国际网络数据分析和搜索研讨会 WWW 2018，2018年4月23日至27日，法国里昂151408 结论0我们描述了Hybrid.AI-一个将机器学习与关键词搜索相结合的学习搜索引擎。我们证明了我们的机器学习+UFO增强的关键词搜索比标准的关键词搜索排名函数返回更相关的搜索结果[1,2,11,50]。我们使用nDCG来衡量我们算法的相关性增益，nDCG是主要网络搜索引擎使用的事实上的标准相关性度量[4]，并且在大规

下载后可阅读完整内容，剩余1页未读，立即下载