没有合适的资源?快使用搜索试试~ 我知道了~
数据集内容分析生成模式标签
1https://www.data.gov/2https://data.gov.uk/3https://data.gov.sg/4http://datahub.io/5http://archive.ics.uci.edu/ml/index.php6https://project-open-data.cio.gov/policy-memo/7https://ckan.orgTrack: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27, 2018, Lyon, France15150通过数据集内容分析生成模式标签0Zhiyu Chen,Haiyan Jia,Jeff Heflin和Brian D. Davison LehighUniversity Bethlehem, PA{zhc415|haiyan.jia|jeh3|davison}@lehigh.edu0摘要0贫乏的描述和复杂的模式标签是数据匹配和数据链接等以数据为中心的任务中常见的挑战,尤其是当数据集涵盖多个领域时。为了解决这些问题,我们考虑了模式标签生成的任务。通常,模式标签由数据集提供者创建,并且对于用户理解数据集非常有用。该任务背后的动机是许多数据链接系统需要两个数据集之间的重叠信息,并依赖于模式标签的唯一标识符。此外,即使在引用相同概念时,不同数据集中的模式标签通常具有不同的标识符。由于没有模式标签的命名标准,现实世界的数据集中普遍存在难以理解的标签。例如,许多模式标签包含缩写和复合名词,这些标签妨碍了对相应数据集中属性的自动匹配。通过模式标签生成,可以提供更常见(因此更易理解)的模式标签,以便在数据集搜索和数据链接等上下文中进行更广泛的模式匹配。我们基于对数据集内容的分析开发了各种特征,以使机器学习方法能够推荐有用的标签。我们在两个真实数据集上测试了我们的方法,并证明我们的方法能够胜过替代方法。0CCS概念0• 信息系统 → 信息集成; 专业化信息检索;0关键词0数据链接;文本规范化0ACM参考格式:Zhiyu Chen,Haiyan Jia,Jeff Heflin和Brian D.Davison。2018。通过数据集内容分析生成模式标签。在WWW '18Companion:2018年Web会议伴侣,2018年4月23日至27日,法国里昂。ACM,纽约,美国,8页。https://doi.org/10.1145/3184558.319160101 引言0全球组织和个人公开发布数据集,并使用户可以自由探索这些宝贵的资源。越来越多的在线数据源,如政府0本文根据知识共享署名4.0国际(CC BY4.0)许可发布。作者保留在其个人和公司网站上传播作品的权利,并附上适当的归属。WWW '18 Companion,2018年4月23日至27日,法国里昂 © 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31916010数据门户(例如data.gov 1,data.gov.uk 2和data.gov.sg3)以及数据集中心等更通用的设施(例如datahub4,以及UCI机器学习存储库等旧网站5)满足了数据专家、研究人员和记者的多样化需求。更多的数据也意味着更多的挑战。有效地整合来自不同资源的数据集变成了一项非平凡的任务。为了帮助机构管理他们的数据,美国政府发布了一项政策6,指导(政府)数据提供者在其数据集中提供元数据。这是技术社区将异构数据汇集到一起进行多样化应用的重大机遇,也是一个可能需要先进方法来管理数据集的巨大挑战。然而,许多数据集没有采用元数据标准,因此无法利用开源数据管理系统(例如CKAN7)。另一个挑战是不同机构可能具有不同的数据格式和标准[27],导致合并异构数据集时出现困难。在所有类型的数据中,表格数据或数据表是最重要的之一。它以紧凑的方式呈现关系数据,并且在知识管理和Web数据展示等不同应用中常被使用。数据表通常有一个标题行,由模式标签(属性名称)组成,后面是存储相应属性的实际数据值的数据行。在本文中,我们专注于这种简单的数据表格格式,尽管还有具有更复杂结构的数据表,其中标题是嵌套的。表格数据在不同社区中被广泛使用,因为它清晰地显示了不同实体之间的关系,并促进了数据分析。许多工具可以轻松地对表格数据进行分析和可视化。当前的数据链接系统通常依赖于数据本身中的重叠信息,或者更常见的是依赖于相应的元数据字段,如标题、标签、描述和发布者。然而,在数据表中常常出现非字典词(NDWs),它们可能对数据链接产生重大影响。模式标签中存在非字典词也是模式匹配系统中众所周知的问题[21,24]。为了解决这个问题,我们提出了一种监督方法,推荐替代的模式标签。考虑到来自不同领域的表1和表2,尽管我们可以轻松地确定表1中的“latitude”列与表2中的“lat”表示相同的概念,但对于数据链接和模式匹配系统来说并不容易。如果我们可以推荐新的模式“lat”作为列“lat”的模式标签Carroll Gardens Greenmarket...NY1123141-74Cortelyou Greenmarket...NY1122641-74Cypress Hills Youthmarket...NY1120841-74East New York Farm Stand...NY1120741-74East New York Farmers’ Market...NY1120741-74Fort Greene Park Greenmarket...NY1120541-74..................Graham Avenue Farmers’ Market...NY1120641-74cruiseidyearsimonth_gmtday_gmttime_gmt...latlonEN3191999T.Durbin22129.3...41.4922-71.4187EN3231999J.Ledwell5141146.88...41.5234-70.6723EN3301999C.Greene1023140.4...42.5035-66.8025OC3421999B.Houghton52419.5...41.0683-67.4617...........................OC3431999D.Hebert625731.47...40.9997-67.601415160表1:来自纽约市农贸市场数据集的样本。0农贸市场名称...州 邮编 纬度 经度0表2:来自一个海洋学数据集的样本。0诸如“纬度”、“位置”之类的标签,不仅可以方便地将表2的列与其他列整合在一起,还可以帮助用户更好地理解该列的含义。我们从列内容中构建了各种特征,并使机器学习模型生成替代的模式标签。为了评估我们的方法,我们在具有不同异质性的数据集上进行了测试,并展示了这些特征对于模式标签预测任务的有效性。此外,我们还对整数列、浮点数列和字符串列进行了实验,并展示了我们的方法在这些不同列类型上提供了一致的性能。我们总结我们的贡献如下:0• 我们提出了一种领域无关的模式标签预测方法。•我们在具有不同异构程度的真实世界数据集上进行实验,并展示了我们的方法在模式标签预测任务上的有效性。我们的实验结果表明,任务的难度随着数据集的异构性增加而增加。•我们对三种基本数据类型(整数、浮点数和字符串)的列进行评估,并证明我们的方法在每种类型上都优于基准。02 相关工作0虽然在模式标签预测的具体任务上没有先前的工作,但在模式匹配和数据链接领域的工作与我们的任务相关,并在下面进行了讨论。02.1 模式匹配0在数据库领域中,模式匹配是整合异构数据源的一个关键问题,其目标是在不同的模式中找到成对的属性对应关系。这与我们的任务类似,只是他们不要求模式标签对完全相同。0根据Rahm和Bernstein[20]的分类,模式匹配器分为两种主要类型:仅模式匹配器和基于实例的匹配器。仅模式匹配器仅限于模式信息,如模式名称、描述和数据类型。例如,Sorrentino等人[25]开发了一种词汇注释技术,以帮助识别相似的模式标签。然而,词汇注释的结果受到模式标签中非字典词的影响,如缩写和复合词。因此,他们利用在线字典扩展缩写词,并用复合名词的含义丰富WordNet。他们系统的输出可以作为另一个模式匹配系统的输入,并提高模式匹配的性能。Ratinov和Gudes[21]通过手动设计缩写模式解决了缩写问题,并将其简化为一个监督模式分类问题。可以看出,模式标签的质量对于仅模式匹配器有很大影响,因此这些方法在分析模式标签中的缩写和复合名词方面付出了努力。即使对于像Artemis [4]、Cupid [14]和COMA[6]这样的知名模式匹配器,它们在某些步骤上也需要指定的外部字典来衡量模式标签的相似度。在真实世界的数据集中,缩写和复合名词无法涵盖模式标签的所有复杂模式。有时,数据表的列名没有实际含义,甚至缺失。此外,真实世界数据集的可用模式信息是有限的。我们的方法更接近于基于实例的方法,我们对数据内容进行了深入研究。由于我们训练了一个监督模型,使用一组现有的模式标签来注释其他模式标签,因此结果对非字典词不太敏感。此外,两个模式标签之间的相似性依赖于相应内容的相似性,而不是标签文本的表面形式。Automatch[2]使用机器学习技术自动化模式匹配过程。他们的模型获取存储在属性字典中的概率知识,该字典通过一组可能的值及其概率来描述不同的属性。0Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27,2018, Lyon, Francecj = arg maxl ∈L P(l|f (Cj))Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27, 2018, Lyon, France15170实际上,这种方法与我们的基准方法相似,它通过其词袋表示来描述列。正如作者所提到的,对于那些数据类型为连续变量的列,可能存在无尽的可能值。因此,我们将每个列值的每个字符都视为一个特征,而不是将每个列值视为一个特征。我们还从列内容中探索其他更高级别的特征,并更好地描述不同的模式标签。02.2 数据链接0在最近几十年中,大量数据集已经在不同的数据存储库中发布,手动链接不同的数据集变得不可行。在这种情况下,数据链接已经成为一个重要的任务,旨在自动链接数据集并促进其重用。Nikolov等人[17,18]提出了一种基于关键字的方法,分为两个主要步骤。在第一步中,他们使用数据集中的一部分标签作为关键字,在外部数据源中搜索潜在相关的实体。在第二步中,他们通过测量本体匹配技术中使用的语义相似性来过滤掉不相关的数据集。Leme等人[11]提出了一种用于链接数据集的概率方法。对于一组已知的数据集,他们首先从元数据中构建一个有向图来描述它们的连接。然后,给定一个新的数据集,他们使用一个排名评分函数对这些数据集进行排名。Lopes等人[13]提出了一种类似的基于图的方法,将数据集链接视为社交网络中的链接预测问题。Ellefi等人[1]提出了一种数据链接的推荐方法。他们采用数据集概要的概念,其中数据集被其文本描述和一组模式标签所表征。因此,给定一个源数据集,可以根据其与源数据集的语义相似性检索一组可比较的数据集,并且可以通过tf-idf余弦相似性对每个数据集进行排名。在[8]中提出了一种类似的方法,在主题建模过程中生成了一个主题-数据集二分图;因此,一个数据集可以被表示为一组主题,一个主题可以被建模为一组重要的数据集。因此,可以基于主题-概要图中的连接性来链接候选数据集。在[5]中,作者提出了一种基于用户反馈的方法,逐步识别领域特定链接数据应用程序的新数据集。他们首先根据应用程序查询过滤数据集,然后使用用户反馈分析候选数据集的相关性。正如Nikolov等人[17]所指出的,找到数据集之间的重叠程度对于数据链接至关重要。模式标签预测可以是增加异构数据集连接性的潜在解决方案,通过推荐一个具有已在其他数据集中出现的模式标签的数据集。02.3 语义表解释0作为网页上的嵌入数据,Web表在知识库构建[22, 23,32]和问题回答[12,19]等应用中起着重要作用。因此,恢复Web表的语义变得至关重要。语义表解释[33]中有三个主要任务:1)用语义概念注释表中的列;2)识别列之间的语义关系;3)单元格消歧。0通过将它们与知识库中的实体进行链接来解释Web表。在这三个任务中,第一个任务与我们的工作最接近。TableMiner[33]使用来自表内外上下文的特征来帮助注释包含实体提及的列。Venetis等人[29]利用数据库来为列附加一个类标签,如果列中的足够数量的值与数据库中的相应标签标识的值相匹配。Wang等人[30]使用Probase来注释与表相关的概念。同样,许多作品[15, 16,26]也利用知识库来解释Web表。与Web表不同,现实世界的数据集通常没有足够的上下文,例如周围的段落或插入在网页中的语义标记。此外,可以链接到知识库的实体很少,因为数据集中包含的概念通常太狭窄(例如地图上的街道名称)或太宽泛。本文提出的方法仅使用从数据集中提取的通用特征,因此只为列注释来自数据集而不是其他资源的概念。03 问题陈述0本文重点研究基于对列内容的分析来寻找替代模式标签(列名)。我们考虑具有n列和m+1行的数据表,格式如下:0��������为方便起见,我们在本文的其余部分使用以下命名约定:•模式标签(或列名):c j ,其中 j ∈ [1, ..., n]。•模式内容(或列内容):C j = {v 1, j, ..., v m, j},j ∈ [1, ..., n]•列:(c j, C j),j ∈ [1, ..., n]。给定 C j 和 k 个目标标签 L = {l 1, l 2,..., l k},我们的目标是学习一个模型 P (l | f (C j)),(l ∈ L),其中 f是从 C j提取特征的函数。特征将在下一节中介绍。完美的预测应满足:04 模式标签预测特征0我们预测模式标签的方法是利用从列内容中提取的特征。过去的研究表明,有用的特征对于表格理解很重要[10,31]。我们假设模式标签和从列内容中观察到的证据高度相关。一个明显的例子是与不同数据类型对应的列内容显著不同。尽管对于大多数公共数据集,列数据类型并没有直接提供,但机器学习模型能够自动识别这些特征[28]。我们的任务比仅仅推断数据类型更具挑战性,因为数据类型的数量是有限且恒定的,而可能的模式标签的数量是不确定但很大的。它还15180我们的模型应该能够捕捉到具有相同数据类型的列之间的差异。如表1所示,邮政编码列通常由五位数字组成,而纬度列通常由范围在-90到90之间的实数组成。如果数据表中有一列没有标题,并且我们知道该列中的所有值都是五位数,那么标题更可能是“邮政编码”而不是“纬度”。因此,对于可能的数值列,最大值和最小值是表征它们的重要特征。然而,并不是所有的列都是数值列。对于非数值列,我们使用其他列的平均最大值和平均最小值来适当地减小这些特征的影响。我们定义“内容唯一比例”和“内容直方图”来描述单元格值的分布。内容比例[7]通常用作分类表格类别的特征,其中计算包含特定类型内容的单元格比例。类似地,我们使用内容唯一比例来分类列,其中计算唯一单元格数与所有单元格数的比例。在表1中,如果表格有102行,并且该模式标签下的所有单元格值都是“NY”,则“州”列的内容唯一比例为1/102≈0.01。相反,如果该模式标签下的所有单元格值都不同,则“农贸市场名称”列的内容唯一比例为102/102=1。内容直方图比内容唯一比例包含更准确的内容分布信息。为了获得内容直方图,我们按频率(低频率优先)对唯一单元格值进行排序,并生成一个向量,其中第i个维度是第i个排名的单元格值的频率。对于不同的列内容,我们可以获得不同长度的向量。对于我们实验中使用的两个数据集Data.Gov和WikiTables,中位数分别为26和13。因此,我们通过使用FFT变换将向量重采样为20维向量来生成内容直方图8。我们分别在图1a和图1b中展示了表1的“农贸市场名称”和“邮政编码”的内容直方图。估计的“农贸市场名称”的频率的平坦形状表明内容分布比“邮政编码”更接近均匀分布。如果将每个列内容视为一个文档,则模式标签预测可以看作是一个文档分类任务,其中类别是可能的模式标签。因此,合理地将词袋(BoWs)表示法作为特征加入其中。对于列c,我们将词袋特征构造为0B c = { f req ( u 1 ) , ..., f req ( u i ) , ..., f req ( u n0其中 n 是词汇表大小,u i 是词汇表中的第i个词,f req 表示计算 c中 u i频率的函数。为了节省内存,我们只使用字符级单字作为BoWs的特征(例如,“EN319”被分解为“E”,“N”,“3”,“1”和“9”)。在我们的实验中,我们使用BoWs特征构建基线方法。不同之处在于,我们使用从列内容中提取的标记的TF-IDF表示,而不是考虑字符级单字。08 我们使用来自https://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.signal.resample.html的方法0(a)表1中“农民市场名称”的20维内容直方图0(b)表1中“邮政编码”的20维内容直方图0图1:内容直方图示例0在一项关于表头检测的研究中[9],Fang等人表明单行特征可以区分表头行和数据行。受到他们的工作的启发,我们提取了以下单列特征,而不是每行的特征:字符数、数字字符的百分比、字母字符的百分比、符号字符的百分比、数字单元格的百分比、平均单元格长度、最大单元格长度和最小单元格长度。这些特征可以被视为BoWs特征的扩展,它们总结了BoWs的统计信息。我们在表3中总结了所有特征。0表3:模式标签预测的特征列表0ID 特征长度 描述01 1 列内容中的最大值02 1 列内容中的最小值03 1 内容唯一比例04 20 内容直方图05 独特单字的数量 9 BoWs(字符级单字)06 1 字符数07 1 数字字符的百分比08 1 字母字符的百分比09 1 符号字符的百分比010 1 数字单元格的百分比011 1 平均单元格长度012 1 最大单元格长度013 1 最小单元格长度05 实验评估0在本节中,我们首先讨论我们实验中使用的数据集。然后我们从两个角度评估我们的方法。在精确模式标签预测和归一化模式标签预测中,我们评估模型的性能,并展示上述特征的有用性。05.1 数据集0对于我们的第一个数据集,我们从Data.gov收集了所有可用的逗号分隔值(CSV)文件(格式良好的文件共7485个)09 Data.gov的数据集为741个,WikiTables的数据集为54982个0Track: PROFILES & Data Search: 国际网络数据分析与搜索研讨会 WWW 2018,2018年4月23日至27日,法国里昂15190Data.gov是由50多个美国政府机构贡献的。该数据集涵盖了农业、气候、经济和健康等各种主题。Web表格也是表格,并在Web数据搜索和知识库构建等应用中起着重要作用。因此,我们还在WikiTables[3]上进行了实验,该数据集包含从维基百科中提取的160万个表格。0图2:列标签的排序频率0我们观察到原始模式标签表现出类似自然语言中的术语的特性,即模式标签的排序频率产生了一个近似于著名的Zipf定律的曲线,并反映了模式标签的异质性。05.2 精确模式标签预测0我们首先在精确模式标签预测任务上评估我们的方法。考虑到许多模式标签为空的表格数据集集合,我们的目标是通过相应的列内容预测缺失的模式标签。具体而言,我们考虑两个问题:1)从数据集内容中提取的特征对于模式标签预测有多大用处?2)数据集集合的异质性是否使任务更加困难?为了回答第一个问题,我们使用第4节提出的特征构建机器学习模型,并在不同的指标下评估预测结果。我们将模式标签预测视为多类分类任务,其中训练集中的每个模式标签表示一个类别。我们计算测试集上预测的宏平均和微平均精确度、召回率和F-分数。宏平均是所有类别得分的平均值,因此对每个类别给予相等的权重。微平均在全局计算总的真正例、假负例和假正例的情况下,给予每个预测决策相等的权重。较大的类别对微平均有更大的贡献。在多类分类场景中,微平均精确度、召回率和F-分数是相同的,因此我们只展示了我们结果中的微F-分数。我们还报告了前n个准确率,即模型认为最有可能的前n个标签中正确标签所占的比例。通过比较以下数据集的结果,可以隐含地回答第二个问题:0• Gov_Rand:从Data.gov中随机选择300个数据集。•Gov_NY:从Data.gov中随机选择300个数据集,由NYC OpenData发布。010 https://opendata.cityofnewyork.us/0•Wiki_Rand:我们在Wik-iTables的554218个表上进行实验,这些表至少有4列和6行。由于很多表格的格式出乎意料,我们进一步过滤那些模式标签出现次数不超过100次的列。每个数据集以及训练和测试分区的大小在表4中找到。不同的数据所有者通常在不同的领域发布数据集,具有不同的词汇表,因此具有不同的模式标签创建模式。因此,通过比较Gov_Rand和Gov_NY上的结果,也可以显示出由异质性引起的困难。由于NYC OpenData只发布了327个数据集,我们随机选择了300个数据集用于Gov_Rand和Gov_NY,以便模型的结果更具可比性。0表4:提取列的统计数据0数据集 #训练集 #测试集 #类别0Gov_Rand 3833 1644 40480Gov_Rand(频率>1)1415 607 5930Gov_NY 2799 1200 24940Gov_NY(频率>1)1391 597 4830Wiki_Rand 806755 1882425 22340图3:精确模式标签预测的前n个准确率0为了进行实验,我们使用第4节介绍的精选特征训练随机森林分类器。除了使用scikit-learn实现11的默认参数外,还使用了决策树的数量011 http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html0Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27,2018, Lyon, FranceGov_NY0.450.180.210.19Wiki_Rand0.340.340.160.19Gov_Rand (freq >1)0.350.230.270.23Gov_Rand0.110.050.060.05Gov_NY (freq >1)0.280.120.140.12Gov_NY0.130.030.040.03Wiki_Rand0.430.300.220.24Gov_Rand (freq >1)0.860.840.830.82Gov_Rand0.370.240.250.24Gov_NY (freq >1)0.940.820.850.83Gov_NY0.490.310.320.3012http://www.nltk.org/_modules/nltk/tokenize/toktok.html13http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.htmlTrack: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27, 2018, Lyon, France15200表5:精确模式标签预测的微平均和宏平均分数0特征 数据集 微F 宏P 宏R 宏F0精选0Wiki_Rand 0.42 0.30 0.21 0.230Gov_Rand(频率>1)0.85 0.79 0.83 0.800Gov_Rand 0.30 0.13 0.15 0.140Gov_NY(频率>1)0.86 0.79 0.83 0.800BoWs0组合(精心设计+BoWs)0在森林中设置的树木为25(以减少内存需求)。作为基准,我们使用相同的分类器设置,训练使用从列内容中提取的TF-IDF特征,其中每个单元格都被分词。12值得注意的是,数据集中出现了大量的数值,导致词汇量非常庞大。因此,降维有助于提高分类效率。我们使用截断SVD13(也称为LSA)来降低TF-IDF表示和BoWs特征的维度,降至300。为了进一步改善结果,我们还将精心设计的特征与基准BoWs特征进行拼接。对于Gov_Rand和Gov_NY,我们将它们分别分为70%的训练集和30%的测试集。由于Gov_Rand和Gov_NY中的类别数非常多,但数据集的大小相对较小,结果可能会受到不频繁的模式标签的显著影响,特别是那些只出现一次的标签。因此,我们还在Gov_Rand和Gov_NY上进行了实验,过滤那些只出现一次的模式标签的列,我们将它们分别称为Gov_Rand(freq >1)和Gov_NY(freq>1)。尽管对于精确匹配任务,预测结果必定是错误的,但我们仍然报告了没有过滤过程的结果,并在下一节考虑了“错误”预测的评估。实验结果报告在表5中。我们观察到,我们的精心设计的特征方法在所有数据集上都取得了比基准更好的结果。对于两种方法,Gov_NY上的得分高于Gov_Rand上的得分,这表明数据创建者引起的异质性确实增加了任务的难度。在过滤掉那些只出现一次的模式标签后,两种方法的得分显著提高,因为测试集中一个类别不在训练集中出现的情况减少了。然而,我们的方法的改进程度比基准方法更大,并且在宏平均和微平均的F-score上都达到了大于0.8的水平。这表明我们的方法在流行的模式标签上具有良好的性能。当0应用于WikiTables,我们注意到我们的方法和基准方法之间的性能差距更小。可能是因为对于WikiTables来说,模式标签预测更像是一个文本分类问题。与data.Gov上的数据集相比,WikiTables具有更小的表格数据,因为具有数千行的表格几乎无法在网页上显示。data.gov上的许多数据集都是统计数据,很可能单个列的内容被数字占据。作为从百科全书中提取的内容,WikiTables对实体有更多的文本描述,因此一列的内容更接近于一个文档。图3显示了前n个准确率结果。当n大于3时,来自data.gov的数据集的性能没有改善。正如我们之前讨论的,测试集中的许多标签在训练集中没有出现,这为准确匹配模式标签设置了一个上限。例如,有594个列的标签仅出现在Gov_NY的测试集中,因此准确率永远不会超过(1200-594)/1200=50.5%。而对于Wiki_Rand,当n增加时,两种方法的准确率都会增加。我们计算了在Gov_NY上训练的模型的精心设计特征的基尼重要性。对于BoWs特征和内容直方图,我们只需将所有维度的重要性得分相加即可。结果表明,BoWs特征和内容直方图做出了最大的贡献。如果我们将每个维度视为一个单独的特征,那么最重要的三个特征是字符总数、内容唯一比例和内容直方图的第一个维度。从上述观察结果可以看出,我们的方法在所有情况下都优于基准方法。此外,将我们的方法与基准特征相结合可以进一步提高性能,正如预期的那样。由于我们的方法只使用字符级别的unigram特征,添加单词级别的TF-IDF特征可以缓解这个弱点。通过过滤不频繁的标签,预测结果可以显著提高,这意味着我们的方法可以高效地预测模式标签,特别是那些流行的标签。我们还确认任务的难度随着数据集的异质性而增加。curatedWiki_Rand0.620.330.290.30BoWsGov_Rand0.250.160.170.15Wiki_Rand0.550.290.200.2314https://pandas.pydata.org/Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27, 2018, Lyon, France152105.3 归一化模式标签预测0精确模式标签预测是一种非常严格的评估方法,因为真正的正例要求预测的模式标签与被测试列内容的原始标签完全匹配。然而,有成千上万个类别,分布不均衡,如图2所示。训练集中的一个类别可能不会出现在测试集中。然而,如果“错误”预测指的是同一概念,它可能是有用的。例如,考虑目标标签“国籍”:模型的语义正确预测可能是“国家”。因此,我们不应该将“国家”视为错误预测,因为它们指的是同一概念。表6中显示了更多示例。0表6:“错误”预测的示例0原始标签 预测0Year 季节0Opponent 对手0Pos 位置0Score in the final 比分0为了缓解情况,我们首先对模式标签进行大小写转换,然后按照它们在Gov_Rand和Wiki_Rand中的频率对它们进行排序。从前2000个模式标签中,我们通过另一个在该集合中是原始标签的同义词且更易读的标签来归一化一个标签。此外,删除了89个标记为不可解释的标签。与第5.2节类似,我们基于不同的特征和数据集训练单独的模型。在Gov_Rand和Wiki_Rand上报告了归一化模式标签预测的结果,如图4和表7所示。正如预期的那样,不同指标下的得分显著增加。此外,我们注意到在Gov_Rand上,当n大于3时,前n个准确率仍然增长,这与精确模式标签预测不同。这进一步表明我们的模型可以捕捉模式标签与其内容之间的关系。0图4:归一化模式标签预测的前n个准确率0表7:归一化模式标签预测的微平均和宏平均分数0特征 数据集 微F 宏P 宏R 宏F05.4 对不同数据类型的评估0在本节中,我们评估了不同数据类型的模式标签预测方法。我们使用pandas14自动推断列的数据类型,并仅保留那些IO工具能够成功识别的列。分别随机选择了1000个整数类型、浮点类型和字符串类型的列。对于每种类型的列,我们在70%的数据上训练模型,并在剩余的数据上进行评估。我们的方法和基线的实验结果报告在表8中。正如预期的那样,我们的方法在这三种类型的列上表现优于基线。有趣的是,两种方法在浮点列上表现最好,而在字符串列上表现最差。这可能有两个原因。首先,字符串列比浮点列和整数列具有更多的唯一标签,这意味着预测字符串列的模式标签本质上是一项更困难的任务。其次,一些特征是基于列内容中的数值,而对于字符串列,这些特征被视为缺失值,并从其他列的平均值计算得出。这样的特征对于字符串列可能是无用的,并且会损害模型的性能。这个事实表明,为不同的数据类型设计不同的特征可以进一步提高模式标签预测的性能。0表8:不同数据类型的微平均和宏平均分数0特征 数据类型 微F 宏P 宏R 宏F0策划0整型 0.31 0.11 0.12 0.110浮点型 0.37 0.10 0.11 0.100字符串 0.23 0.11 0.12 0.100词袋模型0整型 0.25 0.10 0.11 0.100浮点型 0.32 0.07 0.09 0.070字符串 0.20 0.08 0.09 0.0806 结论和未来工作0我们考虑了基于列内容的模式标签预测问题。我们将其视为一个多类分类任务,其中每个类代表一个模式标签。我们开发了各种特征来解决这个问题。我们的方法在两个真实数据集上进行了评估:从data.gov收集的表格数据和从维基百科提取的WikiTables。我们首先在精确模式标签预测上评估了该方法,这要求预测的标签与原始模式标签完全匹配。在这个任务中,我们的方法明显优于基准方法15220所有数据集。我们发现数据集的异质性可能使任务更加困难。由于模式标签的分布非常不平衡,许多在测试中使用的标签在训练集中并不存在,这使得表现良好变得困难。因此,我们还对排名靠前的标准化模式标签进行了实验。我们选择了两个数据集中最常见的2000个模式标签,并合并了同义词标签。如预期的那样,与精确模式标签预测结果相比,不同指标下的得分显著增加。此外,我们证明了我们的方法在不同数据类型的列上优于基准方法。我们注意到,两种方法在浮点列上表现最好,而在字符串列上表现最差,因为一些提出的特征对于字符串列可能是无用的。这提醒我们,在模式标签预测中使用不同的特征对于不同的数据类型是必要的。我们将把不同数据类型的列的数据类型推断和模式标签预测作为未来的工作。我们当前方法的一个限制是,我们仅考虑来自单个列的特征,而不考虑它与数据表中共同出现的其他列的关系。直观地说,如果两个列相似,那么我们的方法可能会给它们相同的模式标签。然而,在同一数据表中出现两个相同的列是不太可能的。通过考虑其他模式标签的出现,可以消除这种情况的歧义。我们方法的一个应用是促进数据集检索。数据集检索的一个现有挑战是用户查询很少包含在模式标签中广泛使用的术语,这导致相关数据集的召回率较低。在我们的实验中,我们发现我们的方法通常会给出与原始模式标签同义词或具有相同上位词的预测。通常,NDWs模式标签的组成是不规则和复杂的,但它们的同义词或下位词可以被用户搜索到。例如,对于一个模式标签为“Pos”的列,我们的方法可以将模式标签预测为“Position”。然而,“Position”是用户更喜欢的术语,也更有价值被索引。我们期望使用预测的标签作为可能的术语扩展(无论是用于查询还是在索引时间),数据集检索系统可以提高召回率。0致谢0该材料基于Lehigh大学内部合作研究机会资助的工作。0参考文献0[1] Mohamed Ben Ellefi, Zohra Bellahsene, Stefan Dietze和Konstantin Todorov.2016. 数据链接的数据集推荐:一种内涵方法. 在语义网. 最新进展和新领域. Springer,36–51. [2] Jacob Berlin和Amihai Motro. 2002.使用特征选择的机器学习进行数据库模式匹配. 在高级信息系统工程. Springer, 452–466.[3] Chandra Sekhar Bhagavatula, Thanapon Noraset和Doug Downey. 2015.TabEL:Web表格中的实体链接. 在语义网 - ISWC 2015. Springer, 425–441. [4] SilvanaCastano和Valeria De Antonellis. 2001. 全局查看异构数据源. IEEE Trans. on Knowledgeand Data Eng. 13, 2 (2001), 277–297. [5] Hélio Rodrigues de Oliveira,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功