没有合适的资源?快使用搜索试试~ 我知道了~
基于规则的电子表格数据提取和转换软件平台
软件X 10(2019)100270原始软件出版物TabbyXL:基于规则的电子表格数据提取和转换软件平台A. Shigarov,V.Khristyuk,A.米哈伊洛夫俄罗斯科学院西伯利亚分院马特洛索夫系统动力学与控制理论研究所,134 Lermontov 圣伊尔库茨克,俄罗斯ar t i cl e i nf o文章历史记录:接收日期:2018年12月21日接收日期:2019年5月6日接受日期:2019年保留字:表格理解信息提取非结构化数据管理基于规则的编程电子表格数据软件开发a b st ra ct薄页纸广泛用于科学、工程、商业和其他活动。总的来说,它们以一种旨在由人类解释的形式隐藏了大量数据。我们提出了一个新的软件平台,方便解放这些数据。它提供了基于规则的电子表格数据提取和转换为结构化表单。它的核心包括一个灵活的表对象模型和一个用于表分析的领域特定的规则语言它们用于表示表布局和内容特性的知识这使得可以处理来自不同域的任意表。我们的实证结果表明,一个规则可以适用于处理任意表具有相同的功能,布局,风格,或内容。本文还介绍了两个应用程序使用的软件平台开发程序,基于规则的转换数据从任意的电子表格。©2019作者由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本1.0.4此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2018_261Code Ocean computecapsulehttps://doi.org/10.24433/CO.8210587.v1法律代码许可证Apache许可证2.0使用Git的代码版本控制系统使用Java的软件代码语言、工具和服务编译要求,操作环境依赖性Java Development Kit 8或更高版本,Apache Maven如果可用开发人员文档/手册链接https://github.com/tabbydoc/tabbyxl/wiki问题支持电子邮件shigarov@icc.ru软件元数据当前软件版本1.0.4此版本可执行文件的永久链接https://github.com/tabbydoc/tabbyxl/releases/tag/v1.0.4法律软件许可证Apache许可证2.0计算平台/操作系统Linux,OS X,Microsoft Windows安装要求依赖关系Java SE Runtime Environment 8或更高版本如果可用,请提供用户手册的链接(https://github.com/tabbydoc/tabbyxl/wiki问题支持电子邮件shigarov@icc.ru*通讯作者。电子邮件地址:shigarov@gmail.com(A.Shigarov)。https://doi.org/10.1016/j.softx.2019.1002701. 介绍许多电子表格表格被设计为由人类解释。它们缺乏元数据(显式语义),2352-7110/©2019作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx2A. 希加罗夫河谷Khristyuk和A.Mikhailov/SoftwareX 10(2019)100270计算机程序,以按照其作者的意图或应用程序的要求来解释它们电子表格工具提供了多种用于显示表格的布局结构和格式样式。它们以人为本导致任意表通常具有不正确的结构(例如,一个逻辑单元可以不正确地划分为几个物理单元)和电子表格数据可以成为数据科学和商业智能应用程序中的宝贵来源。然而,从任意表格中提取数据不可避免地会出现困难,这往往阻碍了它们在这些领域的密集使用通常情况下,面临这些任务的专家求助于通用工具。与后者相比,ad hoc软件平台或框架可以缩短软件开发时间,隐藏无关紧要的细节,并专注于正在考虑的问题。TabbyXL是一个新的软件平台,旨在开发一个基于TabbyXL的软件系统。基于规则的电子表格数据提取和转换程序的执行(图1)。 1,b)关系表(图。1,c)。该平台实现了我们基于规则的表理解方法(即恢复任意表的元数据)[1,2]。它利用一个灵活的表对象模型来表示布局和内容特性的知识,以及用户定义的规则来分析和解释表,这取决于转换目标。2. 背景当代的数据集成解决方案(例如Talend、2OpenRefine3)为以类似电子表格的格式呈现的平面文件数据库提供了一些转换操作(例如“ 它们只期望关系表作为输入。同时,我们考虑跨-人类为人类设计的任意表格的形成电子表格数据提取和转换包括恢复描述任意表的结构和内容的缺失元数据通常,电子表格不提供解释表结构和内容所需的对于放在任意表中的数据项,没有功能角色、关系和外部描述概念这样的Meta数据应恢复转换数据从任意的关系表。我们将所考虑的问题称为表分析(恢复功能角色和内部关系)和解释(恢复外部关系)。最近的论文致力于表格分析和解释的相关问题,例如。布局特性[3-20]和基于规则的架构[2,21,22]。有一些作品[23,24]的目标与我们相似。他们提出了将具有预定义布局特征的电子表格转换为基于几何学[23]和机器学习[24]的规范形式的方法。与之相比,我们提出了支持自定义表格布局功能的软件平台。只有少数相关项目展示了他们开发的软件。我们在这里只提到那些至少部分发布了他们的软件的人。SSaaPP4项目实现了两个框架,用于将数据从电子表格映射到关系数据库,HaExcel[25]和MDSheet[15],作为OpenOffice的扩展。5DeExcelerator6项目旨在开发-表[26]。它只是部分作为XCellAnnotator发布,7用于交互地注释单元格区域的桌面应用程序在Excel文件中。关于开发电子表格数据库管理系统的Senbazuru8项目[27]出版了Frame 100,9一种用于检测电子表格中功能单元区域的软件,该电子表格具有称为“数据框架”的布局通常,相关的软件解决方案依赖于预定义的表结构。它们只支持具有典型功能单元区域的几种广泛与之相反,我们使用了一个独立于域的表模型,它不受预定义的功能单元格区域的限制。它的目的是指定布局功能的任意表在用户定义的规则。与其他模型不同,我们的模型将功能角色与数据项相关联,而不是单元格。这使得能够支持一个单元格包含两个或更多数据项的布局(例如,在某些双语或统计表中)。源自同一单元格的这些数据项可以单独提取,并与不同的外部概念相关联。我们的方法的另一个显着特点在于使用用户定义的规则,用于将单元格的物理结构(布局,格式样式和文本)映射到逻辑结构(链接的功能数据项,如条目,标签和类别)。它们可以由规则引擎执行,也可以被翻译成通用语言的可执行程序。我们的软件平台实现了这两种情况。3. 软件概述TabbyXL是作为具有命令行用户界面的Java应用程序开发的作为输入,它需要一个Excel(*.xlsx)格式的电子表格文件,其中包含一个或多个任意表和一个基于规则的程序,该程序具有一些用于清理、分析和解释此类表格数据的用户定义规则我们的软件平台使用这些规则将数据从任意表转换为关系表.作为输出,为每个源表生成包含关系形式最终用户可以利用该软件平台开发基于规则的程序,用于从任意电子表格中提取和转换数据TabbyXL提供了两种实现和运行用户定义规则的方法。其中之一是用通用的基于规则的语言(例如Drools,10Jess11)编写规则,并通过与JSR-94(Java规则引擎API)兼容的适当规则引擎执行它们。12另一种是用我们的领域特定语言CRL [2有关制定规则的详细用户手册可作为TabbyXL的一部分提供文献. 133.1. 软件构架图2所示的架构确定了以下主要组件的交互。表对象模型(TOM)是为表示物理单元格和逻辑数据项而设计的(图1)。①的人。该模型包括电子表格信息抽取框架的改进7https://github.com/elviskoci/XCellAnnotator。1 https://github.com/tabbydoc/tabbyxl/releases/tag/v1.0.4网站。2 https://sourceforge.net/projects/talend-studio网站。3 http://openrefine.org网站。4 http://ssaapp.di.uminho.pt网站。5 https://www.openoffice.org网站。6 https://wwwdb.inf.tu-dresden.de/misc/DeExcelarator网站。8 http://dbgroup.eecs.umich.edu/project/sheets网站。9 https://github.com/chenzheruc/spreadsheet_framefinder网站。10 https://www.drools.org网站。11 https://www.jessrules.com网站。12 https://www.jcp.org/ja/jsr网站。13 https://github.com/tabbydoc/tabbyxl/wiki/crl-rules网站。A. 希加罗夫河谷Khristyuk和A.Mikhailov/SoftwareX 10(2019)1002703Fig. 1. 表对象模型的概念-a;任意表的实例(源)-b和规范化版本(目标)-c(标记E1指示一个条目,标签L1,. . . ,L5指出其相关标签)。图二. 软件平台的架构。两个相互关联的层:由单元集合表示的物理(语法)层和由条目(值)、标签(键)和类别(概念)的三个集合组成的逻辑(语义)层。它们可以通过应用程序编程接口TOM-Access API访问。数据表到TOM转换器将任意表的单元放入TOM实例的物理层。表分析和解释(TAI)核心通过执行以下两个选项之一来从TOM实例的物理层恢复TOM实例的逻辑层。规则引擎选项使用JSR-94兼容的规则引擎以适当的格式执行规则。规则引擎将断言的事实(TOM实例的可用数据)与规则匹配以创建新的事实(TOM实例的恢复数据)并将它们断言到工作分类中。CRL2J选项提供了CRL,这是我们为表达表分析和解释规则而设计的特定于域的语言。它使用CRL到Java的翻译器,自动生成Java源代码从CRL规则,并将其编译为Java字节码。生成的Java程序恢复TOM实例的丢失数据。TableCanonicalizer从TOM逻辑层的恢复数据中生成已处理表的规范化版本。3.2. 软件功能该软件平台使得能够开发用于电子表格数据提取和转换的程序,支持以下功能(动作),用于对表示为TOM的实例的任意表进行清理、分析和解释。单元格清理操作旨在纠正手工编码的表格的不准确布局和内容:合并合并共享一个边框的两个相邻单元格;拆分将跨越n个平铺(行列交叉点)的合并单元格划分为n个单元格;设置文本修改单元格的文本内容;设置缩进修改单元格的文本缩进。 角色分析动作旨在将条目和标签恢复为表中呈现的功能数据项:setmark用用户定义的标签注释单元格,该标签可用于后续的表分析; new entry(newlabel)使用可选的字符串处理从单元格内容创建条目(label)。 结构分析操作支持恢复两种类型的对:entry-label和label-label:add label将条目与标签关联; set parent将两个标签绑定为父标签和其子标签。解释动作用于恢复标签-类别对:set category 将标签与类别关联; group 将两个标签放置到一个可以被视为未定义类别的组。这些动作的目的是将语法层的表数据映射到语义层,汤姆的秘密之一。它们由一些规则集或程序驱动,这些规则集或程序使用TAI-Core的一个实现选项执行。我们之前的论文[2]详细解释了所列出的动作4. 执行TabbyXL实现了如下所示的架构TOM是表对象模型,是一组与JavaBean规范的命名约定相对应的Java类。它们的公共接口定义了TOM访问API。TOM实例的数据项(单元格、条目、标签和类别)是这些类的对象.这个实现使我们能够将这些对象断言为事实4A. 希加罗夫河谷Khristyuk和A.Mikhailov/SoftwareX 10(2019)100270任何与JSR-94规范兼容的规则引擎的工作内存中。CRL2J选项被实现为CRL到Java的转换器,包括以下组件:(i)由ANTLR开发工具生成的CRL解析器,(ii)表示CRL规则对象模型的Java类,以及(iii)编译生成的Java程序以进行电子表格数据提取和转换的实用程序。默认情况下,规则引擎选项支持Drools作为规则引擎。这需要使用DRL(Drools原生的通用规则语言)或方言表示的规则CRL是一种与Drools需求相对应的领域特定语言(DSL)。在最后一种情况下,以DSLR格式表示的CRL规则通过定义CRL到DRL映射的DSL规范自动转换为DRL格式。与纯CRL不同,这种方言支持DRL属性在规则声明中。该选项允许涉及配置文件中指定的任何JSR-94规则引擎。我们的测试证实,Jess规则引擎也可以用于执行CLP格式表示的规则。5. 实证结果这个实验证明了使用我们的软件平台开发和执行的规则,从任意表中提取数据,这些表是由不同的作者,但属于相同的文档类型。性能评价基于Troy200[29]数据集。它包含200个任意表格作为CSV文件,这些表格是从同一类型的10个不同来源(政府统计网站)收集的。我们添加了附带的地面实况数据来自动化性能评估[30]。我们设计了一个经过测试的规则,将Troy200任意表转换为关系形式。它以三种格式实现:CRL,DSLR(Drools的CRL方言DSL)和CLP(Jess)。规则库服务用于恢复功能数据项(条目和标签)及其关系(它的所有实现都由TabbyXL运行,以自动将测试表转换为关系形式。回收的所有三种情况下的关系表都是相同的通过将地面实况数据与规则运行结果进行比较,自动进行性能评估将校正后的函数数据项及其关系与恢复后的数据项进行比较。我们调整了标准指标,召回率和精确率,如下所示:回忆=|R∩S|/|S|精度=|R∩S|/|R|(一)其中,R是目标表中的一组实例(条目、标签、表1显示了每种自动恢复实例的这些指标的值。在测试的200张表中,只有25张表处理错误(25张表中有1256个假阴性,14张表中有498个假阳性)。只有一个表未处理。这导致了大约72%的错误。重现此性能评估的所有数据和步骤均作为已发布的数据集[30]和 TabbyXL 文 档 的 一 部 分 提 供 。 14 我 们 还 准 备 了 一 个Dockerfile15,构建Docker镜像,其中包含所需的软件和数据,以重现所呈现的经验结果。我们将我们测试的规则与MIPS[23]进行了比较,MIPS是一种将表格分割成典型功能单元格区域的最先进方法。我们获得的表格分割的准确度为0.9950,而作者报告的准确度为0.9899MIPS。14 https://github.com/tabbydoc/tabbyxl/wiki/performance-evaluation网站。15 https://hub.docker.com/r/tabbydoc/tabbyxl网站。相同的数据集(Troy200)。我们还开发并测试了一个广告规则,将其与Sen- bazuru[31]发表的从电子表格中提取标题层次结构(标签-标签对)的结果进行比较。测试是在随机选择的200个SAUS表的子集上进行的。TabbyXL获得的F评分为0.8657,而Senbazuru[31]在SAUS表上报告的F评分为0.8860。我们之前的论文[2]更详细地介绍了这种请注意,演示的结果接近这些最先进的解决方案。然而,这两个竞争对手都使用了受三个预定义功能区域限制的表与它们不同的是,我们的平台允许处理具有其他用户定义的布局功能的表格(例如,在正文中插入,页脚或倒置的6. 说明性示例图图3示出了转换任务的简单示例,该转换任务包括将与表(a和c)类似的表转换为关系形式(b和d)。这些表满足以下假设: 1, . . ., n 是条 目; a1 , . . . , a m 是类 别A 的列 标签 ;b1,. . .,b,k是类别B的行标签。 为这一任务设计的参考规则如图所示。四、请注意,通过排除rule和end关键字以及一些换行符,演示的rule版本得到了简化。它的完整版本可以在GitHub上找到。16复制此示例的所有步骤都在文档中介绍。[17]文件中还有一个187. 应用我们在两个实际应用中使用了TabbyXL。第一个项目旨在开发伊尔库茨克地区的网络统计地图集。我们的平台能够使用从俄罗斯联邦国家统计局伊尔库茨克地区委员会分发的统计报告中提取的表格数据填充数据库统计报告中的原始表格以Word对象的形式呈现。它们被转换为Excel电子表格格式。然后,我们以CRL格式开发的规则库由CRL2J选项执行。它恢复了每个表中的功能角色和结果,通过运行规则集将原始表转换为规范形式最后,它们被转换为CSV格式,汇总并载入统计地图集的数据库。第二个应用是专门的软件开发从工业安全检查(ISI)服务中使用的任意表的数据生成本体。该平台提供了从统计学会报告中的任意表格中提取数据的功能。这些报告最初是以PDF文件形式提交的。它们描述了技术诊断、诊断结果的分析(包括解释)、耐久性和剩余资源的计算等,其内容和布局由一些企业标准规定。在所考虑的情况下,所有表可以分为两种类型的布局形式。我们使用两个CRL格式的规则集将任意形式的表转换为规范形式。提取的数据(关系表)使我们能够生成概念模型的片段,作为UML符号中的类图。最后,这些片段被聚集成一个概念模型,构建一个知识库的检查对象。16 https://github.com/tabbydoc/examples/blob/master/tabbyxl/example1/results/crl2j/rules.crl.17 https://github.com/tabbydoc/tabbyxl/wiki/example-1网站。18 https://github.com/tabbydoc/tabbyxl/wiki/example-2网站。A. 希加罗夫河谷Khristyuk和A.Mikhailov/SoftwareX 10(2019)1002705表1测试结果表明,该规则能够从表中恢复数据项及其关系 Troy200数据集1691848593506616609517134389图三. 具有相同布局特征(a和c)的 任 意 表 格 到其规范化版本(b和d)的变换的说明性示例。见图4。一 个用于转换图1所示的说明性示例的表的参考规则。3:数据清洗-(a),条目生成-(b),标签生成-(c),将条目与列标签相关联-(d),将条目与行标签相关联-(e),对列标签分类-(f),以及对行标签分类-(g)。这两个应用程序的详细描述(包括工作流、规则集、实际数据样本和复制步骤)作为平台文档的一部分提供198. 影响数据分析需要结构化数据。然而,在实践中,数据通常仅以弱结构化的形式可用,例如任意电子表格表格。例如,统计报告、财务报表、安全数据表或商业信用评估中存在大量表格数据。数据科学和商业智能的许多应用都可能使用这些数据。从半结构化表格文档(如电子表格工作簿)中提取数据可能是一个耗时的过程。当有必要处理大量具有各种布局的任意表格时,应尽可能减少手动处理。近年来,这一挑战引起了科学界在文件分析和数据管理领域的关注。然而,社区的一些努力致力于开发和发布用于表格理解任务的软件。TabbyXL展示了电子表格数据提取和转换软件开发的新可能性。现有的软件包只支持几种预定义的类型桌子的布局。它们通常在内部算法中嵌入一些规则。与之相反,我们的平台实现了一个通用的表模型,并允许使用用户定义的规则扩展其功能。这样的软件可以显着方便的数据提取半结构化的表格文件。特别是,我们平台的初步实现用于填充19 https://github.com/tabbydoc/tabbyxl/wiki/statistical-atlashttps://github. com/tabbydoc/tabbyxl/wiki/industrial-safety-inspection.建立一个数据仓库,储存蒙古各省的社会经济数据。当前版本的软件平台用于两个真实的ETL(提取、转换、加载)工作流,用于从任意电子表格中提取数据(第7节)。在一个案例中,它使得能够从政府统计报告的表格数据中填充基于网络的统计数据库在另一种情况下,它有助于从工业安全检查中使用的任意表的数据生成本体。我们相信,我们的平台的设计原则,可以作为一个基础,用于转换的表格数据从弱或半结构化的源数据库的软件开发。9. 结论所提出的软件的贡献包括以下结果。实现的平台提供了开发和执行基于规则的电子表格数据提取和转换程序。与现有的ETL工具相比,我们的平台支持任意表,其中隐式语义被复杂的布局,样式和内容功能所隐藏。软件平台架构的新颖性包括提供了两种基于规则的方法来实现面向目标的工作流。在第一种情况下,用于表分析和解释的规则库用通用规则语言表示,并由JSR-94兼容的规则引擎(例如,Drools或Jess)。在第二种情况下,以CRL表示的规则被翻译成可执行的Java程序。作为该体系结构的重要组成部分,我们的两层表对象模型提出了一种新的方法,将功能角色与数据项相关联,而不是单元格。与其他模型不同,我们假设函数数据项可以放置在表中的任何位置。因此,这提供了处理这样的特定表格布局。CRL是我们的特定于域的基于规则的语言,它确定必要的查询(条件)和操作(操作度量条目标签Entry–labelLabel–label召回精度0.9813166020.9996166020.996548420.936448420.9773342700.9965342700.9389195120780.9784195119946A. 希加罗夫河谷Khristyuk和A.Mikhailov/SoftwareX 10(2019)100270开发用于将电子表格数据从任意形式转换为关系形式的程序CRL规则将单元格的物理结构(布局、样式和文本功能)映射到逻辑结构(链接的功能数据项,如条目、标签和类别)。与通用规则语言(例如DRL或Jess)相比,CRL能够在没有任何用于管理工作内存的指令的情况下表达规则集,例如更新修改的事实或规则重新激活时的块。这使得最终用户可以更多地关注表分析和解释的逻辑,而不是规则管理和执行的逻辑虽然竞争对手的解决方案受到一些预定义的表格布局类型的限制,但我们的软件平台支持各种布局的表格分析和解释。实验结果表明,一个规则(程序)开发和执行的软件平台可以处理来自同一体裁的不同来源的任意表。这项工作的局限性是,我们不涉及使用电子表格公式。在实践中,许多任意的表包含公式。特别是,它们可用于检测和验证表转换应用程序中的派生数据将公式合并到用户定义的规则中以恢复导出的数据项及其内部关系,这当前版本的软件平台通过将标签与用户定义的类别进行分组和关联来实现受限的表格解释。进一步的工作可以通过添加基于命名实体识别和链接的新功能来克服这种限制。我们认为,提取的表格数据与链接的开放数据(LOD云)的全球结构的链接,将使他们能够在第三方软件应用程序的外部本体的解释。确认这项工作得到了俄罗斯科学基金会的支持[批准号18-71-10001]。竞合利益作者声明不存在利益冲突引用[1] 希加罗夫河使用规则引擎理解表。专家系统应用2015;42(2):929-37.http://dx.doi.org/10.1016/j.eswa.2014.08.045网站。[2]Shigarov AO,Mikhailov AA.基于规则的电子表格数据从任意表到关系表的转换。InfSyst2017;71:123-36.http://dx.doi的网站。org/10.1016/j.is.2017.08.004。[3] 张晓刚,李晓刚,李晓刚电子表格中的表格标识和引用输入:程序第29集Int.conf.高 级 信 息 系 统 工 程 ;2017 。 第 527-541 页 。http://dx.doi.org/10.1007/978-3-319-59536-8_33.[4]Chen Z , Dadiomov S , Wesley R , Xiao G , Cory D , Cafarella M ,Mackinlay J.具有规则辅助主动学习的纸张属性检测。In:Proc. ACM on conf.oninformationandknowledgemanagement;2017. 第 999-1008 页 。http://dx.doi.org/10.1145/3132847.3132882网站。[5]窦伟,韩胜,徐立,张丹,魏杰。电子表格中的可扩展群识别。In:Proc.33rd ACM/IEEE int. conf. on automated software- ware engineering; 2018.第498-508页。http://dx.doi.org/10.1145/3238147的网站。3238222。[6][10]李晓,李晓,李晓.检测和重构电子表格公式中的代码气味。Empir SoftwEng 2015;20(2):549-75. 得双曲正切值. doi.org/10.1007/s10664-013-9296-2网站。[7]窦伟,徐聪,张世春,魏杰,CACheck:检测和修复电子表格中的IEEE TransSoftw Eng 2017;43(3):226网址://dx.doi.org/10.1109/TSE.2016.2584059网站。[8]放大图片作者:Barowy DW,Berger ED,Zorn B. ExceLint:自动查找电子表格公式错误。Proc ACM Program Lang 2018;2(OOPSLA):148:1-26.网址://dx.doi.org/10.1145/3276518网站。[9]Koch P,Hönig B,Wönig F. 利用结构信息对电子表格气味进行精化J SystSoftw 2019;147:64网址://dx.doi.org/10.1016/j.jss.2018.09.092网站。[10]Barowy DW,Gulwani S,Hart T,Zorn B.使用示例从半结构化电子表格中提取关系数据。SIGPLANNot2015;50(6):218-28.http://dx.doi.org/10.1145/2813885.2737952网站。[11]Singh R , Gulwani S. 使 用 示 例 转 换 电 子 表 格 数 据 类 型 。 SIGPLAN Not2016;51(1):343-56。http://dx.doi.org/10.1145/2914770的网站。2837668[12]Jin Z,Anderson MR,Cafarella M,Jagadish HV. Foofah:通过示例转换数据 。 In : Proc. ACM int. conf. management of data; 2017. 第 683- 698 页 。http://dx.doi.org/10.1145/3035918.3064034网站。[13]Amalfitano D,Fasolino AR,Tramontana P,De Simone V,Di Mare G,Scala S.从基于电子表格的信息系统推断数据模型的逆向工程过程:汽车工业经验。在:数据管理技术和应用。2015,p. 136-53. http://dx.doi的网站。org/10.1007/978-3-319-25936-9_9。[14]Cunha J,Fernandes JP,Mendes J,SaraivaJ.嵌入,演变和验证模型驱动 的 电 子 表 格 。 IEEE Trans Softw Eng 2015;41 ( 3 ) : 241-63.http://dx.doi.org/10.1109/TSE.2014.2361141网站。[15]Cunha J, Erwig M ,Mendes J, Saraiva J.电子表 格的模型推 理。AutomSoftw Eng 2016;23(3):361-92. http://dx.doi.org/10.1007/s10515-014-0167-x.[16] Ritze D,Bizer C.将web表与dbpedia相匹配:一项功能实用性研究。In:Proc. 20th int. conf. on extending database technology; 2017. p. 210比21http://dx.doi.org/10.5441/002/edbt.2017.20网站。[17] 张 志 使 用 tableminer+ 进 行 有 效 的 语 义 表 解 释 。 Semantic Web 2017;8(6):921-57. http://dx.doi.org/10.3233/SW-160242。[18]de Vos M,Wielemaker J,Rijgersberg H,Schreiber G,Wielinga B,Top J.Combining information on structure and content to automatically annotatenaturalsciencespreadsheets.IntJComputStud2017;103 : 63-76.http://dx.doi.org/10.1016/j.ijhcs.2017.02.006网站。[19] 放大图片作者:Cao TD,Manolescu I,Tannier X.从统计电子表格中提取链接数据。In:Proc. int. workshop semantic big data; 2017. 5:1-5:5.http://dx.doi.org/10.1145/3066911.3066914网站。[20]Swidan A , Hermans F.半 自 动 提取 交 叉 表 数 据一 组 电 子表 格 。 In :Barbosa S , Markopoulos P , Paternovsky F , Stumpf S , Valtolina S ,editors. 最 终 用 户 开 发 。 2017 年 , 第 84-99 页 。 http://dx.doi 的 网 站 。org/10.1007/978-3-319-58735-6_6。[21] 杨S,郭军,魏R.通过自动表格文档交换实现互联网上异构信息系统的语义互操作性。Inf Syst 2017;69:195-217. http://dx.doi.org/10.1016/j.is.2016.10的网站。010.[22]杨S,魏R,Shigarov A.电子商务的语义互操作性:一种新颖的跨上下文语义文档交换方法。在:Proc. ACM研讨会上的文件。工程师; 2018. 28:1-28:10。http://dx.doi.org/10.1145/3209280.3209523.[23] Embley DW,Krishnamoorthy MS,Nagy G,Seth S.将网上的各种统计表转换成可搜索的数据库。Int J Doc Anal Bioglag 2016;19(2):119-38。http://dx.doi.org/10.1007/s10032-016-0259-1网站。[24]陈志信息提取对para-relational数据(博士。论文),美国:密歇根大学;2016年。[25]Cunha J,Saraiva Ja,Visser J.,《从电子表格到关系数据库》。In:Proc.ACM SIGPLAN workshop partial evaluation and pro-gram manipulation;2009.第179- 188页。http://dx.doi.org/10.1145/1480945的网站。1480972。[26] [10]张晓刚,张晓刚. DeExcelerator:从部分结构化文档中提取关系数据的框 架 。 In : Proc. 22nd ACM int. conf. on information knowledgemanagement;2013.第2477-2480页。http://dx.doi.org/10.1145/2505515.2508210.[27]陈志,陈杰,张晓,陈晓.电子表格数据库管理系统.北京:清华大学出版社,2000.ProcVLDBEndow2013;6(12):1202-5。http://dx.doi.org/10.14778/2536274.2536276网站。[28]陈Z,卡法雷拉M.自动Web电子表格数据提取。In:Proc.网络语义搜索研讨会;2013年。p. 1:1-1:8. 网址://dx.doi.org/10.1145/2509908.2509909网站。[29]纳吉湾来自国际统计网站的TANGO-DocLab网络表格(Troy_200),1,ID:Troy_200_1。2016年,http://tc11.cvc.uab.es/datasets/Troy_200_1。[30] Shigarov A,Khristyuk V. TabbyXL:用于基于规则的电子表格数据提取和 转 换 的 软 件 平 台 性 能 评 估 的 数 据 集 。 2018 , Mendeley Data , v5.http://dx.doi.org/10.17632/www.example.com[31]陈Z,卡法雷拉M.通过准确和低工作量的提取来集成电子表格数据. In:Proc.20th ACM SIGKDD int. conf. knowledge discovery and data mining; 2014.第1126- 1135页。http://dx.doi.org/10.1145/2623330的网站。2623617
下载后可阅读完整内容,剩余1页未读,立即下载
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)