没有合适的资源?快使用搜索试试~ 我知道了~
软件X 14(2021)100684原始软件出版物Document Towers:一个MATLAB软件,数字文件和图书馆的视觉探索的三维建筑范例Vlad Atanasiu,Rolf Ingold弗里堡大学,信息学系,Bd。de Pérolles 90,1700 Fribourg,瑞士art i cl ei nfo文章历史记录:2021年1月12日收到2021年2月25日收到修订版,2021年保留字:数字图书馆文献结构可视化信息探索偶然性隐喻a b st r a ct本文介绍了通用的文档塔范例,可视化和软件,用于可视化的分页文档的结构,基于隐喻的文档作为架构。文档塔可视化类似于三维建筑模型,并表示逻辑的物理边界(例如,标题,图像),语义(例如,主题,命名实体),图形(例如,字体、颜色)以及其他类型的信息,其空间范围为房间和楼层的堆叠。该软件将用户提供的JSON格式的文档实体坐标和标签作为输入,或从ALTO和InDesign IDML文件中提取它们本身。文档塔范例和可视化使信息系统能够支持面向目标的搜索之外的信息行为。可视化通过生成全景概述和培养偶然的见解来鼓励探索,而隐喻的使用则通过应用熟悉的认知模型来帮助理解表征。文档塔可视化还提供对文本内容以外的信息类型的访问,特别是通过它们的物理结构,它对应于文档的材料,逻辑,语义和上下文方面。可视化使文档变得透明,使不可见的内容变得可见,并使分析变得一目了然,而无需进行物理操作。关键字搜索和其他基于语言的文档交互必须表达清楚,并且只返回所提问题的答案;相比之下,视觉观察非常适合模糊目标和发现意外方面的数据。版权所有2021作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本v2020.02.15用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00009代码海洋计算胶囊法律代码许可证BSD-3条款使用的代码版本控制系统使用的软件代码语言、工具和服务MATLAB(R2020b)编译要求、操作环境依赖性Linux、Mac、Unix、Windows如果可用,链接到开发人员文档/手册软件中包含的文档问题支持电子邮件atanasiu@alum.mit.edu*通讯作者。电子邮件地址:atanasiu@alum.mit.edu(Vlad Atanasiu),rolf.unifr.ch(Rolf Ingold)。网址:http://waqwaq.info/(Vlad Atanasiu),https://www3.unifr.ch/inf/de/all/people/16738/0a54b(RolfIngold)。https://doi.org/10.1016/j.softx.2021.1006841. 动机、原则和意义“数 学 只 有 当 它 涉 及 到 把 某 物 看 成 另 一 物的 操 作 时 , 才 能 变 得 真 正 有 趣 和 原 创 。''[Reviel Netz]2352-7110/©2021作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx弗拉德·阿塔纳修和罗尔夫·英戈尔德软件X 14(2021)1006842由页面组成的文档是普遍存在的信息存储格式,无论是数字的(例如,PDF和Word文档)或模拟形式(例如,书籍、文章)。正在进行大规模的持续努力以实现历史文档集合的模拟到数字转换(例如,谷歌图书),而数字到数字格式转换也是例行的(例如,Word到PDF)。因此,制定促进与这类信息互动的各种解决方案的重要性怎么强调都不为过。本文介绍的文档塔范例、可视化和软件是这些解决方案之一。虽然通常通过文本和图形对象的语义分析来访问文档内容,但是该信息并不总是可用的(例如,需要光学字符识别[OCR]来使文档图像中的文本可搜索)或者可能是昂贵的(例如,高质量的手写识别在今天仍然是昂贵的)。在Docu- ment Towers软件中实现的一种解决方案是利用文档结构中包含的信息。例如,文章的第一页通常比后续页面具有更多数量和多样性的视觉上不同的换句话说,信息的结构潜在地事实上,可以说信息是结构:字母和像素根据它们的排列方式创造出不同的文本和图像。自然语言和数字描述是访问信息的其他常见范例。DocumentTowers人机界面采用的视觉形式这些类型的信息行为与互联网搜索引擎中几乎普遍使用的文本输入字段概念中隐含的目标搜索不同[1因此,视觉搜索非常适合于以下情况:所寻求的信息无法用文字清楚地表达,用户使用不同的术语和语言来描述同一概念,或者调查结果可能出乎意料(如在质量控制中)。文档塔可视化将文档表示为线框架构模型。这种认知模型的目的是在理解和操纵不透明的物理对象和抽象的数字结构时为用户创造一种熟悉感[4,5]。在成堆的页面和建筑物之间,以及图书馆和城市之间,有一种自然的物质对应;此外,空间和建筑隐喻在软件和硬件术语中根深蒂固(例如, 示例包括将软件结构可视化为城市景观[7],挤出网页对象的嵌套结构[8],在三维空间中表示文本列[9],将数字文档渲染为虚拟现实图书馆中物理书籍的外观[10],以及将互联网域之间的导航概念化为连接各个房间的隧道[11]。对紧凑文档概述的研究在文献中得到了解决,例如,以语义突出显示的缩略图[12]或文档中主题分布的仪表板[13]的形式。类似实验的图解调查可以在[14图1示出了如何通过挤出文档页面上的各种对象的边界框来获得三维建筑模型,从而创建类似于房间、墙壁或柱子的板 图 3描述了页面边界看起来像地板,整个文档看起来像一座建筑物。图图6显示了文档集合和城市景观之间的相似性。Fig. 1. 将页面实体转换为架构模型的原则。将文档表示为线框架构模型的两个效果有助于范式首先,这些模型保留了分页文档的物理第二,将形状简化为板,一方面有助于关注本质,另一方面激发想象力,寻找神秘结构的意义,这是用于探索的可视化的目标。文档塔首先是分页文档的可视化范例,而文档塔软件则在交互式可视界面中实现了这一范例(图1)。2,左)。它的目的是使实际应用中的文档结构的探索,以帮助研究到文档结构的解释,并促进文档塔范式在第三方应用程序中的潜在采用。该软件的一个独特功能是能够从选定的文档格式中读取文档对象几何形状和元数据,尽管这种情况下的软件范围不是由机器进行的自动分析,而是由人类进行的视觉分析。通用可视化和处理特定文档格式之间的分离是通过使用用于简单几何和元数据描述的定制JSON格式的中间文件作为软件的输入来实现的,该中间文件可以由软件从文档文件生成或由用户提供。要生成Document Towers可视化,所需要的只是文档中实体的空间范围坐标,而向实体添加元数据的标签是有用的,但不是必不可少的这使得所提出的方法成为分页文档的通用信息可视化概念,就像直方图是表示一组标量的通用概念一样。弗拉德·阿塔纳修和罗尔夫·英戈尔德软件X 14(2021)1006843图二. 文档塔表示过程(左)和工作流(右)。图三. Document Towers可视化表示同一文档中文本和图形的分布,由IDML文件(左)和PDF文件生成(右)。(对于此图的彩色版本,读者可以参考本文的网络版本弗拉德·阿塔纳修和罗尔夫·英戈尔德软件X 14(2021)1006844见图4。 措施和丝带。详情请参见第2.6(For这幅图的彩色版本,读者可以参考这篇文章。)2. 软件描述2.1. 软件架构和工作流程该软件由数据采集和处理模块、交互式文档结构查看器和特征测量功能组成用户首先使用软件界面选择一个或多个包含文档对象坐标的电子文档文件,还可能包含指定对象类的标签(图2,右)。该软件提取对象几何体和标签,然后将它们保存到文件中。如果需要处理Document Towers软件不支持的格式,此文件也可以由第三方软件包生成(有关规格,请参阅软件文档)。在下一步中,用户选择这些几何文件,之后软件在指定位置显示三维线框用户现在可以交互式地探索和解释可视化,随后可以保存以供以后重用。2.2. 编程环境文档塔软件是用MATLAB编程语言(R2020b)编写的。该软件可以与MathWorks的MATLAB商业应用程序结合使用3D线框图的视觉质量首先在Java(JavaFX)中进行了测试,但早期版本被证明是不够的[18]。一个用于3D动画和使用WebGL的JavaScript three.js库被发现在图形上令人满意且具有吸引力,因为它允许可视化的Web交付[19]。但是,导入大于1 MB的几何文件时性能极差,使得此解决方案不切实际。 作为参考,图中单个塔的几何形状的未压缩ASCII文件大小。3是343 kB(4265个对象),而图中的89个文档塔可视化。6为6.7 MB(85 203个对象)。弗拉德·阿塔纳修和罗尔夫·英戈尔德软件X 14(2021)1006845在MATLAB中创建文档塔可视化没有JavaFX的图形缺点,并且速度相当快:在MacBook Pro 2018(3 GHz Intel Core i9)上可以在4秒内生成单个塔。使用的游戏引擎Unity [20]和设计软件AutoCAD[21]的设想,但MATLAB的优势是作为一个科学的软件开发环境,支持广泛的的应用程序,包括图像处理和统计,这两个都是有用的扩展文件分析能力, 文档塔软件2.3. 提取的信息从文档文件中提取的信息包括文档中实体的空间范围坐标,以及定义这些实体的标签(如果可用)。例如,下一节中讨论的IDML和ALTO文件为四种空间定义的基本文档实体提供标签:页面、文本框架、光栅图像和矢量图形。ALTO文件通常包含一组由文件制作者临时创建的标签,这些标签为基本文档实体引入子类别Document Towers软件的图形文档塔可视化不知道它们代表什么;它们的功能取决于各种文档格式的信息,自动提取信息的可能性,以及用户的解释能力”[22]。2.4. 数据格式该软件能够读取XML格式的IDML(InDesign标记语言)[23]和ALTO(分析布局和文本对象)[24]文件中的对象坐标和标签。前者被Adobe InDesign所采用,Adobe InDesign是出版业用于复杂布局的市场主导型排版软件,而后者是数字化项目的标准。页面内的坐标、页码、对象类型和标签以及文档元数据(如文件名)以JSON(JavaScript Object Notation)格式保存到文件中[25]。作为示例,描述图1中的文档塔的文件中的第一行是[0,0,0,441,0,441,666,0,666]:初始零将对象定义为页面,而后面的数字是其边界框的坐标对。软件提供了样本数据和详细的格式规范几何文件随后由可视化模块读取。这种移交机制允许用户创建文档结构库,拆分长文档,将文档合并到单个文档塔中,修改标签和元数据,或处理使用第三方软件生成的数据结构文件。例如,从图1和图2中呈现的PDF(便携式文档格式)提取的信息。图3和图6中的图像是通过瑞士公司Sugarcube [ 26 ]的Enlighter软件的专有应用程序编程接口(API)获得的。从各种文件格式获得的信息可能有很大的差异;因此,可视化的结构可能彼此截然不同。以第一作者在InDesign中编写和制作的学术书籍为例[27],图。图3说明了基于IDML的可视化(左)如何强调文档第一部分中经常出现的不规则布局,图中的塔是从同一文档的PDF文件中提取的,而塔(右)突出了文档末尾参考部分许多向量图五、 作者在一个文件塔可视化壁画前。PDF中可见的图形是标尺,它将文本与脚注或表格部分分开;在IDML中,这些被定义为段落参数,而不是可识别的对象。这些差异引起了一些问题,例如在特定的文档描述文件中存在与文档布局相关的不确定性。例如,一个La TE X.tex文件本身几乎没有透露文档的最终外观,而PDF文件则被期望提供忠实的图形表示。而不是考虑数据格式依赖性现象的局限性,它可能是有用的,而不是解释这些差异为各种文档格式的特性提供了有价值的见解,其中一些可能通过Document Tower可视化范式变得可见。考虑文档格式的互补性,并通过文档塔可视化作为思维工具来研究这些格式提供的不同信息如何单独使用或融合使用也是有用的这些问题与文档工程、档案和法医应用有关,文档塔范式提供了一个与其他范式不同的视角来解决这些问题。2.5. 可视化和交互由文档塔可视化实现的主要文档结构表示范例是三维线框,其利用对象作为房间、页面作为楼层、文档作为塔和图书馆作为城市的建筑隐喻。通过根据特定的语义和定量标准对每个楼层的立面进行颜色编码,可以获得所谓的Ribbons,这是一种比Document Towers可视化更节省空间的表示方法(图1)。 4).通过图形界面,可以设置颜色和透明度等参数,可以选择要显示的对象类型,以及在轴测图、立面图和平面图之间更改投影;用户还可以缩放、平移和旋转Document Towers可视化,以便从概览移动到细节。可以添加超链接,使PDF版本的文档能够在Web浏览器中的所需页面处打开;这样,文档塔可视化就获得了类似于目录的文档导航功能2.6. 测量该软件提供对象类别的数字统计,以及每页对象数量(基数)的彩色编码信息(色带),以及弗拉德·阿塔纳修和罗尔夫·英戈尔德软件X 14(2021)1006846×图六、一 个文件塔城市的可视化导致了第3节“ 说 明 性 示 例 ” 中 讨 论 的 三 个 见 解 。被对象覆盖的页面区域(填充)。图4呈现了来自与图3中相同的PDF文件的文档塔的前视图,其中正面在两个测量上被颜色编码,文本、矢量和光栅对象。显示与极值对应的页面。第96页是一个表格,并且具有由PDF分析算法提取的每页最高数量的对象,而第viii页是覆盖整个页面表面的单个光栅图像,与几乎空的第1页形成对比。2.7. 扩展性将文档呈现为DocumentTowers可视化的可伸缩性受到性能和物理因素的限制。前者在第2.2大约3000个文章长度的文档,如图6所示,可能会在3072上显示出合理的可读性。1920-像素屏幕MacBook Pro笔记本电脑为了以更高的分辨率表示更多的文档,建议制作硬拷贝并将其显示在墙上,这是平面设计师用于杂志以及建筑师和工程师用于计划的技术。作者也采用这种方法来比较文档结构,产生持久可视化的额外好处和更多的空间来容纳更大的观众群体(图1)。 5)。3. 说明性示例文档塔可视化如图所示。 6表示作者计算机上按文件名排序的文件夹中的89个PDF文档;这里,蓝色板块表示数字文档中光栅图像的位置和范围。该图像说明了可视化文档结构的以下三个好处。所有这些都是通过使用Document Tower软件可视化文档而获得的偶然发现。A. 错误分类:虽然这个集合应该只包含文章,但一座高耸的塔的存在揭示了其中的一本专著。如果不是因为可视化的偶然发现,这种错误分类很B. 搜索质量:常规的Document Towers可视化表示扫描的文档,其中每个页面都是单个光栅图像,而碎片化的DocumentTowers可视化表示本地电子文档,其中图像仅覆盖页面的一部分(如果存在)。对于希望为读者提供可搜索的数字文档的图书馆来说,这意味着必须识别扫描的文档并提取文本和逻辑结构,这是耗时且昂贵的。此外,来自光栅图像的文本识别率很少产生与成像文档中的电子文本相同的电子文本,特别是在有噪声的、历史的或手写的文档的情况下,这导致次优的文本搜索结果。相比之下,可视化提供了一种快速而轻量级的方法来在执行文本识别之前估计文档搜索质量。C. 法医:左上角的小塔,由于其偏远的位置而吸引眼球,不是一个独立的-PDF文档中的图像是指位于PDF文档可见框架之外的图像。它能隐藏一个隐藏的信息吗?4. 影响文档塔范例将文档结构与架构隐喻相结合。这种范例具有潜在的广泛的应用程序和用户范围,并覆盖整个文档生命周期。它的主要影响涉及它所促进的信息寻求战略这在丰富的、非结构化的和无文档的环境(如归档)中尤其重要。特别是文档数字化和转换是可能受益于可视文档结构表示的应用,因为这种方法实现起来很便宜(例如,可以弗拉德·阿塔纳修和罗尔夫·英戈尔德软件X 14(2021)1006847在光学字符识别之前应用),并通过利用人类模式识别能力(有助于,例如,质量控制中的异常值检测)。文档塔可视化还使文档中的信息可见,而无需打开它们。因此,它们可以充当文档导航辅助工具(例如,在电子书阅读器中的目录旁边)。它们可以进一步帮助设计人员概述他们正在布局的文档最后但并非最不重要的是,文档塔可视化具有一定的美学吸引力,这是一个有用的用户体验因素[28]。5. 结论本文介绍了文档塔范例、可视化和软件,旨在使用架构认知模型促进对分页文档结构的可视化除了可视化和软件的细节之外,这项工作的有用性还在于它所倡导的范式:技术信息寻求援助语言和数字有针对性的搜索的补充。CRediT作者贡献声明Vlad Atanasiu:概念化,方法论,软件,写作-原始草稿,可视化。罗尔夫·英戈尔德:概念化,撰写评论,编辑,监督,资金获取.竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢第一作者感谢弗里堡大学的Andreas Fischer和Sugar- cube的Jean-Luc Bloeche和Maurizio Rigamonti的支持和令人兴奋的讨论。两位作者都承认匿名评论者的亲切评论所带来的改进。K. F.感谢校对。这项研究得到了瑞士弗里堡州创新支持基金的支持,资助号为2013.03。引用[1] 贝 茨MJ 。 什么 是 browsing-really ? 行为 科 学研 究 中的 一 个模 型 。 Inf Res2007;12(4).网址:http://www.informationr.net/ir/12-4/paper330.html。[2] McCay-Peet L,Toms EG.在数字信息环境中研究偶然性。San Rafael,CA:Morgan Claypool; 2018.[3]Fisher KE , Erdelez S, McKechnie LEF.信 息 行 为 理 论 。 Medford , NJ :Information Today; 2006.[4]诺曼公元生活在复杂中。Cambridge,MA:The MIT Press;2010.[5]放大图片作者:J.我们赖以生存的隐喻。芝加哥:芝加哥大学出版社,1980年。[6]韦特海姆《赛博空间的天国之门:从但丁到互联网的空间史》W. W. Norton:New York,NY; 1999.[7][10] Alam S , Boccuzzo S , Wettel R , Dugerdil P , Gall H , Lanza M.EvoSpaces:软件演化的多维导航空间。In:Lalanne D,Kohlas J,editors.人机交互:MMI计划的研究成果。Berlin:Spinger; 2009,p.167比92[8]Mozilla开发人员。Firefox开发者工具:3D视图[引自2021.02.14]。 2021,URLhttps://developer.mozilla.org/en-US/docs/Tools/3D_View。[9]小DL重新思考这本书(博士)thesis),Cambridge,MA:MediaLab,MassachusettsInstitute of Technology; 1999,No. 九五一[10]张 文 辉 , 张 文 辉 , 张 文 辉 . Interactions et métadonnées riches pour lesbibliothèquesnumérisées.DocNumér2006;9(2):83-109.http://dx.doi.org/10.3166/dn.9.2.83-109网站。[11]放大图片作者:John T. COSPACE:将Web浏览和动态生成的3D多用户环境相结合。情报1999;10(1):24-32.[12]Stopolia A , Kinnemann H , Spretke D , Keim DA. Enhancing documentstruct analysis using visual analytics. 在 : 2010 年 ACM 应 用 计 算 研 讨 会( SAC ) 的 会 议 记 录 , 2010 年 3 月 22 日 2010 年 , 第 8-12 页 。http://dx.doi.org/10.1145/1774088.1774091网站。[13][10]张文辉,张文辉,张文辉.重新构想数字专著:设计思维为研究人员构建新工具。JElectronPubl2018;21(1).http://dx.doi.org/10.3998/3336451.0021.102网站。[14]道奇M,基钦R。网络空间地图集Harlow:Addison-Wesley; 2001.[15]卡S。信息可视化。In:Sears A,Jacko JA,editors.人机交互手册:基础,不断 发 展 的 技 术 和 新 兴 应 用 。 第 2 版 New York , NY : LawrenceErlbaum;2014,p. 509-43[16]杨伟,王晓. 3D文档语料库可视化研究综述。Inf Technol J2009;8(1):1-15.[17]数学作品。Matlab编译器[引用日期:2021.01.03]。2021,URL https://ch.mathworks.com/products/compiler.html网站。[18] Oracle.JavaFX[cited2021.01.03].2021,URLhttps://docs.oracle.com/javase/8/javase-clienttechnologies.htm。[19]三 个 。 JavaScript 3D 库 [ 引 用 日 期 : 2021.01.03] 。 2021 , URL https ://threejs。org.[20]团 结 Unity : 实 时 开 发 平 台 [ 引 用 日 期 : 2021.01.03] 。2021 ,URLhttps://unity.com。[21]Autodesk. AutoCAD [引用2021.01.03]。2021,URL https://www.autodesk。com.[22]放大图片作者:J. PDF文件的逆向工程。In:Chaudhuri BB,Parui SK,editors.数字文献处理与检索进展。新加坡:世界科学; 2014年,p.249比85[23]系 统A。 IDML 文 件格 式规 范 , 8.0 版 。San Jose, CA: Adobe Systems;2006,URLhttps://www.adobe.com/content/dam/acom/en/devnet/indesign/sdk/cs6/idml/idml-specification.pdf。[24]国会图书馆。ALTO:布局和文本对象的技术元数据[引用日期:2021.01.03]。2021年,https://www.loc.gov/standards/alto/。[25]JSONorg 。 介 绍 JSON [ 引 用 2021.01.03] 。 2021 , URL https://www.json 。org/json-en.html。[26]方糖主页[引用日期:2021.01.03]。2021年,网址https://www. sugarcube.ch网站。[27]Atanasiu V.专家组:法医文件中的计算机专业知识-玩家,需求,资源和陷阱。Boca Raton,FL:CRC Press; 2014,第208页,URLhttps://www.amazon.com/Expert-Bytes-Expertise-Documents-Resources-ebook/dp/B00OD404IM/。[28]Turner P.用户体验心理学:参与,情感和美学。Cham:Springer;2017.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功