视觉信息学4(2020)23用于模式识别和知识发现的符号数据可视化的改进Kadri Umbleja,Manabu Ichino,Hiroyuki Yaguchi东京电机大学理工学院,日本,350-0394ar t i cl e i nf o文章历史记录:收到2019年收到修订版2019年12月6日接受2019年12月25日2020年1月2日在线提供保留字:数据可视化符号数据Zoomstar形状编码探索性数据分析a b st ra ct本文探讨了符号数据的可视化,并认为其复杂的结构所带来的挑战。符号数据通常是从大型数据集中聚合而来的,用于隐藏条目特定的细节,并将大量数据(如大数据)转换为可分析的数量。它还用于在一般趋势比个别细节更重要的地方提供概述。符号数据有多种形式,如区间、直方图、类别和模态多值对象。符号数据也可以被认为是一种分布。目前,事实上的符号数据可视化方法是zoomstars,它有很多局限性。最大的限制是默认分布(直方图)在2D中不受支持,因为需要额外本文提出了几个新的改进zoomstar,这将使它能够可视化直方图在2D中使用分位数或等效的间隔的方法。此外,几个改进的分类和模态变量提出了更清晰的指示所呈现的类别。根据数据类型和期望的目标,提供了不同的缩放方法的建议。此外,另一种方法,允许可视化的整个数据集在全面的表格状图,称为形状编码,提出。这些可视化和他们的有用性进行了验证,在探索性数据挖掘阶段的三个符号数据集,以确定趋势,类似的对象和重要的功能,检测离群值和数据的差异。版权所有2021作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍视觉感知是人类的强大工具,让我们能够识别数据中的复杂模式。我们可以从视觉输入中识别细节,区分形状和模式,比从大量的数字数据中符号数据是一种复杂的数据结构,它是从大量的经典数据中聚合出来,然后转换成更紧凑的形式。这使得符号数据挖掘领域在大数据背景下非常重要。然而,由于其复杂的结构,这种数据的可视化面临着额外的挑战。在本文中,我们提出了改进的视觉表示- ING大量的数据在符号形式使用zoomstar。这些改进旨在使人类的视觉感知更容易解释从zoomstar获得的信息。除了zoomstars,我们提出了一种新的方法,可视化符号数据的基础上的形状编码的想法*通讯作者。电子邮件地址:kadriumbleja@gmail.com(韩国)Umbleja)。https://doi.org/10.1016/j.visinf.2019.12.0032. 符号数据符号数据分析(SDA)(Billard and Diday,2006;Diday andEsposito,2003)是一种数据分析方法,它允许描述和分析从更大的传统数据集中聚集的复杂数据。如果经典数据是通过给每个变量一个单一的值来描述的,那么符号数据会以许多不同的形式出现:区间,直方图和分类或模态多值数据。符号数据的一个重要属性是它隐藏了条目特定的细节,从而提供了源数据的更全面的画面。这反过来又使我们能够分析大数据集(大数据),这些数据通常对于通常的方法来说太大符号数据的最常见形式是直方图(DIS-A)。因为所有其他类型的符号对象都可以转换成它。定义1(直方图值数据)。设特征Fj是对象ωi的直方图值特征.Fj由直方图描述E ij ={[a ij1,b ij1] p ij1;[a ij2,b ij2] p ij2;. . . ;[a ijnij,b ijnij] p ijnij},j=1 , 2 , ..., d;i =1 , 2 , ..., N ,( 1)2468- 502 X/©2021作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinf24K. Umbleja,M. Ichino和H. Yaguchi /视觉信息学4(2020)23. ..⎪⎪⎪⎪⎩⎧⎪⎪=-≤···≤=其中,n ij指示特征j和对象i的直方图中的箱的数量, 并且p ijk∈[0,1],k = 1,2,. . . ,n ij是与直方图的仓间隔[ a ijk,b ijk ]相关联的非负概率。 p ijk,k = 1,2,. . . ,nij是1。2.1. 符号数据定义2(分布函数)。假设特征F j的对象ωi是如(1)中的直方图值符号对象。它可以用分布函数来描述:0如果x≤aij1pij1×(x−aij1)/(bij1−aij1)ifaij1≤x≤bij1=aij2F(x)=<$F(aij2)+pij2×(x−aij2)/(bij2−aij2)ifaij2≤x≤bij2F(aijn)+pijn×(x−aijn)/(bijn−aijn)如果a ijn≤x≤bijn1如果bijn≤x(二)基于分布函数的知识,分位数方法(Ichino,2008)提供了一种表示具有不同类型特征的符号数据的通用方法。这里的基本思想是是用底层分布的一些预定义分位数来表示观察到的特征值(Ichino,2011)。通过使用分布函数(2),我们可以容易地获得m个数值(分位数值 ) Q1 , Q2 , . . . , Qm 匹 配 概 率 p1 , p2 , . . . , p m ( 其 中p1