没有合适的资源?快使用搜索试试~ 我知道了~
视觉信息学5(2021)23可视化分析中模式发现的理论模型Natalia Andrienkoa,b,Gennady Andrienkoa,b,Silvia Mikschc,Heidrun Schumannd,Stefan Wrobela,ea德国圣奥古斯丁弗劳恩霍夫研究所b英国伦敦大学城市学院维也纳,奥地利的距离德国罗斯托克罗斯托克大学波恩大学波恩大学ar t i cl e i nf o文章历史记录:接收11十一月2020收到修订版2020年12月21日接受2020年12月21日2020年12月30日在线提供保留字:可视化分析数据分布模式抽象数据组织数据排列数据变异模式发现a b st ra ct“模式”这个词经常出现在可视化和可视化分析文献中,但是我们说的模式是什么意思我们提出了一个切实可行的定义的概念,在数据分布的模式作为一个组合的多个相互关联的元素的两个或两个以上的数据组件,可以表示和处理作为一个统一的整体。我们的理论模型描述了模式是如何由数据元素之间存在的关系。知道这些关系的类型,就有可能预测可能存在什么样的模式。我们展示了我们的模型如何支撑和完善可视化的基本原则。该模型还提出了一系列交互式分析操作,可以支持可视化分析工作流,其中模式一旦发现,就明确涉及进一步的数据分析。版权所有2021作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍1.1. 动机当我们开始向数据科学课程的学生教授视觉分析时,我们开始感到需要视觉分析的概念和理论模型(Andrienko et al. ,2020年)。每年都有必要向学生解释什么是视觉分析,为什么以及为了什么目的,他们需要在工作中使用视觉分析,如何在实践中利用视觉分析技术,遵守哪些原则是重要的,以及为什么这些原则存在。事实证明,要向注重实践和计算的人清楚而令人信服地解释这些事情特别是,当我们告诉学生观察分布和检测模式需要可视化我们希望学生们理解“分布"的含义FraunhoferInstitute IAIS,Schloss Birlinghoven,Sankt Augustin,53757,Germany.电子邮件地址:nataliaiais.fraunhofer.de. Andrienko)。https://doi.org/10.1016/j.visinf.2020.12.002可能的分布。我们需要教学生如何找到分布中的模式,这需要定义一个模式是什么,什么样的模式,为什么,可以存在于不同类型的分布。虽然这项工作最初是出于视觉分析的需要,但我们相信,拥有清晰的概念和理论背景也有利于视觉分析科学和工程。明确定义而不是直观理解的概念可能使系统方法能够进行研究工作和开发新的方法和程序。当进入新的应用领域或处理新类型的数据时,可视化分析的坚实理论基础可能特别有用。1.2. 目标和宗旨通过这项工作,我们追求以下目标:提出一个明确的工作定义,数据模式(第4.1节)。描述数据的属性如何决定数据中可能存在的模式的类型(第4.2节)。得出可能的可视化分析方法发现数据中存在的模式的含义(第7节)。2468- 502 X/©2021作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinf···N. 安德里延科湾Andrienko,S.Miksch等人视觉信息学5(2021)2324使用模式的明确定义来解释可视化设计的一些现有原则(第7.3节,第7.4节)。描述已发现的模式如何用于进一步的数据分析(第6节)。我们期望所提出的理论模型将用于以下目的:对于数据分析从业者:为给定数据中可能存在的模式类型和发现这些模式的技术选择提供信息和合理预期的基础。对于可视化分析方法和过程的开发人员:为以下方面– 方法和分析工作流程的系统设计-涉及发现和利用不同类型的模式;– 开发指导用户的方法,并支持他们在数据分析过程中获得的知识的具体化对于视觉分析研究人员:支持系统开发分析不同类型数据的原则和一般方法。对于视觉分析和/或数据科学的学生:使他们能够更好地理解模式,以及如何将它们用于视觉数据分析。1.3. 主要思想我们的模型的本质可以概括为以下几点:模式由至少两个数据组件的多个元素之间的关系组成。模式是这样的关系组合,其允许多个元素被整体地感知和/或表示为单个对象,例如集群、趋势或相关性。数据元素之间存在的关系类型(如排序和距离关系)决定了这些元素可能形成的模式类型涉及抽象的模式发现是理解数据组件之间的概要关系的主要方法。为了发现模式,分析师调查一个(或多个)组件的元素相对于另一个组件的元素的分布以及这些元素之间的关系。分析人员可以通过应用分析操作(如聚合、分组、比较等),在数据分析的后续步骤中使用发现的模式。在下文中,在回顾了相关的工作之后,我们将解释、证明和阐述这些陈述。2. 相关工作在这里,我们讨论如何在不同的科学学科对待模式的概念。2.1. 数学模式现代数学家倾向于将数学视为模式科学(Devlin,1996)。有人认为,主要的分- 数学的研究对象不是个人的数学对象,而不是它们排列的结构(模式)(Resnik,1997)。在这里,术语模式由一个或多个对象组成,称为位置,它们处于各种关系中。这种立场本身没有什么特别之处。只有在模式内,位置才可以被识别或区分,因为包含它们的模式提供了这样做的上下文。因此,在三角形ABC中,点A、B、C在被视为三角形顶点时可以被区分,但孤立地看,它们彼此之间以及与其他点之间是不可区分的。由模式提供的上下文可以被看作是一个表征系统(Oliveri,1997),使用不同的表征系统会导致看到不同的方面。因此,同样的东西可以被看作是一个表,作为一个组成表的部分,作为分子的集合等等,这些观点都是正确的。奥利维里(Oliveri,1997)强调,我们感知的方面不是一个对象本身的属性,而是它与其他对象之间的关系总之,数学家将模式定义为对象的排列,其中只有对象之间的关系是重要的,而不是对象本身的属性。模式具有基于对象之间的关系的属性,并且不适用于单独获取的对象。对相同的物体给予不同的表征可以感知不同的模式,这可以相互补充。数学家根据数学的分支定义模式类型(Devlin,1996):算术处理数字的模式,数学逻辑处理推理的模式,计算处理变化和运动的模式,几何处理形状和对称,拓扑处理连通性和可达性的模式。在我们的工作中,我们处理数据中存在的模式,即,由数据元素组成。像数学家一样,我们承认关系在形成模式中的关键作用。模式类型可以根据数据元素之间存在的关系类型来定义。2.2. 统计模式在统计学中,数据模式的概念没有明确的定义;然而,“数据模式”或“数据中的模式”在统计文献中广泛使用(Bruce和Bruce,2017 ; Heumann等人,2017)。,2017年)。数据分布的模式通常用中心、分布、形状(或形式)和特定特征(如间隙和离群值)的存在来 几种类型的模式是专门为时间序列数据定义的(Härdle et al. ,2015年),即趋势,季节性,周期性和不规则(随机)模式。趋势模式进一步分为线性、指数和其他亚型。反过来,分布的概念被定义为将变量的每个值与其概率相关联的函数(Forbes et al. ,2010年)。统计学考虑了各种形式的分布(Krishnamoorthy,2006),如正态分布,均匀分布,双峰分布,长尾分布等。虽然统计学中分布的定义仅限于概率分布,但我们给出了一个更一般的定义,它涵盖了空间分布以及其他可以想象的分布。另一个扩展是考虑数据元素之间的关系以及这些关系在形成数据模式中的作用。因此,可以在时间序列数据中找到的模式的类型由时间步长之间和变量的相应值之间的特定关系(即,排序和距离)组成。············N. 安德里延科湾Andrienko,S.Miksch等人视觉信息学5(2021)23252.3. 地理学相关科学所有研究地球上发生的现象的科学,包括自然、社会和经济现象,都与分析空间分布和空间模式有关。空间分布中的模式是根据空间中的个体实体及其之间的地理关系(Chou,1995;Getisand Paelinck,2004)。地理分析通常涉及观察和描述空间模式,测试观察到的模式是否与零模型不同,例如完全随机性,并将 经 验 数 据 拟 合 到 理 论 模 型 以 进 行 预 测 ( Rosenberg 和Anderson,2016)。空间格局的特征在于集中或分散、偏心率、随机性、聚类等特定指标。Getis和Paelinck(2004)。一个重要的特征是空间自相关性,表明位于空间的物体或地物如何受到邻近的类似物体或地物的影响(Chou,1995年)。人们认识到,可以观察到的模式空间分布取决于分析的空间尺度(Souris,2019; Borregaard etal. ,2009年)。因此,生物物种的全球分布中可能存在的模式类型与属于该物种的个体的局部分布中可能存在的模式类型非常不同。我们对分布和格局概念的定义特别包括空间分布和空间格局的概念我们的模型可以解释空间关系在形成空间格局中的作用2.4. 信息论在信息论中(Shannon,1948;Cover and Thomas,2006),“模式”一词在应用的上下文中,所有可能的数据模式共同定义所谓的字母表,其中每个模式是字母。在数据压缩中,用于编码不同模式的资源根据数据空间中模式的概率进行优化在图像处理和计算机视觉中,模式被广泛地分成组,这些组在数学上被指定。开发了各种算法来区分一组中的模式与其他模式。他们利用不同的信息理论指标的模式识别,匹配,分割,注册等。 (2009),Feixas et al. (2014年)。信息论的思想和技术已经被用来用于描述和研究人类的模式识别。Chen等人(2014年)注意到,人类在与其他模式重叠时识别相互关联模式的能力,以及在相互远离时连接有趣模式的能力与家族有一些相似之处。在电信和数据通信中称为多路复用的技术。研究人员使用信息论来解释这种视觉化中的视觉多路复用现象。在一项关于视觉化的大量实证研究的调查中(Kijmongkolchai et al. ,2017年),根据主要自变量对研究进行分类:背景(例如,任务,应用),模式(例如,簇和变化),以及值(例如,数据值和统计)。人们注意到 , 模 式 是 大 约 50% 的 研 究 的 重 点 。 Kijmongkolchai 等 人(2017)还进行了一项实证研究,以检测和测量人类他们发现,人类对模式识别的先验知识比对上下文意识和统计估计的先验知识带来更多的好处。使用成本效益分析的信息理论指标来重要的是,人类的模式感知和识别过程涉及抽象。由于模式的信息论观点不适应抽象的概念,它不能支持通过可视化分析来描述2.5. 数据挖掘数据挖掘被定义为发现数据中有用模式的自动或半自动过程(Witten et al. ,2011年)。模式被定义为“某种语言L中的表达式E,描述一组事实F的子集F E中的事实,使得E比F E中所有事实的枚举更简单”(Fayyad et al. 1996,p. 换句话说,模式被定义为多个数据项的概要表示Han(2005)指出,模式的类型可以根据数据挖掘功能来定义,这些功能包括:表征和区分;挖掘频繁模式、关联和相关性;分类和回归;聚类分析;离群值分析。在实践中,数据挖掘文献中通常称为“模式类型”的是指数据挖掘方法的现有输出形式,例如决策树,分类规则,聚类,频繁项集,频繁子序列等(Aggarwal,2015 ; Klösgen和Zytkow,2002 ; Witten et al. ,2011年)。对于可能的模式类型的更系统的定义,没有基本的方案。我们的概念模型的一个重要区别是强调模式客观地存在于数据中,而不管任何表示或某人对其存在的意识如何。通过将模式定义为由数据元素之间的关系形成的结构,我们为预测给定数据中可能存在的模式类型提供了基础。2.6. 可视化和可视化分析中的模式与统计学类似,可视化文献经常使用“数据中的模式”或“数据模式”的表达,尽管没有普遍采用的明确定义。因此,Munzner将术语“模式”视为85)。可视化分析可以被看作是一种模型构建活动(Andrienkoetal. ,2018),其中分析师创建分析对象的模型,特别是心智模型。模型必须是通用的,即,是指多个观察结果一起,而不是分别代表每个观察结果。Collins等人(2018)认为,为了概括,分析师应该能够一起感知多个数据项,并将它们共同概念化为一个有意义的整体。这样的整体称为模式。柯林斯等人提出了以下模式的定义:这类似于数据挖掘中给出的定义;模式也被定义为一种表示,而不是客观存在的结构。根据Bertin的说法,对数据的理解意味事实上,这里所说的N. 安德里延科湾Andrienko,S.Miksch等人视觉信息学5(2021)2326×在数据中:它是由多个元素组成的结构,可以整体描述,而无需枚举这些元素。从数据的视觉表示中感知模式在Colin Ware的书(Ware,2004)中进行了广泛讨论模式感知包括看到多个视觉元素(也称为”在Bertin的术语)作为一个整体。第一次尝试理解这一过程是由心理学的完形学派进行的(Metzger ,2006; Wagemans etal. ,2012)。Ware讨论了模式感知的完形“法则”,并展示了它们如何转化为可视化设计的原则。完形法则指的是视觉标记之间的某些关系,如接近性(在显示空间中)、相似性、平滑连续性、对称性和相对大小。由于这些关系,可以出现可见的模式。承认数据模式是由数据元素之间的关系形成的导致了一个明显的暗示,即当表示数据元素的标记之间的关系对应于数据元素之间的关系在我们的理论模型中,我们努力给出可以支撑可视化主要原则我们高度重视数据元素之间的关系,作为模式形成的力量,并抽象的现象,这是在感知和表示多个相关的数据元素作为一个统一的整体。我们使用的术语11)。我们并不假装我们的模型可以描述可视化分析中的一切。可视化分析不仅涉及发现数据中的模式,还涉及其他分析活动,例如搜索特定信息(例如,识别犯罪的线索)或检查计算机模型的性能。我们的理论模型只涉及在数据中发现模式的过程。这是一种重要的分析活动,在可视化分析研究的很大一部分中得到了解决。我们相信,这一研究将受益于数据模式概念的澄清。3. 分布我们首先介绍我们的理论模型,定义和解释分布的概念。我们描述数据组件内的关系,并建立一个正式的符号介绍的概念。这为我们定义和讨论模式提供了必要的背景.3.1. 数据分布在“分布”一词的多个现有定义这些定义的一个重要部分是,某物被放置或散布在另一物之上或之中;后者可能是,特别是,空间,时间或一群人。我们将在这些定义的基础上生成一个更具体的数据分布或数据分布的定义。数据分布涉及至少两个数据组件。例如,在VASTChallenge 2011数据集中(Grinstein et al. ,2011年),描述微博消息的数据记录包括以下组成部分:微博用户(由标识符表示)、发布消息的时间、发布消息的位置此外,为挑战提供的数据包括领土地图和每日天气记录,特别是风速和风向。此外,由于消息文本由单词组成,因此单词集也是数据的组成部分。为了解决这个问题,分析师需要考虑信息和单词在时间和空间上的分布,以及风参数在时间上的分布。这个例子表明,数据组件通常是由某些元素组成的集合:人,消息,单词,空间位置,时刻,风参数的特定值等。数据描述了不同组件的元素之间的连接。因此,每个消息文本都与文本中使用的特定人、时间、空间位置和单词相关联。每个单词都与使用它的信息相关联。每个时间点都与当时发布的消息相关联,每个空间位置都与从它发布的消息相关联,等等。数据分布由数据的两个或多个结构组件数据组件是相同种类的项目的集合,例如,一组实体、或属性值、或类别标签、或对地点或时间的引用。数据组件通常由数据库记录的字段或表列表示。分布中涉及的数据组件每当我们谈论分布时,我们都会说一个组件(或一组组件)分布在另一个组件上。这意味着第二个组件被视为第一个组件的一种基础。一般来说,分布的基础不一定是空间、时间或一群人,如前所述在字典的定义中,它可以由任何性质的元素组成(这些元素也可以是由几个简单元素组成的复合元素)。例如,我们可以考虑单词在消息上的分布,其中基础是消息的集合。当我们考虑信息在空间和时间上的分布时,基础由空间位置和时刻组成的复合元素组成分配的概念假定基地的要素被视为一种可以被占据的位置通过另一个部件的元件,或者作为另一个部件的元件的保持器。因此,空间和时间为消息提供了位置,消息可以被视为单词的位置,或者作为单词的持有者,人们可以被视为持有者(即,业主)在它们产生的信息中,时间单位可以被看作是风参数等特定值的持有者。我们将使用分布的覆盖这一术语来指与基底中的位置或持有者相连接的一组元素:在隐喻意义上,这组元素覆盖在基底上。与基础一样,覆盖层可以由任何类型的元素组成,包括复合元素。覆盖的元素是与基础不同的某个数据组件的元素的实例(出现)。该数据分量可以被称为覆盖的域让我们通过图1所示的简单例子来说明分布、基础和覆盖的概念。1.一、在井字游戏中,玩家在一个3 × 3的网格(左上角)上创建十字和零(X和O符号)的分布。在这里,基础是网格;单元是网格的元素,其可以用作符号的位置。覆盖是放置在网格中特定位置的符号X和O的实例集。覆盖的域是符号集合{X,O}。图的右上部分。图1展示了一组苹果上在这里,苹果是基础N. 安德里延科湾Andrienko,S.Miksch等人视觉信息学5(2021)2327=--|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}=Fig. 1. 分 布 的简单例子。左上角:符号分布在井字游戏中的格子右上:一组苹果上的颜色分布。下图:月球形状随时间的分布的分布。苹果是不同颜色实例的持有者,它们构成分布的覆盖覆盖的域是颜色集合{黄色、橙色、红色、绿色}。图的下部。图1显示了月球形状随时间的分布。在这里,时间是分布的基础,覆盖图由以特定方式排列的不同形状的月亮组成图中的插图。% 1未显示完整分布。完全分布的基数包括图中所示日期之间的所有中间日期,并延伸到所示时期以外的过去和未来。完整分布的覆盖包括图片中所示形状之间的所有中间形状覆盖的范围是月球可能具有的所有独特形状的集合分析数据分布是为了了解数据组成部分之间的关系,例如,月球形状与时间进程之间的关系。哪些数据组件应该被视为基础,哪些数据组件应该被视为覆盖,这主要是一个常识或方便的问题。因此,将时间视为月亮形状的基础比将一组可能的月亮形状视为不同日期和时间的基础更自然把井字游戏中的网格作为X和O符号的基础也比反过来更自然。由于苹果可以很容易地被视为颜色的持有者,因此将苹果集合视为颜色的基础是自然的,而将颜色集合视为苹果的基础则不太自然。图中的例子。1说明了一个分布的基础的一个重要性质:它由唯一的元素组成。这意味着,当选择数据组件作为分发基础时,该基础由该组件的每个元素的单个实例组成。覆盖层由来自另一个数据组件的连接到基础的每个元素的元素形成。可能发生的是,另一部件的相同元件连接到基座的多于一个元件。因此,覆盖图将包含同一元素的多个实例:多个十字和零符号,同一颜色的多个实例,同一月亮形状的重复出现等。也可能发生两个或更多个覆盖元素连接到基础的同一个元素,因为两种颜色可以连接到同一个苹果。井字格示例表明,基底的一些元素可能没有覆盖层的连接元素。让我们在下面的数据分布定义中总结我们的讨论定义1. 设SB和SB是两个集合,SB中的元素被看作SB中元素的位置或保持子。在SB上的分布是所有连接的集合,在数据中指定的SB的元素和SB的元素,即,D(S/B)(eB,e)eBSB,eS.集合SB称为分布的基。在D(SB/SB)中出现的来自SB的元素的所有实例的集合,这些实例与 SB称为分布的覆盖,集合SB是覆盖的域。S的元素相对于它们在覆盖中出现的实例被称为原型。我们将用符号B或B(D)表示分布的基,用符号或(D)表示覆盖。根据定义1,BS B,而S B不相同如S。S可以包含S的同一元素的多个实例,而S的一些其他元素可能在S中不存在。由于每个覆盖元素在覆盖域中具有其原型,可以说覆盖元素通过实例化关系链接到它们的原型类型。我们将把这些实例化关系的集合称为覆盖的组合。定义2. 数据分布的覆盖的组成是覆盖的元素与覆盖的域中的它们的原型之间的实例化关系的集合。覆盖组成可以根据覆盖域的每个元素的实例的数量来描述因此,井字游戏中的覆盖组合物(图1A的左上方)。1)由符号X的四个实例和三个实例组成符号O。彩色苹果组中的覆盖物组成(图1B的右上角)。1)包括黄色的五个实例、红色的三个实例、橙色的两个实例和绿色的一个实例。在月亮形状的分布中(图1,底部),覆盖构图包括“新月”形状的两个实例暗盘)和彼此形状的一个实例3.2. 组成部分内的关系在任何数据组件中,元素可以通过关系链接。有两大类关系:定性和度量。定性关系可以由逻辑陈述(谓词)表示,说明关系是否存在。例如等价关系、排序关系、相邻关系或亲属关系.度量关系可以用数值表示。例如,距离、相似性或通信强度的关系一些现有的关系可能是内在的,数据组件的本质。 例如,在时间分量的元素之间存在排序和距离的内在关系,即,时间单位之间的距离和空间分量的元素之间的距离的内在关系,即,空间位置。内在关系通常不会显式地表示在数据中,但是,当需要时,可以以众所周知的方式获得显式表示。非内在的定性关系,如亲属关系,需要在数据中明确表示。非内在的度量关系,如相似性,需要通过适当的方法计算定义3. 数据组件的元素之间存在的所有关系的集合称为该数据组件的组织例如,井字游戏中的网格单元集合的组织包括相邻、水平排序和垂直排序的定性关系。该组符号{X,O}除了恒等式之外没有任何关系:X=X,O=O,X O。图中右上角的苹果和颜色。 1它们的元素之间也只有同一性关系。图中日期的组织。 1、底部,包括N. 安德里延科湾Andrienko,S.Miksch等人视觉信息学5(2021)2328线性排序的定性关系和距离的度量关系(即,时间差)之间的元素。月亮形状的组织包括月亮可见部分的大小之间的顺序和距离的关系,以及月亮圆盘中可见部分的侧面(右侧或左侧)之间的定义3涉及Bertin每个级别都暗示了数据元素之间的特定类型的关系:定性级别没有排序和度量关系,有序级别有排序关系但没有度量关系,定量级别暗示了排序和度量关系的存在。然而,可能存在具有度量关系但没有排序的组件(例如,2D或3D空间),并且可能存在具有部分排序关系的组件(例如,人与人之间的祖先因此,我们引入了一个更一般的定义,组织作为一组所有现有的元素之间的关系。由于不同类型的关系的所有可能组合不能被安排成一个单一的层次序列,我们使用术语我们的定义也对应于Kindlmann和Scheidegger(2014)使用的术语3.3. 数据分布在数据分布中,覆盖的元素根据基础的组织进行排列。例如,井字游戏中X和O符号的实例根据它们所处的网格单元之间的相邻关系、水平排序和垂直排序进行排列。图中的颜色实例。1,右上角,是由持有它们的苹果之间的身份关系安排的:两个颜色实例要么有一个共同的持有者,要么有不同的持有者。图1的下部中的月亮形状的实例通过它们的时间位置之间的排序和距离关系排列成一行。让我们介绍覆盖布置的正式定义:定义4.数据分布的覆盖的元素之间的排列关系是基础的对应元素之间的关系。数据分布的覆盖的排列是覆盖元素之间的排列关系的集合。除了布置关系之外,覆盖元素还通过与覆盖域S的组织有关的关系来链接,即,通过覆盖元素的原型之间存在的关系。设b1和b2是分布基B的两个元素,设o1和o2是分别连接到b1和b2的覆盖层o1和o2之间的域相关关系可以被视为覆盖在位置或保持器b1和位置或保持器b2之间变化的方式。重要的是要注意,o1和o2之间的域相关关系是结合它们在基b1中的位置来考虑的,b2以及这些位置之间存在的关系,或者换句话说,与o1和o2之间的布置关系有关(定义4)。定义5. 分布的覆盖相对于基底的变化包括覆盖元素之间的域相关关系(即,属于覆盖域的组织的关系)结合覆盖元素之间的布置关系来考虑。通常,基本元素可以包含或保持来自覆盖域S的多个元素或不包含这样的元素。覆盖层相对于基底的变化包括覆盖层域的元素的任何两个实例之间的关系,其具有不同的保持器或相同的保持器。具有不同或相同保持器的关系是覆盖布置的一部分;因此,定义5是适用的。为了处理基本元素没有连接的覆盖元素的情况,我们将假设覆盖域包括一个特殊的空元素,表示没有任何其他元素。null元素与其他元素没有任何关系,除了与任何其他元素不相同数据分布的覆盖的组成、排列和变化将被称为分布的方面。数据分布的概念及其方面在图1中示意性地示出。 二、让我们为分布的方面引入一个正式的符号,这将有助于我们澄清它们是由什么组成的以及它们如何相互关联。我们已经使用符号B来表示覆盖的分布基础和分布范围。符号C表示覆盖层的组成(定义2)。的覆盖组成由覆盖域元素到基本元素的现有连接确定(定义1)。为了反映这种依赖性,我们将使用表达式C(B)。符号Or表示集合的组织(定义3)。表达式OrB指的是基底的组织,OrB指的是覆盖层的组织,两者是相同的。作为覆盖域的组织。符号Ar表示覆盖元件根据基底的组织的布置(定义4)。 Ar是由OrB施加的,即它是OrB的函数。 为了强调这种依赖性,我们将覆盖层的排列表示为Ar(或B)。在井字格的例子中,Ar(或B)由十字和零符号在网格单元中的特定位置组成。对于苹果来说,Ar色(或B)由每个苹果的特定颜色组成,包括单色和双色变体。对于月亮形状,Ar(或B)是月亮形状实例的特定序列,对应于日期的序列覆盖的变化,即,排列(定义5)内的覆盖元素之间的关系可以用符号Var_n(Ar_n(Or_B),Or_n)表示这意味着变化存在于特定布置Ar_B(或B)内,并且涉及来自覆盖组织Ar_B的关系。在井字游戏的例子中,变化是指单元格内容随着网格的遍历而改变。在苹果的例子中,变化包括苹果在颜色方面的相似性和差异。在具有月亮形状的示例中,变化是月亮形状沿着时间从一天到一天变化也就是说,序列中的每个形状与前一个形状的关系正式的符号反映了分布的基础和覆盖的不对称角色:基础被认为是一个独立的组件,而覆盖被组成和安排根据基地。合成C(B)是实例化连接到基本元素的实例与其原型之间的关系。排列Ar(或B)是由这些实例的位置或持有者之间的碱基特异性关系构成的反过来,叠加Var_(A_(或B),或B_)的变化取决于布置,并且通过布置取决于基底的组织。使用这些概念,我们可以将分析分布的一般任务公式化如下:给定数据分布D(S_B/S_B),计算覆盖的组成、布置和变化,即,C(B)、Ar(或B)和Var(Ar(或B)或Var)。N. 安德里延科湾Andrienko,S.Miksch等人视觉信息学5(2021)2329图二. 数据分布及其各方面定义的示意图。颜色区分的组成(紫色),安排(黑色)和变化(红色)的覆盖。标签D2至D5是指从2至5的定义4. 模式4.1. 分布中的模式通常,分析分布的目的是理解两个或更多个数据分量通常如何相关,即,作为整体。例如,在图1中的井字格上的符号的分布。1,左上角,将被检查,以查看是否存在相同符号的三个实例的线性排列,而不管符号的具体位置一组苹果的颜色分布(图)。1,右上角)可以用来估计找到不同颜色苹果的概率,而不是用来确定每个特定苹果的颜色。月球形状的时间分布(图1,下)将被研究,以了解月球形状如何随时间变化,无论特定的日期。数据指定组件的各个元素之间的连接因此,我们称这些联系为基本联系。相反,作为整体的组成部分之间的关系将被称为概要。天气关系不仅仅是基本联系的组合,而是具有更高层次的概括性。理解基于基本联系的天气关系需要抽象,这意味着多个基本联系是统一的,并被考虑在一起。基本连接如何统一?是什么力量把它们粘合在一起?它是数据组件中元素之间的关系,即,属于组件内部组织的关系。让我们用图1中的简单例子来说明这一说法。1.一、在左上角,井字格的组织(即,单元之间的空间关系的集合)允许我们将各个单元联合成水平线、垂直线和对角线。同时,符号实例之间的等价关系允许我们将同一符号的多个实例合并为一个组。单元格之间和符号实例之间的关系的组合允许我们将具有等效符号实例的单元格组视为特定形状。在苹果的集合中,苹果之间只有身份关系,即,每一个苹果都是与众不同的。这并不意味着统一的机会。然而,颜色实例可以根据颜色实例来分组等价关系,并且这些组可以根据它们的大小来表征(即,颜色频率)和交叉点。在我们的例子中,黄色的实例组与红色和橙色的实例组相交。在Fig.的底部。 1、时间步之间的顺序关系将所有时间步统一到一条时间线上,同时将不同的月亮形状排列成一个序列。然后,序列中两个相邻形状之间的关系可以被看作是从较早的形状到较晚的形状的变化。如果类似的变化连续发生,它们可以统一起来,一起认为是一种趋势。因此,如果我们用整个月盘的可见部分来描述还可以更详细地考虑变化的连续性,例如,通过考虑月亮圆盘的哪一侧(右或左)发生变化。在所有这些示例中,我们使用数据组件的元素之间的关系我们将统一所产生的对象描述为形状、群体或趋势,而没有提及基本连接;因此,我们执行了抽象操作。根据一般的理解,我们所得到的对象是数据中存在的各种模式的例子。因此,数据中的模式通常是数据组件的元素之间的多个连接和关系的组合,使得存在允许将所有这些连接和关系一起视为单个对象的抽象操作。考虑到将一个数据组件视为数据分布的基础而将其他数据组件视为覆盖域的主要可能性,我们可以使用前面介绍的概念来制定数据分布中模式的定义定义6. 数据分布中的模式是基础上的覆盖的组成、布置或变化中所涉及的关系的子集,使得存在允许将该子集视为统一整体的抽象操作。N. 安德里延科湾Andrienko,S.Miksch等人视觉信息学5(2021)2330⊆⊆我们强调模式是由关系而不是元素组成的。因此,相同的模式(即,关系的相同例如,“三个相等的符号紧挨着另一个”的模式可能在一个井字游戏中出现多次,它可能连接十字或零。此外,同一个模式可能出现在不同的数据集,甚至不同性质的数据。因此,“三个相等的符号紧挨着另一个”的模式由图案连接的来自基底和来自覆盖的元素组将分别被称为图案的基底和覆盖定义7. 模式的基础是来自总体分布基础的元素的子集,其关系和连接有助于模式。图案的覆盖是来自连接到图案的基底的分布的我们将使用符号β和ω分别表示图案的基底和覆盖层;B,ω- 是的因此,委员会认为,表达式Cω(β)、Arω(Orβ)和Varω(Arω(Orβ),Orω)表示图案的重叠的组成、排列和变化,它们是图案的不同方面定义6意味着模式客观地存在于数据中。模式不是观察或计算的产物,它是实际存在于数据中的关系和连接的组合。观察或计算可以涉及抽象操作,将这些连接和关系结合在一起并表示为统一的整体。因此,产品观察或计算的结果是一种模式的表示,而不是模式本身。可能有不同的表现形式:口头的,象征性的(例如,图案本身并不取决于表现形式和获得这种表现的方式我们将使用抽象模式这个术语来指代以任何形式和媒介对客观模式的整体表示:定义8. 抽象数据模式是将目标模式表示为统一的整体,而不管表示的形式、语言和媒介如何。抽象数据图案可以表示图案覆盖相对于基底的组成、布置和/或变化抽象模式的概念对应于2.5节中引用的数据挖掘中模式的定义。集合在我们的案例中,事实的所有联系和关系都是由客观模式中所涉及的要素然而,我们对抽象模式的定义不仅指某些语言中的显式表达式,而且指观察客观模式的人在头脑中抽象模式的定义也与Collins等人给出的定义一致。(2018年)。与之前的定义不同,定义8强调了由抽象模式表示的客观数据模式的存在。同样的目标模式可以用简短的表达式非常粗略地描述,或者用更长更复杂的表达式以更精细更准确的方式描述。可能的表达在抽象程度上有所不同:包含的细节越多,抽象程度越低。例如,表达两个或多个数据组件之间的概要关系可以通过找到客观存在的数据模式并通过抽象的数据模式表示它们来理解和表征这个过程称为模式发现。4.2. 图案类型模式可以首先根据数据分布方面进行分类,数据分布方面的关系涉及到模式,即,组成、安排和变化。基于这一原则,我们区分了构成模式、排列模式和变异模式。组成模式可以被抽象为覆盖域的元素的频率分布或概率分布(在统计意义上)组合模式涉及覆盖元素及其原型之间的实例化关系(定义2),不涉及任何关系从数据分布的基础组织。来自覆盖域或覆盖层的组织的关系可以在应用于合成的抽象操作中使用动作模式。例如,当覆盖域由在构造频率或概率分布时,通常涉及数值之间的排序和距离关系。在此基础上,组成模式可以进一步分为正常,指数,左或右偏,长尾,肥尾等。排列模式由基本元素之间的关系形成,如表达式Arω(或β)所表示的。可以根据基本元件之间的关系的类型来区分布置图案因此,通常被称为“空间簇”的类型一个著名的例子是1854年在伦敦爆发的霍乱,当时约翰·斯诺发现霍乱的死亡被安排在宽街周围的空间集群中。涉及基本元素之间的排序关系(诸如时间排序)的布置模式可以指的是沿着顺序的覆盖元素的密度(对应于连续基本元素的子序列的覆盖元素的高或低数量)和存在性(对应于连续基本元素的子序列的覆盖元素的高或低数量)。间隙(按顺序的位置,没有相应的覆盖元素)。当基是时间时,覆盖元素的密度通常被称为时间频率。变异模式涉及来自基部的组织(结合在覆盖布置中)和来自覆盖的组织两者的关系,如由表达Varω(Arω(Orβ),Orω)所表示的。因此,可能的类型可以根据基本元素之间和覆盖元素之间的关系类型来定义变化模式例如,被称为“趋势”的模式类型虽然存在表示特定类型的特征的特定术语,例如趋势、峰值、平台、波动、聚类、对齐等,现有术语的词汇表没有完全覆盖各种可能类型的模式。枚举和标记所有可能的模式类型可能是不可行的(也不是很有用)在分布的基础和覆盖中存在的各种关系在形成格局中的作用,似乎更合理。这将允许人们预测可能存在于给定数据分布中的模式类型,而不需要知道表示这些模式类型的术语。我们在第3节中介绍的概念模型为获得这样的理解创造了先决条件让我们简单描述一下不同关系的影响。覆盖元素的排列由分布(或B)的基础中存在的关系形成这种关系的类型包括(但不限于)以下内容:N. 安德里延科湾Andrienko,S.Miksch等人视觉信息学5(2021)2331同一性:覆盖元件可以根据具有不同或相同(相同)的保持器来布置。• 订购:– 线性:将叠加元素排列成序列。– 循环的(例如,时间):将覆盖元素布置成对应于连续周期连续连续性。距离:创建覆盖元素的排列,其中一个元素可以靠近或远离另一个元素。该布置可以根据覆盖元件的密度来表征:均匀或可变、高或低、存在簇和空区域等。邻域(邻接):将覆盖元素排列成连续的区域。方向(例如,空间):将覆盖元素的子集布置成类似于线性排序关系的序列。在基础上的覆盖变化涉及到在一个分布(或覆盖表述Var(Ar(或B),或B)表示变化还涉及覆盖元件之间的布置关系,该布置关系又由基底的组织确定。因此,覆盖中的域相关关系的影响需要与根据基础中的关系的覆盖元素的可能布置一起考虑,如在以下列表中所做的同一性或等同性:创建相同或等同的覆盖元件的组,其可以根据相对于基底的布置来表征,例如,连续的,分裂成部分的,或分散的。相同的覆盖元件可以以线性或循环布置重新出现,沿着某个方向对齐,在基部中具有接近的位置等。排序:可能(或可能不)与相对于基础的排列有关:沿着序列增加或减少元素顺序,具有较低或较高顺序元素的区域等。距离:将其自身实现
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功