基于结构的多变量网络分析任务,尽管它们都不支持我们识别接口
和边界节点的特定目标。
Nishikawa和Motter(2011)列出了28个有效可计算的网络属
性,其中大部分是光谱性质。他们使用这些属性将给定网络的节
点嵌入到28维空间中,并通过标准聚类技术以及对随机选择的二
维投影 进 行 交互式 视 觉检查 来 搜索所 得 点云中 的
Cheng
等人
(
2018
年,
2014
年)应用可视化来显示环面网络中的连接活动,
但不适用于一般网络。
Wong
等人 (
2006
)引入了另一个结构网络的特征,称为图签
名。对于每个节点,度为d的签名被定义为向量(
n
1
,
. . .
,
n
d
),其中
n
i
是距节点距离i处的节点的数量。通过使用广度优先搜
索,可以有效地计算图特征向量可以通过多维缩放嵌入到平面
中。在其他一些任务中,图形特征有助于找到接合点,但通常不
适合识别离群值和接口节点。
Wattenberg
(
2006
)介绍了用于分析多变量网络的网络图工
具。NodeGraph使用一种简单的基于网格的方法来关注节点属性
和连接之间的关系。它的交互方法来自于与电子表格透视表和在
线分析处理(OLAP)中的方法的类比。
多变量网络数据的多维性质建议使用标准的多维可视化技术,
如散点图 矩阵( SPLOM) 和平行坐标 图(PCP) 进行分析。
GraphDice
工具(
Bezerianoset al.
,
2010
年)是适应
SPLOM
的多
元网络数据的分析。在概览图矩阵中,示出了属性的每个成对组
合的一个节点-链路图,即,属性的散点图矩阵以及绘制的边。用
户可以选择一个图作为主图,然后将其放大。
GraphDice
工具扩
展了
ScatterDice
工具(
Elmqvist et al.
,
2008
)用于导航和探索多
维表,因此继承了其丰富的交互功能。
Viau
等人 (
2010
)更进一步调整标准多
-
多维可视化技术,用于分析多变量网络数据。他们引入了平行散
点图矩阵(P-SPLOM)作为散点图矩阵(SPLOM)和平行坐标
图(PCP)的统一,以及它们之间的平滑此外,他们建议使用混
合网络布局,即,属性驱动的布局与节点的力导向和手动布局的
混合,以便为探索用户提供更多的自由度和可定制性 Rendez
(
Cheng
和
Mueller
,
2015; Cheng
等人,,
2017
年)和数据上下
文映射(
Cheng
和
Mueller
,
2016
年)也是在彩色化的帮助下可视
化 多维 数据 的 重 要 技术 ( Cheng et al. , 2019 ) 或 其 他 增强
(Zhang et al. ,2022),但它们都不适合图形数据。
Vehlow
等人
2013
年,提出了一种简洁的可视化方法。
重叠的社区和社区分配在不同细节层次上的模糊性。 类似的目的
Wu
等人(
2015
)描述了一种交互式视觉摘要的方法 大型网络中的
社区。他们将每个社区视觉上编码为一个多边形。未明确指定给任
何社区的边界节点将在多边形之间单独绘制。然而,
Wu
和
Vehlow
都需要每个节点的先验社区信息,例如来自一些社区检测算法。在
我们的工作中,我们不依赖于这样的信息,但引入新的几何节点功
能的基础上,当地的邻居节点。然后,我们使用可视化分析方法来
探索这些功能,以确定接口和边界节点。
3.
初步
我们的工作是基于现有的局部邻域特征和相似性矩阵的网络。因
此,我们将在本节中对其进行审查。
3.1.
局部邻域特征
在这里,我们激励和描述的几何特征的建设,以识别接口和边
界节点的社交网络,大大提高了ad hoc功能,如节点度- grees。
但是请记住,这些功能并不完整,因为它们可以完全自动识别这
些节点。它们旨在交互式地用作过滤器,以减少网络中所有节点
的搜索空间
3.1.1.
输入数据
我们考虑一些相似性矩阵作为我们的基本数据结构。相似性矩
阵通常从诸如社会人口统计数据、在线活动数据、社交网络数据
等的异质数据源导出。本文不涉及从主要数据源计算相似性得
分,除了第3.2节,我们从社交网络数据中导出相似性矩阵。导出
相似性度量是一项标准的机器学习任务。一种常见的方法是将数
据点转化为特征向量,然后将相似度定义为特征向量之间的点积
以这种方式计算的相似性矩阵每个相似性得分是点积,也称为
Gram
矩阵。通常,
Gram
矩阵不是从特征向量显式计算的,而是
从数据的核函数隐式计算的(Schölkopf和Smola,2001)。在后
一种情况下,Gram矩阵也称为核矩阵。格拉姆矩阵不仅是对称
的,而且是半正定的。由于技术原因,我们还假设相似度矩阵是
对称的,并且是半正定的。
3.1.2.
从相似性
机器学习可以用于从编码在相似性矩阵中的数据导出结构可以
从相似性矩阵计算的流行结构是聚类,即,将数据划分成组,使
得组内相似性大而组内相似性低。在市场营销中,集群通常被称
为市场细分。
这里我们感兴趣的是二级结构: 是个模糊的概念。虽然将一
些数据点分配到一个集群对人类观察者来说是显而易见的,但对
其他人来说可能是相当可疑的我们的目标是识别聚类分配不那么
明显的数据点在市场营销方面,这些客户对某个细分市场的分配
可能不严格,因此是旨在促进不同细分市场的市场活动的主要目
标,例如品牌忠诚度不是很高的吸烟者或选举活动中的犹豫不决
的选民。
许 多 机 器 学 习 技 术 , 例如 线性 支持 向量 机( Schölkopf 和
Smola,2001年)或
k
-均值聚类,不适用于抽象的相似性矩阵,而
是适用于欧几里得点云。为了使这些技术适用于相似性矩阵,后
者通常被转换为欧几里得点云,使得转换后的欧几里得距离很好
地近似(不)相似性。这也是我们在这里想要追求的方法,即从
节点的欧几里得嵌入中导出支持识别聚类社交网络中的接口和边
界节点的几何特征