深度安全多视图聚类：降低视图增加导致聚类性能下降的风险

191 浏览量更新于2023-10-25 收藏 19.07MB PDF 举报

多视图聚类

降低风险

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

However, in real-world scenarios, multi-view data arecollected and constructed dynamically, which leads to an in-creasing number of views. For instance, a new view will beadded to the original multi-view dataset after a new descrip-tion is proposed. Thus, a natural problem is, will the clus-tering performance of the multi-view model degrade whenthe number of views increases? Intuitively, data of the in-creased view contain both semantic features and meaning-less noise. The former can provide complementary infor-mation that is beneficial for improving clustering perfor-mance. The latter, however, may bring the risk of clusteringperformance degradation. That is, more views do not nec-essarily guarantee to promote the clustering performance.Sometimes, on the contrary, conducting clustering on thedataset with more views may obtain worse results than thatwith fewer views. This performance degradation caused byview increase is observed in our experiments. As shown inFigure 1, the clustering performance of some MVC meth-ods degenerates when the number of views increases, whichverifies the fact that conducting clustering on datasets withmore views will not always be better. Besides, single-viewcan be regarded as a special variant of multi-view. Thus, anymulti-view model can be directly applied to obtain a single-view result on data of the new increased view. This resultmay perform better than the multi-view model, which hasbeen verified and discussed in [34]. Therefore, how to re-2020深度安全多视图聚类：降低视图增加导致聚类性能下降的风险0唐华艺 1 , 2 , 刘勇 1 , 2 �01 中国人民大学人工智能高灵学院，中国北京 2北京市大数据管理与分析方法重点实验室，中国北京0tangh4681@gmail.com,liuyonggsai@ruc.edu.cn0摘要0多视图聚类已被证明可以通过有效地挖掘多视图的互补信息来提升聚类性能。然而，我们观察到从具有更多视图的数据中学习并不保证比从具有较少视图的数据中学习获得更好的聚类性能。为了解决这个问题，我们提出了一个基于深度学习的通用框架，可以保证通过视图增加导致的性能下降的风险。具体而言，该模型通过自动选择特征来同时提取互补信息和丢弃无意义的噪声。这两个学习过程通过所提出的优化目标融合到一个统一的框架中。理论上，该模型的经验聚类风险不会高于视图增加之前的数据和新增的单个视图数据的学习。此外，基于分歧损失的模型的预期聚类风险不会高于具有高概率的风险。对基准数据集的全面实验表明了所提出的框架在实现安全多视图聚类方面的有效性和优越性。01. 引言0多视图数据在现实世界的应用场景中广泛存在，其中包含从不同来源收集的数据。例如，视频可以通过声音和视觉信息来表示，图像可以通过不同的描述符来表征。作为多视图学习中的一个重要主题，多视图聚类（MVC）旨在利用多视图数据中的互补信息将相似的实例划分到同一组中，将不相似的实例划分到不同的组中[35,46]。通过精心设计的学习机制，多视图聚类可以充分发现多视图数据中隐藏的潜在结构，并实现更好的聚类性能。0� 通讯作者。0图1. 聚类性能下降现象。2030为了降低视图增加导致的聚类性能下降的风险，应该从单视图和多视图两个方面考虑。尽管已经提出了许多可靠的多视图聚类方法[25, 28, 30,42]，但是解决视图增加导致的聚类性能下降的努力仍然有限。为此，本文旨在设计一个具有理论保证的新框架，为MVC方法提供一个下界性能保证，以便更多的视图不会损害聚类性能。我们首先给出了安全多视图聚类的正式和完整定义。然而，实现安全多视图聚类的主要挑战是所有的真实标签都不可用。因此，从经验和期望的聚类风险的角度，我们引入了经验和(ϵ, δ, δ n)-期望安全多视图聚类的定义。基于此，我们提出了一个通用的基于深度学习的多视图聚类框架。从聚类和表示学习的角度来看，模型需要从多视图数据中提取互补信息。同时，从安全性的角度来看，模型需要自动选择来自单个视图或多个视图的特征，以便如果新增的视图包含比有用的互补信息更多的无意义噪声，则丢弃从中学到的特征。这两个学习过程被视为一个统一的优化问题。从理论上讲，所提出的框架保证实现了经验安全的多视图聚类。此外，我们讨论了在基于散度损失的特殊情况下的提出框架，并证明它可以实现定义的(ϵ, δ, δ n)-期望安全多视图聚类。在基准数据集上的实验证明了所提出的学习机制实现安全多视图聚类的有效性。02. 相关工作0在本节中，我们简要介绍了本文研究中与我们的研究最相关的工作，包括多视角聚类和机器学习中的安全性研究。多视角聚类。现有的多视角聚类方法可以分为五类，包括基于多核学习的方法[23-26, 37]，基于谱的方法[11, 15, 47,48]，基于子空间学习的方法[1, 13, 33,42]，基于非负矩阵分解的方法[2, 41, 43,45]和基于深度学习的方法[35, 38-40,46]。在[37]中，作者提出了一种后期融合方法，其中加权基本分区被对齐以获得一致的分区。张等人[44]提出了一个统一的框架，其中二进制表示学习和二进制聚类是联合进行的。在[17]中，特定于视图的子空间表示被挖掘并集成到一个共同的潜在表示中，以从多个视图中提取互补和普查信息。0多视图。[30]中的工作通过连接图进行多视图聚类，以实现几何一致性和聚类分配一致性。[31]中引入了一种自适应学习机制来解决陷入局部最优的问题。周等人[46]提出了一个端到端的聚类框架，其中通过对抗学习和注意机制挖掘潜在特征。[35]采用对比学习来防止模型学习一组相等的融合权重，从而获得更准确的结果。刘等人[25]提出了一个后期融合框架，将聚类分配生成和共识分区矩阵的学习合并为一个统一的过程。[26]中的工作以局部方式计算核对齐。最近的工作集中在多视图学习的鲁棒性上。[28]中提出了一种新的权重学习模式，用于学习多个视图的适当权重。[10]中的作者设计了一个新的多视图分类框架，通过在证据级别上集成多个视图来提高分类可靠性。与这些现有方法不同，本文的目标是提出一个新的框架，可以降低视图增加导致的聚类性能的潜在风险，并在视图动态增加的情况下提供无更差聚类性能的保证。0机器学习中的安全性研究。安全性是机器学习中的一个重要主题，其重点是减少学习器的性能下降。一些先驱性的工作在半监督学习和弱监督学习中实现了安全性[8，19-21]。Li等人[21]提出了利用低密度分离器的安全半监督支持向量机。在[19]中，通过提出的投影算法，从多个半监督回归器中学习到了安全的预测。在[20]中提出了一个将多个弱监督学习器集成起来的通用集成学习框架。最近，一些工作开始关注实现深度学习模型的安全性。[8]中的作者提供了一种新颖的安全深度半监督学习框架，以解决由类别分布不匹配引起的性能下降问题。这些方法侧重于单视图数据上的分类和回归任务，不适用于没有地面真实标签的多视图数据。[34]是第一个在多视图聚类中实现安全性的工作，它通过解决一个最大最小优化问题，获得了不比给定的单视图方法差的安全聚类分配。此外，[9]中提出了一个安全多任务模型，保证在每个任务上不比其单任务组成部分差。与前述方法不同，我们的工作是保证新增视图不会降低数据之前的聚类性能和新增视图的数据。,(2)20403. 提出的方法0在本节中，我们首先给出本文中使用的符号。然后介绍了几个安全多视图聚类的定义，包括安全多视图聚类、经验安全多视图聚类和（ϵ，δ，δn）-期望安全多视图聚类。之后，我们提出了一个基于深度学习的通用多视图聚类框架，并在理论上证明了其实现安全性的机制。03.1. 符号0D = {x1i, ∙ ∙ ∙,xmi}ni=1表示从某个分布µ上独立同分布采样的具有m个视图的多视图数据。K是聚类的数量。Ai,:和A:,j分别表示矩阵A的第i行和第j列。�K2�0表示组合数。ˆL{1,∙∙∙,p−1}n和ˆLpn分别表示从视图增加之前的数据和新增视图的数据中学习的多视图模型的经验聚类风险。ˆLn表示所提出模型的经验聚类风险。ˆL{1,∙∙∙,p−1}、ˆLp和ˆL的期望分别表示为L{1, ∙∙∙,p−1}、Lp和L。03.2. 定义0当地面真实标签可用时，可以通过将聚类结果与地面真实标签进行比较来衡量模型实现安全性的能力（即不比从视图增加之前的数据和新增视图的数据中学习的模型差），这自然地导致了以下定义。0定义1（安全多视图聚类）。如果多视图模型的聚类性能不比在视图增加之前学习的数据和视图增加后的数据差，那么该模型被称为实现了安全多视图聚类。0然而，在学习过程中，由于地面真实标签不可用，模型的聚类性能是未知的，这使得通过定义1评估模型实现安全性的能力变得困难。根据经验风险最小化，模型应该最小化多视图数据上的经验聚类风险。基于这一观察，我们提出了以下定义来描述MVC的经验安全性。0定义2（经验安全多视图聚类）。当视图数量增加时，如果多视图模型的经验聚类风险不高于从视图增加之前的数据和增加的视图的数据学习的模型的经验聚类风险，则该模型被称为实现了经验安全多视图聚类。0此外，期望该模型在未见数据上实现更低的经验风险，这促使我们引入以下定义。0定义3（（ϵ，δ，δn）-期望安全多视图聚类）。对于给定的多视图数据集，当视图数量从p-1增加到p时，对于0 < δ <1，存在一个常数ϵ ≥ 0，使得L + ϵ ≤ min{L{1，∙∙∙，p-1}，Lp} +δn具有至少1-δ的概率成立，其中δn是与n相关的函数，满足当n → +∞时，δn =0成立，这个模型被称为实现了（ϵ，δ，δn）-期望安全多视图聚类。0根据定义3，一旦模型实现了（ϵ，δ，δn）-期望安全多视图聚类，其泛化能力不会比从视图增加之前的数据和新增视图的数据学习的模型差，具有很高的概率。也就是说，该模型保证在学习过程中未见的数据上保持安全性能，这在实际场景中更加适用。03.3. 深度安全多视图聚类的通用框架0一般来说，深度MVC模型由特征提取模块F和聚类分配模块C组成，其中F和C可以由深度神经网络实现。现在我们考虑视图数量从p-1增加到p的情况。令F{1，∙∙∙，p-1}和F{1，∙∙∙，p}分别表示从视图增加之前和之后的多视图模型的特征提取器。由于单视图可以被视为多视图的一种特殊变体，因此可以直接从新增视图的数据中训练这个多视图模型。这个单视图变体的特征提取器表示为Fp。为了简化表示，将Fp，F{1，∙∙∙，p-1}，F{1，∙∙∙，p}的集合表示为{F}p。为了实现多视图安全性，我们引入以下安全模块S来获得特征提取器输出的组合。0S({xv}pv=1; {F}p) = λ1Fp(xp) + λ2F{1，∙∙∙，p-1}({xv}p-1v=1)0+ λ3F{1，∙∙∙，p}({xv}pv=1)，(1)其中λ1，λ2，λ3 ∈[0，1]是由安全模块分配的可学习参数。然后，提出的深度安全多视图聚类框架的目标可以被表述为0min λ∈ Λ0�0min θ∈ Θ 1 n0i = 1 L(C(S({xvi}pv=1; {F}p)))0�0其中C和L分别表示聚类分配模块和聚类损失。Θ和Λ分别包括{Fp，F{1，∙∙∙，p-1}，F{1，∙∙∙，p}，C}和S中的所有参数。为了实现多视图安全性，在λ上添加了约束λ1 + λ2 + λ3= 1。请注意，在此约束下，当λ2 =1时，所提出的框架退化为仅利用前p-1个视图且第p个视图被丢弃的多视图模型。这对应于以下情况：,(5)2050新增的视图xp包含比有用的补充信息更多的噪声。因此，所提出的框架应该丢弃新增的视图，以消除其对聚类性能的负面影响。此外，当λ1 =1时，我们提出的框架恰好是单视图变体。在这种情况下，新增的视图包含比噪声更多的有用的补充信息。因此，直接在新增的视图上进行聚类可能会获得更好的性能。此外，我们分析了所提出框架的经验风险并得到以下定理。0定理 1.设模型从新增视图的数据中学习的经验聚类风险为。0ˆ L p n = 1表示从 1 n 的求和0i =1 L ( C ( F p ( x p i ))) . (3) 表示从1 到 n 的求和。0模型从视图增加前的数据中学习的经验聚类损失记为。0ˆ L { 1 , ∙∙∙ ,p − 1 } n = 1表示从 1 到 p-1 的求和0i =1 L ( C ( F { 1 , ∙∙∙ ,p − 1 } ( { x v i } p− 1 v =1 ))) . (4) 表示从 1 到 n 的求和。0令 ˆ L � n 为方程 ( 2 ) 中优化问题的最优值。我们可以证明 ˆL � n 不高于 ˆ L { 1 , ∙∙∙ ,p − 1 } n 和 ˆ L p n 的最小值，即ˆ L � n ≤ min { ˆ L { 1 , ∙∙∙ ,p − 1 } n , ˆ L p n } 。0本文中定理的证明由于空间限制在附录中提供。定理 1表明我们的框架可以实现经验安全多视图聚类，即定义 2。也就是说，通过所提出的框架训练的多视图模型的经验风险不高于从视图增加前的数据和增加视图的数据中学习的模型的经验风险。03.4. 基于散度的安全多视图聚类0在第 3.3节中，我们提出了一个通用的深度学习聚类方法的框架，以实现多视图安全性，可以通过替换特定的深度神经网络和聚类损失来扩展到任何基于深度学习的聚类方法。为了验证我们框架的有效性，我们将聚类损失 L 设置为广泛使用的基于散度的损失 [ 12 , 35 , 46]。此外，{F p , F { 1 , ∙∙∙ ,p − 1 } , F { 1 , ∙∙∙ ,p } , C} 的架构被设置为 [ 35 , 46 ]中采用的版本。在这个架构中，安全模块的输出（即方程 ( 1)）被馈送到一个全连接层，以获得隐藏特征 h ( p ) 。然后，聚类分配 y ( p )0通过另一个全连接层和一个 Softmax层从隐藏特征中获取聚类分配。通过这种方式，我们可以获得所提出的框架的一个示例，称为 Deep Safe Multi-view Clustering(DSMVC)。根据方程 ( 2 )，所提出的 DSMVC 的目标是。0所提出的 DSMVC 的目标可以被表述为。0空。0min θ ∈ Θ L ( λ , θ) 表示最小化 θ 在 Θ中的 L ( λ , θ )。0空。0L ( λ , θ ) = 1表示从 1 到 K的求和。0K − 1表示0空。0Y ( p ) � : ,l K ( p ) Y ( p ) :,s 行0Y ( p ) � : ,l K ( p ) Y ( p ) : ,s 表示矩阵 Y ( p ) 的第 l行到第 s 行。0+ 1表示加 1。0n表示0j>i Y ( p ) i, : Y ( p ) � j, :表示矩阵 Y ( p ) 的第 i行和矩阵 Y ( p ) 的第 j 列。0+ 1表示加0K − 1表示0空。0D ( p ) � : ,l K ( p ) D ( p ) :,s 0D ( p ) � : ,l K ( p ) D ( p ) : ,l D ( p )� : ,s K ( p ) D ( p ) : ,s 。0(6) Y ( p ) ∈ R n × K 表示分区矩阵， Y ( p ) i, : = y ( p )i 。0K ( p ) ∈ R n × n 是高斯核矩阵， K ( p ) ij =0exp( ∥ h ( p ) i − h ( p ) j ∥ 2 2 / (2 σ 2 )) . D ( p ) ∈ Rn × K 表示聚类分配和标准单纯形 e j ∈ R K之间的相似矩阵，即 D ( p ) ij = exp( ∥ y ( p ) i − e j ∥ 2 2) 。方程 ( 6 )中的第一项旨在使聚类分配属于一个簇的更紧凑，属于不同簇的更可分离。第二和第三项被优化为使预测正交且接近标准单纯形。总体学习过程如下所述。首先，从 F { 1 , ∙∙∙ ,p− 1 } 和 F { 1 , ∙∙∙ ,p }中获取视图增加前后的数据特征。从 F p中获取新增视图的特征。然后通过方程 ( 1 )计算隐藏特征，即 h p = S ( { x v } p v =1 ; {F} p )，并通过方程 ( 6 ) 计算目标函数 L ( λ , θ )。其次，对于特定的 λ值，通过梯度下降获得内部子问题的最优解 θ � ( λ ) =argmin θ ∈ Θ L ( λ , θ )。再次，通过梯度下降获得外部子问题的最优解 λ � =argmin λ ∈ Λ L ( λ , θ � ( λ ))。重复上述过程直至收敛。一方面，对于一组给定的安全系数 λ，优化可以被视为一个普通的深度多视图聚类过程，模型被训练以从多视图数据中提取互补信息。另一方面，安全系数被优化以使模型自动从特征提取器中选择适当的特征。因此，这个优化问题可以使模型通过自动选择特征来提取互补信息并丢弃无意义的噪声。0n^2 ≤ K^2 ≤0最近的研究[27]在推导核和近似k-means的更精确的泛化界限方面取得了重要突破。在[18]中，提出了一个统一的理论框架来分析聚类的泛化性。在本部分中，我们研究了所提出的DSMVC方法的泛化界限。设S：X^2 →R+是将给定的实例对映射到特定相似性的相似性函数。H = [H1,2, ..., HK-1,K, H1, ...,HK]表示一组分割函数Hl,s：X^2 → R+（l = 1, ..., K - 1，s = l + 1, ..., K）和Hl：X^2 →R+（l = 1, ...,K），将给定的实例对划分为不相交的簇。那么基于差异聚类框架的准则可以被表述为��+̸(7)K−1K�K�,(8)Remark 1. In the appendix, we show that the loss func-tion in Eq. (6) is an example of the clustering framework inEq. (7). Also, it is verified that hypothesis functions corre-sponding to this loss satisfy Assumption 1.U-process. In this way, the generalization of the proposeddeep safe multi-view clustering framework can be derived.Let Lp and L{1,··· ,p−1} be the expectation of Eq. (3) andEq. (4), respectively. The expectation of Eq. (6) is denotedas L. Based on Theorem 1 and Assumption 1, we obtain thefollowing theorem.2060l = 10ˆLn(S, H) = 10s = l +10K −1 ≤0K≤0K ≤0n ≤02 ≤n^20l = 101 ≤0i,j,i ≠ j Hl(xi, xj)。0l = 10L(gS,H) = E0s = l+ 1gS,Hl,s(x,0+ E0l = 1 gHl(x, x')0为了推导生成界限，我们引入以下假设。0备注1.在附录中，我们展示了公式（6）中的损失函数是公式（7）中聚类框架的一个例子。同时，验证了与该损失对应的假设函数满足假设1。0G := {gS,H | gS,H(x, x'), �x, x' ∈ X}。0U-过程。通过这种方式，可以推导出所提出的深度安全多视图聚类框架的泛化性。设Lp和L{1, ...,p-1}分别为公式（3）和公式（4）的期望。公式（6）的期望表示为L。基于定理1和假设1，我们得到以下定理。0假设1. 假设S，Hl,s（l = 1, ..., K - 1，s = l + 1, ...,K）和Hl（l = 1, ...,K）是对称的，即对于所有实例对（x，x'）∈X^2，有S(x,x') = S(x', x)，Hl,s(x, x') = Hl,s(x', x)，以及Hl(x, x') =Hl(x', x)。此外，我们假设假设函数gS,Hl,s(∙, ∙) ∈ [0, M]（l= 1, ..., K - 1，s = l + 1, ..., K）和gHl(∙, ∙) ∈ [0, M]（l = 1,..., K），其中M > 0是一个常数。0值得注意的是，在这个聚类框架下，准则是在一对实例上计算的，这导致了一个独立的次序度O(n^2)。因此，直接通过Rademacher复杂度分析泛化界限是不可行的。为了解决这个问题，受到[3, 4,18]的启发，非独立同分布求和形式通过利用排列转化为独立同分布求和形式。0定理2. 对于任意0 < δ < 1，以下不等式至少以概率1 -δ成立：0L + ϵ ≤ min{L{1,∙∙∙,p−1}, Lp} + c1√n + c20�0lo02n, (10)0其中 c1 和 c2 是依赖于 K 和 M 的常数。ϵ 的公式为 ϵ :=min{ˆLpn, ˆL{1,∙∙∙,p−1}n} − ˆL�n。0log(2/δ)/2n。可以看出，当 n → +∞ 时，δn = 0成立。根据定理1，ϵ ≥ 0 成立。另外，ϵ 在给定数据集 D上是一个常数。因此，定理2表明，高概率下，所提出的模型的期望聚类风险受到样本相关复杂度项和从视图增加之前的数据和新增视图的多视图模型的期望聚类风险之间的最小值的限制。也就是说，存在一个常数 ϵ，使得所提出的DSMVC的期望聚类风险至少比从视图增加之前的数据和增加的视图的模型的期望聚类风险低 ϵ，高概率下为 1 - δ。总之，所提出的DSMVC在经验和期望聚类风险方面在理论上保证实现了安全的多视图聚类，这可能是在所有地面真实标签不可用的情况下实现多视图安全性的最佳结果。04. 实验04.1. 实验设置0数据集。实验在几个基准多视图数据集上进行。Digit [5]包含2,000个实例，每个数据点由六个特征表示，包括轮廓相关性、字符形状的傅里叶系数、Karhunen-Love系数、形态特征、2×3窗口中的像素平均值和Zernike矩。Caltech[7]包含来自RGB图像的五个特征，包括WM、CENTRIST、LBP、GIST和HOG。我们从7个类别中选择了1,400个实例构建了一个多视图数据集。VOC（PASCAL VOC 2007）[6]包含来自20个不同类别的9,963个图像-文本对。根据[35,46]，选择了5,649个实例构建了一个双视图数据集，其中第一个视图和第二个视图分别是512个Gist特征和实例的399个词频统计。RGB-D（SentencesNYUv2）[14]是一个室内场景图像-文本数据集，其中图像由OC.2070数据集 Caltech-2V Caltech-3V Caltech-4V Caltech-5V0指标 ACC NMI 纯度 ACC NMI 纯度 ACC NMI 纯度 ACC NMI 纯度0SC [32] 0.567 0.441 0.604 0.625 0.525 0.661 0.692 0.596 0.754 0.772 0.738 0.814 BMVC [44] 0.596 0.445 0.612 0.514 0.462 0.5600.634 0.537 0.671 0.743 0.676 0.766 RMVC [34] 0.563 0.391 0.574 0.654 0.538 0.665 0.708 0.616 0.746 0.695 0.594 0.731MVC-LFA [37] 0.462 0.348 0.496 0.551 0.423 0.578 0.609 0.522 0.636 0.741 0.601 0.747 COMIC [30] 0.188 0.147 0.241 0.1550.134 0.231 0.451 0.573 0.811 0.156 0.111 0.211 EAMC [46] 0.419 0.256 0.427 0.389 0.214 0.398 0.296 0.165 0.310 0.318 0.1730.342 CoMVC [35] 0.466 0.426 0.527 0.541 0.504 0.584 0.568 0.569 0.646 0.700 0.687 0.729 COMPLETER [22] 0.505 0.509 0.5630.436 0.440 0.565 0.510 0.514 0.535 0.547 0.550 0.572 OPLFMVC [25] 0.503 0.368 0.520 0.558 0.401 0.567 0.784 0.691 0.8060.841 0.712 0.841 localized SimpleMKKM [26] 0.567 0.391 0.594 0.664 0.541 0.689 0.739 0.625 0.746 0.700 0.589 0.7430DSMVC（单一）0.564 0.440 0.595 0.598 0.544 0.628 0.656 0.589 0.656 0.871 0.774 0.871 DSMVC（基准）0.533 0.3920.533 0.622 0.555 0.660 0.767 0.724 0.784 0.841 0.741 0.841 DSMVC 0.603 0.526 0.619 0.745 0.674 0.745 0.8340.766 0.834 0.919 0.847 0.9190表1. 在Caltech数据集上增加视图的聚类性能比较。“XV”表示视图数量。0数据集 RGB-D VOC0指标 ACC NMI 纯度 ACC NMI 纯度0SC[32] 0.312 0.286 0.320 0.372 0.387 0.382 BMVC[44] 0.212 0.082 0.349 0.5760.535 0.668 RMVC[34] 0.320 0.293 0.348 0.254 0.192 0.294 MVC-LFA[37] 0.4150.329 0.516 0.503 0.451 0.576 COMIC[30] 0.264 0.131 0.313 0.164 0.435 0.644EAMC[46] 0.323 0.207 0.311 0.615 0.628 0.615 SiMVC[35] 0.396 0.356 0.3440.551 0.615 0.740 CoMVC[35] 0.413 0.405 0.413 0.613 0.641 0.735COMPLETER[22] 0.200 0.219 0.421 0.471 0.478 0.574 OPLFMVC[25] 0.416 0.3140.529 0.580 0.517 0.637 localized SimpleMKKM[26] 0.355 0.273 0.479 0.3800.303 0.477 DSMVC 0.431 0.416 0.602 0.601 0.683 0.7680表2. RGB-D和VOC上的聚类性能比较。0文本。实验中采用了[35,46]提供的版本，该版本提供了在ImageNet数据集上预训练的ResNet-50网络的视觉特征和在Wikipedia数据集上预训练的doc2vec模型的文本特征。Multi-MNIST是流行的MNIST数据集[16]的多视图版本，其两个视图分别是原始图像和带有突出边缘的增强版本[35,46]。基线方法。我们将DSMVC与几种最先进的多视图聚类方法进行比较，包括谱聚类（SC）[32]、BMVC[44]、RMVC[34]、MVC-LFA[37]、COMIC[30]、EAMC[46]、CoMVC[35]、COMPLETER[22]、OPLFMVC[25]和localizedSimpleMKKM[26]。对于谱聚类，将所有视图的拼接结果作为单视图聚类方法的结果进行报告。为了验证提出的DSMVC的有效性，我们报告了其两个版本的结果，包括单视图版本（表示为DSMVC（single））和普通版本（表示为DSMVC（vanilla））。DSMVC（single）是从新增视图的数据中训练的单视图模型，对应于方程（1）中λ2 = λ3 =0的情况。DSMVC（vanilla）是一种多视图模型，没有提出的安全模块，可以视为[35]中提出的SiMVC方法。0评估指标。聚类性能通过三个指标进行评估：聚类准确率（ACC）、归一化互信息（NMI）和纯度。对于所有这些指标，数值越高表示性能越好。实现细节。DSMVC使用PyTorch[29]实现。训练轮数为120。采用小批量梯度下降和Adam优化器[35,46]，并将方程（6）中的核宽度σ设置为每个小批量中语义特征之间的中位数配对距离的15%。尽管我们的理论分析考虑了从整体数据集构建核的情况，但我们通过实验证明，这对于学习模式的设计几乎没有影响。更详细的设置请参考附录。04.2. 实验结果0聚类性能比较。表1、表2、表3和表4分别展示了ACC、NMI和纯度的比较结果。DSMVC随着视图数量的增加展示了聚类结果，如图4所示。我们可以得出以下观察结果：(i)提出的DSMVC优于单视图变体和普通版本（即SiMVC[35]），这与我们在第3.3节和第3.5节的分析一致。可以观察到，当视图数量从4增加到5时，普通版本在Digit上的聚类性能下降，这验证了我们的观点，即更多的视图并不总是能够提高聚类性能。类似地，普通版本在Caltech-2V数据集上表现不如其单视图变体，这证明了MVC方法并不保证比单视图方法表现更好。因此，有必要同时考虑单视图和多视图方面以实现多视图安全性。此外，提出的DSMVC优于其他基线模型，包括传统和深度学习模型。2080数据集 Digit-2V Digit-3V Digit-4V Digit-5V Digit-6V0指标 ACC NMI 纯度 ACC NMI 纯度 ACC NMI 纯度 ACC NMI 纯度 ACC NMI 纯度0SC [32] 0.647 0.628 0.647 0.643 0.624 0.643 0.628 0.618 0.628 0.647 0.626 0.647 0.663 0.644 0.663 BMVC [44] 0.648 0.624 0.691 0.797 0.814 0.843 0.8480.827 0.848 0.812 0.835 0.859 0.814 0.859 0.862 RMVC [34] 0.894 0.820 0.894 0.905 0.826 0.905 0.912 0.831 0.912 0.919 0.843 0.919 0.966 0.923 0.966MVC-LFA [37] 0.797 0.680 0.797 0.658 0.650 0.693 0.782 0.702 0.782 0.787 0.723 0.787 0.646 0.672 0.663 COMIC [30] 0.685 0.757 0.997 0.766 0.844 0.8220.590 0.705 0.998 0.754 0.808 0.912 0.718 0.772 0.997 EAMC [46] 0.652 0.610 0.683 0.375 0.289 0.389 0.342 0.258 0.351 0.323 0.226 0.336 0.373 0.240 0.379CoMVC [35] 0.726 0.737 0.751 0.704 0.749 0.749 0.760 0.791 0.808 0.761 0.765 0.768 0.730 0.799 0.767 COMPLETER [22] 0.651 0.655 0.619 0.761 0.7630.729 0.622 0.626 0.580 0.652 0.656 0.627 0.792 0.794 0.797 OPLFMVC [25] 0.810 0.690 0.810 0.842 0.724 0.842 0.861 0.754 0.861 0.870 0.766 0.870 0.9130.829 0.906 localized SimpleMKKM [26] 0.883 0.815 0.885 0.879 0.814 0.886 0.890 0.824 0.896 0.914 0.841 0.915 0.956 0.907 0.9560DSMVC（单视图） 0.593 0.540 0.596 0.807 0.767 0.807 0.653 0.615 0.654 0.669 0.672 0.686 0.619 0.636 0.623 DSMVC（基准版本） 0.861 0.7910.861 0.878 0.857 0.878 0.894 0.846 0.894 0.863 0.837 0.863 0.969 0.938 0.969 DSMVC 0.912 0.867 0.912 0.927 0.879 0.927 0.953 0.911 0.9530.960 0.914 0.960 0.978 0.950 0.9780表3. 在Digit数据集上，随着视图增加的聚类性能比较。“XV”表示视图数。0在ACC和NMI方面，DSMVC相对于基于特征选择的方法具有更好的性能。原因是DSMVC可以通过自动从单一视图和多个视图中选择特征来消除数据中隐藏的噪声的影响。(ii)当视图数等于2时，所提出的DSMVC由一个多视图模型和两个单视图模型组成。如表2所示，在具有两个视图（即VOC和RGB-D）的多视图数据

下载后可阅读完整内容，剩余1页未读，立即下载