基于度量学习的深度半监督文档聚类研究

72 浏览量更新于2024-01-16 收藏 967KB PDF 举报

度量学习

用户意图

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于度量学习的意图引导深度半监督文档聚类李京南a、b，林川a、b，刘伟，黄瑞章a、b，秦永斌a、b，陈艳萍a、ba贵州大学公共大数据国家重点实验室，贵州贵阳550025b贵州大学计算机科学与技术学院，贵州贵阳550025阿提奇莱因福奥文章历史记录：2022年9月3日收到2022年11月20日修订2022年12月16日接受2022年12月23日在线提供保留字：意图半监督聚类度量学习A B S T R A C T意图表达了用户对文档结构划分的偏好。意图引导的文档结构划分是文本挖掘领域的一项重要任务。为了实现这一目标，深度半监督文档聚类为个性化文档聚类提供了一个很有前途的解决方案。然而，传统的深度半监督聚类模型存在约束数量有限的问题，这对于意图引导的文档聚类来说是不够的。此外，文献通常在表述上有不同的侧重点，以反映不同的结构观点。本文提出了一种基于意图引导的深度半监督文档聚类模型（IGSC），该模型基于少量用户提供的监督信息划分文档结构。IGSC设计了一个深度度量学习网络来解决上述问题。深度度量学习器探索用户的全局意图并输出意图矩阵。从少量用户提供的成对约束中探索意图，并用于指导表示学习。此外，IGSC使用意图矩阵来指导聚类过程，得到最符合用户意图的聚类结果本文比较了IGSC与一些文档聚类模型在四个真实世界的文本数据集，即Reu-10 k，BBC，ACM和摘要。实验结果表明，IGSC显著提高了聚类性能，平均比基准模型的最佳结果高出7%。通过与其他模型的比较以及可视化结果的分析，验证了IGSC的有效性.©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍文本聚类是文本挖掘领域的一个研究热点。无监督文档聚类通过测量文档之间的相似性来划分结构（Bezdan等人，2021年）。它不能考虑文件本身的特征以外的因素。在实际应用中，不同的用户对文档结构划分的结果具有个性化的偏好，这就是意图。用户意图对文档结构划分的结果有影响*通讯作者：贵州大学，贵阳550025。电子邮件地址：clin@gzu.edu.cn（L. Chuan）。沙特国王大学负责同行审查根据新闻事件的主题，文件结构将分为或者，另一个用户用户希望在意图的指导下得到最准确的结构划分结果，这给非监督聚类带来了挑战半监督文档聚类（Wang等人，2016），其考虑少量用户提供的信息将未标记的文档分组到簇中，是可以应用于意图引导的文档结构划分问题的有前途的研究任务。虽然半监督文本聚类为意图引导的文本结构划分提供了一种可能的解决方案，但仍有许多问题需要解决。首先，用户提供的信息量是基于一小部分数据，不能反映用户的整体意图。任务中https://doi.org/10.1016/j.jksuci.2022.12.0101319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comL. 京南湖Chuan，H.Ruizhang等沙特国王大学学报417在半监督文档聚类中，只有少量的信息是以约束的形式来指导聚类过程的。有限的约束信息只反映了用户此外，用户提供的约束信息不必覆盖所有底层文档类别。用户提供的约束信息的不足使得半监督文本聚类难以学习用户意图指导的文本其次，在意图引导的文档结构划分任务中，文档表示的深度半监督聚类被广泛用于利用深度神经网络的强大功能来学习特征表示（Ren et al.，2019 b;Wang等人，2016年）。传统的深度半监督文档聚类以无监督的方式学习文档表示，仅考虑文档特征。然而，在不同的意图指导下，文档特征表示的侧重点是不同的。例如，在关于新闻事件的主题的分组意图下的文档相反，一般类别下的文献可能更强调“战争”、“游戏”和“病毒”等术语因此，基于用户提供的分组意图来调整文档表示的学习是有用的为了解决上述问题，我们提出了一种意图引导的深度半监督文档聚类模型，即IGSC，根据有限的用户提供的约束条件划分文档结构。在本文中，我们采用成对约束，这是常用的半监督文档聚类，传达用户成对约束包含两个文档之间的必须链接或不能链接的信息，分别指示两个文档必须在相同的聚类中或必须在不同的聚类中。深度度量学习可以通过距离比较来学习有用的语义表示（Hoffer and Ailon，2015）。IGSC使用它从有限的约束信息中学习全局意图，并获得符合用户意图的表示IGSC设计了一个意图引导的文档表示学习器，它通过一个由成对约束监督的深度度量学习网络工作。意图引导的文档表示学习器探索用户具体来说，它学习参数来调整文档表示，以便在用户意图的指导下，在特征空间中更近或更远地表示文档表示因此，在特定的inten- tions的指导下，IGSC可以学习的文档表示，最有利于聚类的特征空间。此外，深度度量学习网络学习用于指导聚类过程的意图矩阵。意图矩阵可以表达用户为了更好地划分个性化文档结构，IGSC模型建立了一个以意图矩阵为指导的半监督聚类模块根据目标意图矩阵和聚类结果设计目标损失量最后，意图引导的文档表示学习器和半监督聚类模块进行联合优化，得到最优的个性化文档结构。总结起来，我们是朝着结合的方向创新的在深度半监督文档聚类中的用户在本文中，我们提出了一个意图引导的深度半监督文档聚类模型，即IGSC。它能有效地实现文档即使约束信息有一点。IGSC构建了一个意图引导的学习者文档表示。它可以有效地根据不同的用户意图得到个性化的特征表示。意图引导学习器还可以学习意图矩阵，以解决信息约束较少的问题。IGSC提出了一种新的约束聚类过程监控策略。IGSC考虑用户的全局意图，使用意图矩阵指导聚类，得到意图引导的文档结构划分。本文的其余部分组织如下。第二节回顾了深度聚类和深度半监督聚类的相关工作在第三节中，我们提出了一个意图引导的深度半监督文档聚类模型，并详细介绍了它。第4节介绍了数据集、基线模型和实验设置。第5节给出并分析了实验结果。最后一部分对全文进行了总结，并对未来的工作进行了2. 相关工作本节介绍了与我们的研究相关的一系列关于深度聚类和深度半监督聚类的工作2.1. 深度聚类随着深度学习的快速发展（Schmidhuber，2015），神经网络的强大功能在许多领域做出了突出的贡献使用深度神经网络进行聚类许多研究人员研究了一些深度聚类模型（Caron等人， 2018年）。DEC使用自动编码器来学习潜在的特征表示，并通过最小化KL发散差来优化聚类目标（Xie等人， 2016年）。IDEC在DEC的基础上考虑到数据结构的保留，并使用聚类损失作为指导来操纵特征空间以分散数据点（Guo et al.，2017年）。最近，Eskandarnia等人（2022）提出了一种新的负载分析框架，使用深度聚类进行特征缩减。深度聚类可以联合优化深度表示学习和聚类，以提高性能。这些模型2.2. 深度半监督聚类结合传统半监督学习和深度学习的优势（Oliver et al.，2018;Schelling等人，2020），许多使用神经网络学习的特征表示进行半监督聚类的模型已经实现了更好的性能（Lin et al.， 2021年）。SNMF是一种基于对称非负矩阵分解的半监督深度聚类算法（Wu等人， 2018年）。它同时学习低维空间中的自适应邻居和聚类标签SDEC是在DEC的基础上改进的（Ren等人，2019年a）。提出了一种考虑先验信息的联合目标，同时学习特征和进行聚类分配。在这项工作的基础上，SDEC-AD首先应用深度嵌入的聚类算法来归纳语义框架，并为表示学习和表征框架成员提供上下文信息（Yong和Torrent，2020）。 CPAC是基于双重约束的聚类驱动的深度嵌入框架（Fogel等人，2019），用于非参数半监督深度聚类。●●●L. 京南湖Chuan，H.Ruizhang等沙特国王大学学报418该模型鼓励数据点对在潜在空间中输出相似为了解决现实世界数据集的稀疏或有偏监督信息的问题，（Willetts等人，2019）提出了一种基于DGM的半监督聚类的深度生成模型。SCDML通过在深度度量学习网络中采用三元组损失来学习更具区分性的特征表示并有效地利用标签信息（Li等人，2020年a）。该方法增强了度量学习网络的鲁棒性，提高了聚类的准确性 Auto-Embedder首次在聚类任务中应用传统分类器DNN，并通过半监督训练过程减少两者的损失（Ohi etal.，2020年）。Vadesc是一种半监督深度生成模型，具有随机梯度变分推理以揭示变量的潜在分布（Manduchi等人， 2021年）。然而，这些深度半监督聚类模型没有关注使用意图信息来监督特征表示的学习过程。并且它们不能学习全局意图以得到相应的聚类结果。因此，在深度半监督聚类领域仍然有许多问题需要解决。近年来，在对话系统和推荐系统领域中出现了一些将聚类算法和意图挖掘相结合的研究。Forman et al.（2015）开发了一种半监督方法来在交互式上下文中增量地发现相关集群，该方法可以发现与用户意图相关的大型未知主题Liu等人（2021）提出了一种基于无监督语义聚类和依赖性解析的无监督两阶段方法，该方法用于从领域中的未标记话语的集合中自动发现意图并生成有意义的意图标签。魏等人（2022）认为，从大量语料库中发现潜在意图对于构建对话服务非常重要。他们提出了深度对比半监督聚类（DCSC），旨在以半监督的方式对文本样本进行聚类，并向操作人员提供分组意图这些研究充分证明了意图在深度学习领域的重要性。然而，目前的研究只是基于意图的分类。并且意图实际上并不参与深度学习的过程因此，我们支付注意使用全局意图作为先验信息来引导数据向更好的方向收集的想法3. 模型3.1. 总体框架在本节中，我们介绍意图引导的深度半监督文档聚类模型，即IGSC。IGSC由两个主要模块组成，意图引导的文档表示学习器（IRL）模块和意图引导的文档聚类（IGC）模块。该模型的总体框架如图所示。1.一、IRL是一种深度半监督自动编码器，其目的是根据约束对学习包含用户全局意图信息的意图矩阵，如图 1，给定高维原始文档表示X，IRL可以学习自引导文档表示Z和意图引导文档表示H。IRL使用深度度量学习网络来学习全局意图矩阵。利用意向矩阵改变特征空间，使得特征空间中同类样本相互接近，不同类型样本相互远离。因此，IRL可以根据用户提供的有限约束来达到学习用户意图的目的IGC模块使用意图矩阵来指导聚类过程，以确保文档结构遵循用户显然，IRL和IGC都受到用户意图的监督通过上述模块的联合优化，可以得到最优的聚类在下面的小节中，我们将详细介绍该模型3.2. IRL模块为了达到在用户意图指导下划分文档结构的目的，学习意图指导下的文档表示是非常必要的。IRL模块中有两个部分。第一种是预训练，以通过预训练自动编码器来学习自引导文档表示（Chen等人， 2022年）。第二部分是意向性学习者即中介语，Fig. 1. IGSC的总体框架。约束对是监督信息。IRL模块是由约束对监督的意图引导的文档表示学习器，IL是意图学习器。IGC表示意图引导的聚类模块，IG是意图引导器。红色虚线箭头表示反向调谐。L. 京南湖Chuan，H.Ruizhang等沙特国王大学学报4191/4 f···g！2X2.ΣB¨¨b ¨.吉吉.Σð Þe1/4 f···geDDA：¼argminA0A-AF：A2s2直到A收敛¨LIL<$X<$zi-zj<$2BX<$¨¨n2o的其学习最佳权重参数以调整文档表示。同时，IL学习包含更多有意信息的矩阵。以这种方式，IRL模块获得意图引导的文档表示。3.2.1. 预训练文档是由单词和短语组成的句子、段落和章节的复杂结构。为了使计算机能够有效地处理真实文档，有必要找到一种理想的形式化文档表示。一方面，这种表述应真实反映文件的内容，例如主题、领域或特征。另IL通过计算特征空间中数据之间的距离来度量相似性来学习更好的意图引导表示。为了使约束对更好地引导数据在特征空间中进行分组，避免不同特征对相似度值贡献的差异，IL使用对称正定矩阵A2Rdz×dz对度量距离进行参数化（Bilenko et al. 2004），其中d z是维度运动发酵单胞A为每个特征分配一个权值，以表示它对满足一定约束关系的两个文档相似度的贡献。它将距离测量公式设置为Eq. 4来测量zi和zj之间的相似性。另一方面，它应该能够区分不同文档之间的结构从这个角度出发，我们将原始数据d A.zi;zjzi-zjA1/4q.ﬃﬃ ﬃzﬃ ﬃiﬃ ﬃ—ﬃﬃﬃﬃ ﬃzﬃ ﬃjﬃΣﬃ ﬃTﬃﬃAﬃﬃ ﬃ.ﬃﬃzﬃﬃﬃiﬃﬃ-ﬃﬃﬃﬃﬃzﬃﬃjﬃΣﬃﬃð4Þ指向一个可靠的特征空间，在该空间中，同一类的样本通过距离形成一个组。假设数据集的大小为n，则高维原始文档表示可以给出为X x1;x2;;xn .我们需要学习低维特征表示以避免重复性的诅咒（Liu和Özsu，2009）。直觉，自动编码器可用于特征维数降低。它其中A用于通过不同的权重来缩放每个维度。在为了学习具有全局意图的A，我们定义了一个公式，例如Eq。5、尽量减少。01A-log@zi-zjA5xi;xjxi;xj是一套具有自动编码功能的机型组合with a neural神经network网络.神经网络可以提取特征当量5可以等同于满足等式6，Eq.7、Eq。8 .第八条。更有效地包括数据内容。我们使用非线性映射fh：XZ来转换数据，其中h是神经网络的参数，Z是表示的自引导文档。最大电流Xxi;Xxj=1我-我ð6Þ站。最后，使用去噪自动编码器进行预训练，初始化后参与后续任务自动编码器的神经网络定义如下：s：t：ixi;xj--Zl/e.WlZl-1bl1A≥0<$8<$XblWlZl-1blð2Þ当量8表示d A z i;z j1/40并不意味着zi1/4zj。IL使用梯度下降和迭代投影的思想，通过执行以下算法优化学习A其中fe和fd是用于编码和解码的激活函数迭代（Chung和Gazzola，2021; Haji和Abdulazeez，2021）。ðl ÞðlÞðlÞðlÞ层分别。We ;Wd ;be B D 都是参数。X是解码层的输出，指示X的重构表示。将文档数据集X输入到预先训练好的自动编码器中，我们就可以得到自引导的文档表示Z，其中d是表示我们将这部分的损失函数记为LAE：重复重复A：¼argminA0nA0-AF：A02s1o无1A：¼AarAmAa？rLAE¼2nX-X023其中n是X的大小。k·k2是L2范数（Wei等人，2021年）。它的作用是在计算损失函数时尽可能保持平衡，即保证非零分量的个数尽可能稠密。直到收敛k· kF是Frobenius范数，定义为等式9 .第九条。3.2.2. 意向学习者.XX1个= 2个2用户以约束对的形式给出一些信息给出的约束对为kMkF¼MijI jð9Þ用户作为x;x，有三个值来表示不同的约束关系。当xi;xj≠1时，这意味着xi和xj必须被在的相同类即必须链接。当.xi;xj=1;xi和xj必须在不同的类中，即IL在mA上使用梯度上升步骤来优化Eq.六、然后，确保Eq. 7、Eq。8采用迭代投影法。具体地说，IL将重复地采取梯度步长A：<$AarAgA，然后重复地将A投影到集合中s¼答：Püz-z-61且s1/4 fA：A≥ 0 g。无法链接。当. xi;xj=0，xi和xj1xi;xjj-A2不确定。IL部分是由约束对监督的深度度量学习网络（Xing等人，2002; Li等人，2020年b）。它输出意图引导的文档表示，以保证相同类别的样本在特征空间中彼此接近，而不同类别的样本在特征空间中彼此远离。IL在约束监督下学习的A包含用户的全局意图信息。因此，我们可以通过Ep获得符合用户意图的意图引导的文档表示H h1;h2; ;hn。10个。hi¼A1= 2zi10H被用作聚类过程的输入一！L. 京南湖Chuan，H.Ruizhang等沙特国王大学学报4202¨ ¨IJf- g.ðÞ¼. Σ1hi-lj0=a我 J¨IJ¨qi j1/4。-a此外，IL可以学习意图矩阵R2Rn×n，其提供-.¨¨-a该算法能提供更多的用户组意图信息，并用于监督聚类过程。该算法首先利用H构造一个相似矩阵C2Rn×n.相似度矩阵是对称的在对角线上的元素都是1的矩阵。的值1hi-lj=aX22j0ð15Þcij的定义为Eq. 十一岁hi hTcijj11Þ其中a是训练独立参数，对于所有实验，我们让a= 1。Qij也可以理解为样本i属于聚类j，即软分配。2019 - 02-22：00：00通过L2范数归一化的C便于随后的计算。在计算相似性矩阵C之后，我们将阈值应用于相似性矩阵C以获得意图矩阵R。我们设置了两个为了获得更好的聚类结果，我们使用辅助目标分布强制模型从高置信度分配中学习从而细化模型参数和聚类中心。可靠的目标分布定义如下：q2=f阈值，即上限阈值和下限阈值，ðÞpij¼X2ð16Þ老-放下以确定约束关系。-up是样本对被判断为必须链接的最低值，和-down是样本对的最大值qij0=fj0j0其中fj^Piqij是软簇频率。判断为不能链接。通过观察实验期间的初步训练结果我们根据以下规则将相似性矩阵C中的每个元素转换为集合1; 0;1中的一个，以获得意图矩阵R，如等式（1）所示。12个。意图矩阵R用于指导聚类过程。81;c>up目标分布具有以下属性：提高集群的凝聚力，提高集群的纯度。以高置信度强化数据点的影响力。每个聚类中心对损失的贡献是标准的-防止极端情况扭曲隐藏的恐惧，>IJ--一种rij¼0;downcij-up<>：-1; cij-向下ð12Þ真正的空间3.3.2. IG：意图引导者对于IRL模块，我们将用户提供的约束对视为先验知识，并使用它来学习意图，指导表示学习过程并调整表示。综上所述，IRL的联合损失函数如下：损失IRL¼LAE1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000其中k1是平衡参数。我们迭代地训练IRL模块以最小化损失函数LossIRL。意图信息在此过程中不断调整表示学习，以获得符合用户全局偏好的意图引导的文档表示H3.3. IGC模块IGC模块有两个部分。第一种是对文档进行聚类以获得伪标签。第二种方法是用意图矩阵来指导聚类过程，并更新伪标签，即意图引导器（IG）。这两个部分共同为了获得意图指导下的聚类结果，IG在意图矩阵的监督下通过训练来提高Q。由于相似和不相似的样本在原始输入特征空间中是不可识别的，我们提出使用结构矩阵S和Q进行相似性度量。结构矩阵S是用预先训练的伪标签构建的，并且在训练期间不断更新。如果x i和x j的伪标号是相同的，即sij¼1，否则，sij¼-1。在这个阶段，我们通过定义损失函数来度量Q中的相似性，从而调整聚类的偏差过程使用意图矩阵R训练和引导聚类，使得必须链接的样本紧密地堆积在一起，而不能链接的样本尽可能远离彼此并且不会被划分为同一类别。通过建立约束反馈函数，计算意图矩阵R和结构矩阵S之间的损失，优化簇的分配。重复该过程，直到满足收敛标准用于测量半监督损失的函数，即LIG，如下所示：优化回调聚类过程是持续优化的，直到得到最佳的结果LIG¼XL. x;x=d.第四季第1集Rij¼1X.- 是的Σ17Þ3.3.1. 聚类设置聚类损失函数，以使分布以更高的信心。聚类损失定义为如下所示：Lclxi;xjdsij¼-1Rij¼-1dB1;B为真0;其他LKL<$KLPkQ<$XXpijlogijð14Þi jqij其中KL是量化两个概率分布P和Q之间的差异的方法（Johnson和Sinanovic，2001; Yang等人，2021），其用于测量当一个分布用于近似另一个分布我们使用学生t分布来测量第i个文档的意图引导文档表示hi和第j个聚类重心lj之间的相似性（Yang等人，2013年）。将Q1/4qij视为聚类结果分布，其中，L_ml是具有必须链路的约束损耗，其在xi和xj属于同一类。Lcl是具有不能链接的约束损失，其在xi和xj 它们的定义如下：L毫升。x i; x j = KL.pikqjKL.qijjpj18Lc l. xi;xjLn.KL.pikqjn.KL.qikpjj;rLne;rnmax0;r-e20●●●mlJL. 京南湖Chuan，H.Ruizhang等沙特国王大学学报421ðÞðþ Þn o231vW¼W-m@ Wþ1v其中，Q和P由等式定义。15、Eq。十六岁KL的计算公式如方程式所示。十四岁r是防止过拟合的调节因子。随着阈值的变化，负面的约束信息，很难分类，聚类类别的时间复杂性的当量15是n.记录，记录到总和起来，的复杂性的IGSC是O.nd2d2· · ·d2<$Mndz<$n K<$nlogn<$，其与整个训练过程，以避免过度拟合。该函数被设置为通过期望最大化方法迭代地细化聚类分配。该过程通过学习隐藏在意图矩阵中的相似关系来增强语义。随着损失函数的迭代，监督数据的软分配和目标分布也将在一定方向上得到优化。然后，我们重复上述两个步骤，直到集群分配在两次连续迭代中的变化小于tol%。最后，我们推断聚类结果Y^fy1;y2;·· ·;yng如下：数据集的大小和约束对的数量4. 实验4.1. 数据集为了研究不同模型的性能和通用性，我们在4个不同来源、不同写作风格的英文文档数据集上进行了实验1最大值qð21Þ● Reu-10k（Lewis等人， 2004年）：路透社包含约810000伊伊K其中yi是句子xi的聚类分配。综上所述，IGC的联合损失函数如下：损失IGC¼LKLk2LIG22其中k2是平衡参数。我们迭代地训练模型以最小化损失函数LossIGC。IGC在约束信息的指导下不断优化聚类，从而得到意图引导的文档结构。在IGSC模型中，IRL和IGC模块都需要优化。我们设计了一个联合目标函数来同时实现上述两个模块。联合目标函数是通过将每个部分的损失函数根据到一定的重量。通过优化联合训练目标对模型进行了优化。然后给出目标为：损失损失IRL损失IGC损失23亿美元根据等式13、Eq。22，可以看出，损失函数也可以表示如下：损失：1L在精调阶段，IGSC模型将特征表示模块IRL和聚类分配模块IGC集成在一个框架中。同时对两个分量进行优化，保证了反向调谐的可靠性和结果的一致性。自我训练完成减少损失。带有动量的SGD用于联合优化，将聚类中心lj和神经网络参数h（Goyal等人，2017年）。lj和W由等式更新。25、Eq. 26分别。M用类别树标记的英语新闻故事。我们使用四个根类别获得685071篇文章。然后，对10000个样本的随机子集（称为Reu-10 k）进行采样以进行比较。BBC：BBC是一个包含2225个文档的文档数据集。它来自BBC新闻网站，有五种类型的新闻主题。ACM（Bo等人，ACM是一个英文数据集，包含3025篇论文，涉及三个研究领域，即数据库、无线通信和数据挖掘。摘要（Bai等人，2021）：抽象数据集来自AMINER 4平台的摘要部分。我们从Abstract数据集中按三类选取了4306篇文章四个数据集的统计数据见表1。“K”是集群的数量。“最大值”和“最小值”4.2. 基线模型对于半监督文档聚类方法，我们将IGSC与11个模型进行了比较。这些基线可分为三类：基线聚类模型。K-means（K-M）和LDA是两种传统的聚类模型（MacQueen等人，1967; Blei等人，2003年）。这两种算法通常都是无监督的。无监督深度聚类模型。AE和VAE是两阶段深度聚类模型（Hinton和Salakhutdinov，2006年; Kingma和Welling，2013年），它们对通过深度学习获得的特征表示Decl¼l-cX@损失IGCð25Þj jm1/1@lj联合优化两个过程：特征表示和聚类分配（Xie等人， 2016年）。IDEC改进了DEC，在特征空间中保持数据的局部结构信息cXm .@LossIRL@LossIGC1/1@W（Guo等人， 2017年）。● 半监督聚类模型。我们将IGSC与5其中m是小批量样本的数量，c是SGD3.4.复杂性分析在这项工作中，我们将分析所提出的模型的复杂性。我们将dz设置为原始特征表示Z的维度，将AE中每层的数据维度表示为半监督聚类模型，其中4个是深度除了Cop-K均值（C-K）之外的半监督聚类模型（Wagstaff等人，2001年）。Cop-Kmeans基于成对约束的对称性和传递性执行半监督聚类。 SDEC是一种半监督深度聚类模型，它在DEC的基础上引入先验知识来优化深度学习过程（Ren et al.，2019年a）。CPAC使用神经网络进行嵌入（Fogel等人，d1;d2;. dv，以及n作为输入数据X的数目。我们假设M作为约束信息对的数量。对于AE，时间复杂度为0。nd2d2· · ·d2。对于IL，时间复杂度第1http://www.ai.mit.edu/projects/jmlr/papers/volume5/lewis04a2http://mlg.ucd.ie/datasets/bbc.html。3http://dl.acm.org/。是omndz。对于IGC模块，我们假设K为4https://www.aminer.cn/data。●●●●●ð26ÞL. 京南湖Chuan，H.Ruizhang等沙特国王大学学报422ð Þ ðÞFG表1数据集的摘要描述数据集源大小K最大最小REU-10K路透社1000044022895BBCBBC22255511386ACMACM302531061965摘要摘要43063162213272019），这是一个由成对约束驱动的深度非参数聚类模型。AutoEmbedder（Auto-E）将高维数据下采样为可聚类的嵌入点，并使用siamese网络架构来计算特征学习阶段中的成对约束损失，以便优化特征表示学习（Ohi等人，2020年）。 Vadesc也是一种新型的深度半监督概率方法，其采用深度生成模型来聚类和预测生存时间（Manduchi et al.，2021年）。本文只对IGSC的分簇性能进行了比较。4.3. 实验设置本实验的源代码是用Python3.7语言实验源代码基于Keras框架。实验在Windows 10机器上运行，具有2.90 GHz i7- 10700 f CPU和16 GB主内存。对于 IGSC ， IRL 的编码器网络被设置为全连接多层感知器（MLP），所有数据集的维度为d-500解码器网络是编码器的一面镜子。IGSC内部的激活函数采用ReLU非线性函数（Noci等人，2021年）。在计算意图矩阵R的过程中，我们将上阈值和下阈值分别设置为-up= 0.85和-down= 0.35。在先前的实验中，该参数的结果表明，在该参数下选择的矩阵可以保留尽可能多的意图信息，而无需拟合。在逐层训练期间，我们从零均值高斯分布中提取标准差为0.01的随机数作为初始化权重。在预训练之后，将每个部分的损失系数设置为k1=0.1，k2=0.8，所有数据集的批量大小为m至256。学习率c= 0.1和动量b=0.99的优化器SGD用于所有数据集。收敛阈值设置为tol%= 0.1%。为了衡量文档聚类方法的性能，我们使用标准的无监督评估指标和原型来评估并与其他算法进行比较。对于所有模型，本文将聚类数设为基本事实类别数，使用无监督聚类精度（ACC）（Li等人，2012），归一化互信息（NMI）（Núñez等人， 1996; Zhu 等人， 2021 ）和调整的 rand 指数（ ARI ）（Sundqvist等人， #20222;，以评估其绩效。对于所有指标，值越高表示性能越好。5. 结果5.1. 文档聚类结果我们比较了IGSC和其他模型之间的聚类性能。表2详细描述了实验结果对于每个指标，我们的方法IGSC在所有四个数据集中都取得了最佳结果IGSC的聚类结果优于一般的深度聚类模型，如AE（Hinton和Salakhutdinov，2006），VAE（Kingma和Welling，2013），DEC（Xie等人，2016）和IDEC（Guo et al.，2017年）。其原因在于它们没有考虑用户全局意图的影响，聚类过程中存在很多局限性。IGSC 的性能明显优于其他深度半监督聚类模型，如CPAC（Fogel et al.，2019）、自动嵌入器（Auto-E）（Ohi等人，2020年），和Vadesc（Manduchi例如，2021年）。实验结果表明，IGSC算法能够充分利用监督信息，提高深度半监督聚类的性能。特别是与CPAC（Fogel等人， 2019）和AutoEmbedder（Auto-E）（Ohi等人， 2020），显然IGSC可以利用度量学习的优势，从全局意图的角度优化深度文档特征表示学习过程，相比直接使用有限的监督信息优化深度学习过程，从而实现更好的聚类。这表明IGSC从约束信息中学习用户意图，并参与表示学习和聚类过程它反映了深度度量学习器的有效性同时验证了意图引导的文档表示更有利于发现文档结构的假设。在联合训练过程中，意图可以不断地指导表示学习和聚类过程，有助于得到更正确的聚类结果。5.2. 约束量为了探索约束信息量对IGSC的影响，我们设置了一系列的实验，约束对的数量为0; 200; 400; 600; 800; 1000。随着约束量的增加，模型性能图如图所示。二、表2在六个数据集上的聚类结果来测试我们的模型的稳定性和鲁棒性。用ACC、NMI和ARI（%）评价性能。勇敢的人看重最好的结果。数据集度量K-MLDAAEVAEDecIdecC-KSDECCPACAuto-E瓦德斯克IGSCReu-10kACC41.8355.4671.3456.2672.9275.4365.8470.8272.7971.9060.4082.67NMI31.5825.2749.8526.7651.5250.2842.5348.8848.3257.4947.6259.35Ari11.4526.0755.7117.4056.9551.2650.4953.9154.6153.2545.3763.11BBCACC51.5845.6653.6065.1468.6966.2369.1664.8053.1458.0068.5777.37NMI30.8823.9039.9354.0655.1354.2953.6551.0246.3252.2039.8965.03Ari20.5018.2519.9040.6750.1949.0949.7844.6041.0843.8138.2760.38ACMACC67.3154.3081.8369.7584.3385.1275.0285.5382.0981.4072.8588.15NMI32.4417.4249.3031.1654.5456.6148.7155.3756.4244.3949.5862.01Ari30.6018.2654.6432.5360.6462.1651.3961.4259.3950.7043.8969.82摘要ACC69.1880.1975.5681.1285.2583.8377.6390.7889.6291.1084.0194.46NMI38.2629.4745.2652.8257.1560.9865.1468.1466.6567.8759.9075.97Ari27.6936.4439.9551.3261.0262.0370.0374.0566.9774.8758.3782.05L. 京南湖Chuan，H.Ruizhang等沙特国王大学学报423图二. 在所有实验数据集上，选择不同数量约束的信息相关模型的聚类性能的迹图。随着约束信息量的增加，IGSC仔细分析后可以发现，当约束信息数从0增加到200时，模型性能的提高要比约束信息数从800增加到1000时要大。值得注意的是，上涨幅度越来越小。这是因为我们的模型在处理约束信息的过程中只提取了表达用户意图的表达受监督信息量的影响，但总体意图信息是有限的。当达到峰值时，监督信息不能提供更多的有意信息。如何挖掘更深层次的意图是未来值得研究的方向。此外，我们发现约束信息的性能改善效果是不一致的所有实验数据集。这是因为不同的数据集有其自身的特点，聚类过程中的意图表达也是多种多样的。5.3. 消融研究为了验证IGSC每个模块的各自贡献，我们对所有实验数据集进行了消融研究我们建立了IGSC的三种变体用于比较，结果如表3所示。‘‘KL” is the baseline model which ignores the 自引导文档表示直接用于聚类，并且不受监督。‘‘IL 我们使用意图引导的文档表示的聚类过程。聚类不再受意图矩阵的监督‘‘IG我们使用自引导文档表示来表3消融研究。勇敢的人看重最好的结果。聚类，同时使用由意图学习器获得的意图矩阵来监督聚类过程。结果表明，模型的各个部分对最终的性能都有一定的影响，证明了各个部分的有效性。我们讨论的贡献的监督信息的整体工作的基础上两个创新的部分IL和IG。可以看出，每个数据集上的度量分别用IL和IG显著改善。通过比较“IL + KL”和“KL”的结果“IG + KL”的结果反映了意图信息在聚类过程中的指导作用。在大多数数据集上，“IL + KL”的性能略高于“IG + KL”，这证明了意图对学习这些数据集的文档特征表示的贡献更大。在ACM数据集上，目的是在了解聚类过程中发挥更大的作用，这与其数据结构有关。综合而言，我们的模型结合了IL和IG的贡献。此外，可以发现组合的性能不是线性相加的结果。原因可能是这两部分中的意图信息的作用部分重叠或被抵消在优化过程中。5.4. 可视化为了更直观地感知和验证意图监督的文档特征表示学习和聚类的有效性，我们使用t-SNE绘制了文档特征表示和聚类结果的可视化，如图3所示（Laurens和Hinton，2008）。如图3所示，图3（a）描述了原始文档表示，图3（b）示出了自引导文档表示，以及图3（c）示出了自引导文档表示。图3（c）示出了意图引导的文档表示。可以直观地观察到，在意图学习器的作用下，文档的特征表示在与用户意图一致的方向上被调整意图引导的文档表示更有利于聚类过程。IGSC模型在一定程度上达到了预期效果，验证了模型的可行性。ARI61.0279.7176.8182.05中抽象数据集文档表示的可视化结果不同的特征空间。数据集度量KLIL + KLIG + KLIGSCReu-10kACC72.9277.3776.9182.67NMI51.5255.1853.8759.35Ari56.9559.0258.3463.11BBCACC68.6974.1173.5377.37NMI55.1363.5962.4465.03Ari50.1957.6456.1060.38ACMACC84.3385.0786.7688.15NMI54.5457.2459.9362.01Ari60.6461.7765.4869.82摘要ACC85.2591.7990.0494.46NMI57.1571.3668.7975.97L. 京南湖Ch

下载后可阅读完整内容，剩余1页未读，立即下载