基于深度自动编码器的模糊c均值主题检测

18 浏览量更新于2023-12-06 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列13（2022）100124基于深度自动编码器的模糊c均值主题检测Hendri Murfi*，Natasha Rosaline，Nora Hariadi印度尼西亚大学数学系，Depok，16424，印度尼西亚A R T I C L EI N FO关键词：主题检测聚类深度学习自动编码器模糊c均值A B S T R A C T主题检测是从文本数据集合中确定主题的过程。其中一种主题检测方法是基于聚类的，它假设质心是主题。聚类方法的优点是可以处理具有否定表示的数据。因此，聚类方法允许与更广泛的代表性学习方法组合。在本文中，我们通过使用深度自动编码器和模糊c均值（称为“基于深度自动编码器的模糊c均值”）来采用深度学习进行主题检测。自动编码器的编码器执行低维表示学习。模糊c均值对低维表示进行分组以识别质心。自动编码器的解码器将质心转换回原始表示，以解释为主题。我们的模拟表明，基于深度自动编码器的模糊c均值提高了基于特征空间的模糊c均值的相干性得分，并且与领先的标准方法（即，非负矩阵分解或潜在Dirichlet分配。1. 介绍主题检测是一个过程，用于分析文本数据集合中的单词，以确定集合中的主题，它们如何相互关联，以及它们如何随时间变化。这些主题通常由一组单词来表示。词语的连贯性通常衡量主题的可解释性。标准的主题检测方法是非负矩阵分解（NMF）[1]，聚类[2]和潜在狄利克雷分配（LDA）[3]。在聚类方法中，聚类中心或质心被解释为一个主题。换句话说，聚类方法基于它们的主题相似性对文本数据进行分组。与其他两种方法不同，聚类可以处理具有否定表示的数据。因此，聚类方法允许与更广泛的表示学习或降维方法相结合。Nur'aini等人将k-means和潜在语义分析（LSA）结合起来进行主题检测[ 4 ]。首先，文本数据被转换到一个低维的特征空间使用奇异值分解（SVD）。接着，在特征空间上执行k-均值以提取主题，然后将主题转换回原始空间的非负子空间k-means方法将文本数据分为k个聚类，每个文本数据属于最近的质心。这意味着k-means方法假设每个文本数据只包含一个主题。该假设相对较弱，并且也不同于标准NMF和LDA，考虑到文本数据可能具有许多话题因此，软聚类被认为是一种可供选择的主题检测聚类方法。模糊C均值（FCM）是著名的软聚类方法之一[5]。使用FCM，文本数据可以属于多个聚类，并且可以具有多个主题。FCM和LSA的组合称为基于特征空间的模糊c均值（EFCM）被提出用于主题检测[6]。一般来说，一些模拟表明，EFCM给出的一致性分数介于LDA和NMF之间[7目前，深度学习是非结构化数据（如图像和文本）的主要机器学习方法[11，12]。深度学习已被广泛研究，以通过神经网络提取良好的数据表示[13]。在本文中，我们通过使用深度自动编码器（DAE）进行表示学习过程，采用深度学习来提高EFCM在主题预测问题上的性能。我们称这种主题检测方法为基于深度自动编码器的模糊c均值（DFCM）。首先，DAE的编码器执行低维表示学习。接下来，FCM对低维表示进行分组以识别质心。最后，DAE的解码器将质心转换回原始表示以提供主题。我们的模拟表明，DFCM提高了EFCM的一致性得分，与领先的标准方法，即，NMF或LDA。本文相关的工作和方法，即，FCM、DAE和DFCM。第4节描述了我们的模拟结果和讨论。最后，第5节给出了结果的一般结论。* 通讯作者。电子邮件地址：hendri@ui.ac.id（H.Murfi），娜塔莎sci.ui.ac.id。罗莎琳），诺拉.哈里迪@ sci.ui.ac.id（N。Hariadi）。https://doi.org/10.1016/j.array.2021.100124接收日期：2020年12月16日;接收日期：2021年8月30日;接受日期：2021年12月20日2021年12月23日在线提供2590-0056/© 2022作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.sciencedirect.com/journal/arrayH. Murfi等人阵列13（2022）1001242[客户端]n∑mk=1‖‖2∑⃦⃦∑n⃦⃦j=1k-qj 2型C2. 相关作品主题检测方法是用于从非结构化文档集合中发现主题或主题的算法。最近的一些出版物显示，越来越多的图书情报学研究人员使用主题检测来找到他们感兴趣的主题，然后检查相关的文档[14标准的主题检测方法是NMF [1，17，18]，聚类用于主题检测的DFCM。首先，我们回顾核心方法，即，FCM和DAE。3.1. 模糊c均值给定一个数据集的形式为一个单词一个文档矩阵XA=a1a2[2，19]和LDA [3，20与其他两种方法不同，聚类是一种c n数据分组的一般方法。此外，该方法还可以求出J=∑ ∑mf<$ak-qi<$2（1）处理正面和负面数据表示。因此，聚类方法更灵活地与表示学习或米伊克，奇伊i=1Cikk=1降维模糊聚类是最广泛使用的聚类方法之一，因为它在将数据分组到聚类中时是软的和灵活的[23]。Bezdek通过将模糊化器值m扩展到m> 1 [5]来开发FCM这扩展使得FCM成为k-均值的推广，这是一种硬聚类。FCM更适合于主题检测方法，因为它允许适应具有一个或多个主题的文档的条件，即通过找到最佳模糊化器值m。在大数据时代，高维数据的存在是FCM面临的一大挑战[24]。通过找到原始数据的新表示，已经使用了两种方法来降低FCM在高维数据中的难度。第一种方法使用核方法通过将数据公式化到由一些核函数构造的特征空间中来隐式地获得更具表达力的特征[25，26]。第二种方法是原始数据的显式转换。除了指定的非线性数据变换[27]，随机投影[28]通常用于获取低维数据。第二S. t.m ik= 1，ki=10∑mikn，i< 1是模糊化常数，并且。是任何规范。第一个约束确保每个数据点在所有聚类中具有总成员资格，其中每个成员资格在[0，1]中。第二个约束保证所有簇都是非空的[5]。在Eq中的约束优化问题（1）是找到使目标函数J最小化的mik和qi。求解约束优化问题的标准方法是交替优化。首先，我们为qi选择一些初始值。然后，我们最小化关于mik的J，保持qi固定，给出以下：（）由于内核空间的出色设计，因为聚类是复杂的。核方法处理大规模数据也是一个问题。在几实证研究的mik=∑j=1ak-qiak-qj/f-1 ⎦（2）第二节：FCM与数据转换方法的结合[7，9，10]提供比随机投影方法更好的性能[29]接下来，我们最小化qi上的J，保持mik固定，给出以下内容：用于主题检测问题。目前，深度学习是主要的机器学习方法，qi=nk=1 .（mik）fak）F（三）非结构化数据，如图像和文本[11，12]。深度学习已被广泛研究，以通过神经网络提取良好的数据表示[13]。结合深度神经网络和无监督聚类方法也已成为一个活跃的研究领域[30]。一般来说，有几种方法可以将深度学习和聚类结合起来。第一种方法将表示学习和聚类分为两个步骤：使用DAE进行表示学习，并在下一阶段使用聚类方法[30，31]。第二种方法同时结合DAE和聚类方法[32，33]。以下方法将聚类与预训练的编码器相结合，例如Google提出的来自Transformer的双向编码器表示[34]。然而，这些方法中使用的大多数聚类方法都是硬聚类。很少有研究通过模糊聚类的深度学习来提高特征质量。本研究旨在为模糊聚类找到一个好的深度表示，即，流式细胞本研究采用第一种和第二种方法结合表示学习和聚类。在这种方法中，k=1（mik）迭代该两步优化，直到满足停止标准，例如，最大迭代次数、目标函数J的微小变化、隶属度mik或质心qi[35]。算法1中更详细地描述了FCM算法。根据等式（2）当模糊化常数f趋于1时，隶属度mik趋于0或1。f值越大，隶属度越模糊。因此，模糊化常数的设置是相当直观的。小f意味着每个文本数据可能包含少量的主题。此外，较大的f意味着每个文本数据可能有更多的主题。算法1. FCM输入：A，c，f，最大迭代（T），阈值（ε）输出：qi1. 设置t= 02. 初始化qi3. 更新t= t+ 1∑c（a q）2/f-1表示学习和聚类是分开进行的，而不是4. 计算mik=-i2，与此同时，在第二种方法中。这种方法仍然需要5. 计算q∑n（（mik）fak）i解码器部分将数据转换回原始表示，我 =k=1k=1（m ik）f，站。此外，我们的方法不使用预先训练的模型，因为确定最重要的词来表示结果主题仍然具有挑战性。3. 方法设A是一个词的文档矩阵X和c是主题的数量。给定A和c，主题检测问题是如何从A中恢复c个主题。在基于聚类的主题检测方法中，聚类中心或质心被解释为主题。在本节中，我们将描述6.如果停止，即，t>T或Mt-Mt-1F<ε，满足后停止，否则返回步骤33.2. 深度自动编码器DAE是用于无监督学习问题的深度神经网络。这个无监督的问题使用监督学习来∑，nH. Murfi等人阵列13（2022）1001243̃̃̃̃（）下一页（）（）（）（）Fig. 1. 深度自动编码器。方法，其中目标标签从输入特征构造。该DAE架构具有与输入层相同的输出层，并且可以应用标准的监督学习用于表示学习的DAE架构可以分为三个部分：编码器，编码和解码（图1）。编码器部分由完全连接的层组成，用于转换输入到代码部分的数据，这是一种新的数据表示。解码器部分用于将新的数据表示转换回原始表示。解码器部分由与编码器部分具有对称结构的完全连接的层组成。原因在于，如果编码器需要一定的复杂度（层数（深度）、每层（单元）中的神经元的数量）来将数据表示为新的表示，则需要具有相同复杂度的解码器来将新的数据表示变换回原始数据表示。对于降维问题，代码部分中的神经元数量设置为小于输入层中的神经元数量[36]。DAE可以使用贪婪逐层预训练逐层构建ing，其中每个层都由去噪自动编码器构建[37]。去噪自动编码器是一种自动编码器，它从损坏的版本中重建输入，以迫使隐藏层发现更多的稳定和鲁棒的表示。给定文本数据集X= {x1，x2，…,xi辍学率1（xi）（4）hi=g1（xi，w1）（5）hi辍学2（hi）（6）yi=g2（hi，w2）（7）其中dropout1和dropout2是在训练期间随机忽略一定数量的神经元输出的方法，g1和g2是激活函数，w1和w1是权重。该拟合被执行到最小-计算损失Lx，w，即，xi和yi之间的误差。接下来，hi变成a下一层的输入数据的新表示。在每个去噪自动编码器上训练之后，去噪自动编码器的权重成为自动编码器的对应权重。此外，自动编码器被重新训练以最小化所有层的重构损失。在算法2中更详细地描述了该DAE算法。H. Murfi等人阵列13（2022）1001244图二、基于深度自动编码器的模糊c均值算法。H. Murfi等人阵列13（2022）10012452DD̃̃̃̃̃̃̃̃̃̃̃̃̃̃̃()n=-n3.3. 基于DAE的模糊C均值算法DFCM是一种提出的主题检测方法，它结合了DAE的表示学习和FCM的模糊聚类。FCM对于低维文本数据工作得很好，对于高维文本数据只生成一个主题。我们可以将FCM的f设置为一个小值，以推动FCM产生多个主题。然而，这个小f假设每个文本数据包含很少的主题，并且当f接近1时只有一个主题。因此，我们使用DAE将数据转换为低维表示，并保持f适用于具有多主题的文本数据。图 2给出了DFCM的一般流程。算法2. Dae输入：X，码的大小p输出：编码器（w），解码器（w）1. 初始化自动编码器（p）2. h（0）= xn两个主要过程：清理和矢量化。首先，我们将所有单词转换为包含www.* 等域的删除单词。或https：//*，以及包含@username的单词，并在#words中删除#。为了标准化非标准拼写的单词，我们将两个或更多重复的字母替换为仅出现两次。也排除了停用词和在总文档中出现少于t个低频术语的词，其中t阈值设置为max（10;m/ 1000）。最后，我们使用的术语频率逆文档频率加权。给定一个tweet集合，主题检测方法产生由其前10个最频繁的单词表示的主题。衡量主题可解释性的标准量化方法是主题连贯。在我们的模拟中，我们使用一种称为TC-W2 V的主题连贯性措施 [38]。假设一个主题t由n个单词组成，{t1，t2，nj-13. 设m为自动编码器V（t）=1 ∑∑相似wvj，wvi）（11）4. 对于i= 1至m5.拟合第i层的去噪自动编码器：deAutoencoder（w（i）），w（i）=（n）j=2i=1minL（h（i-1），w），n其中wv和wv是由word2vec构造的词t和twnj i j i6.h（i）=deEncoder（h（i-1）），模型7.使用去噪自动编码器的相应权重初始化自动编码器的权重：autoencoder（w（i）），模拟是在基于Windows的Python环境中进行的。对于EFCM和DFCM参数，我们设置f1.1，最大值8. 安装自动编码器：autoencoder（w），w=mwinL（xn，w），n给定一个文本数据集X={x1，x2，…,主题C.首先，使用编码器将文本数据转换为低维表示。我们将该变换表示如下：X=编码器（X，p）（8）其中xi∈Rx，ni=1，2，接下来，我们用低维表示对数据集X在这一步中，质心μi∈从所有c -给定的聚类中提取Rx，Ri=1， 2，μi=FCM（X，c，f，T，ε）（9）这些质心μi被解释为低维表示中的主题。然而，这些主题没有意义，如果它们被转换回原始的表示，它们将是有意义的。因此，有必要将提取的主题转换回原始表示，如下所示：μi=max（0，decoder（μi））（10）其中μi∈RDx，μi= 1，2，.，c，max（）是给出0和解码器μ i的每个元素之间的最大值的函数。该DFCM算法在算法3中更详细地描述。算法3. DFCM输入：X，代码大小p，主题数c，最大迭代次数T，阈值ε输出：μi1. 构建自动编码器：编码器，解码器=DAE（X，p）2. 变换X：X=编码器（X）3. 执行FCM：μi=FCM（X，c，T，ε），i=1， 2，四、计算主题：μi=max（0，decoder（μi）），i=1，2，.，c4. 结果迭代次数T1000，阈值ε0=0.005。如所提及之前，f的设置是非常直观的。小f表示每条tweet可能包含少量的主题。然而，较大的f意味着每个文本数据可能包含更多的主题。我们使用最好的10次k均值聚类初始化EFCM和DFCM的FCM的质心。在DFCM中，我们使用DAE的常用参数，并尽可能避免特定于磁盘集的调整。具体来说，我们将所有数据集的对称网络维度设置为d-500-500-2000-p，其中d是数据空间维度，p是10的较低维度或5，如以前实施的[33，39]。我们使用基于Python的Keras实现这种表示学习。1另一方面，我们使用scikit-learn的truncatedSVD实现来进行降维，[40].最后，我们需要调整参数，即，对于EFCM和DFCM，较低维度p和主题数c该模拟还比较了DFCM与两种标准主题检测方法：LDA和NMF。我们使用scikit-learn提供的LDA和NMF实现[40]。LDA算法使用批量变分贝叶斯方法来训练LDA。这种训练方法通常优化两个参数：α和η。α控制特定文档的主题混合;较小的α意味着文档可能具有较少的主题混合。η控制每个主题的单词分布;较大的η意味着主题可能有更多的单词。为了优化这两个参数，我们使用超参数网格并对每个组合[0. 01，0. 1，0. 25，0.5，0. 75，1]运行算法。对于NMF，数据向量被归一化为单位长度。NMF的实现使用坐标下降算法。我们没有为这个算法优化参数。为了减少随机初始化的不稳定性，执行NNDSVD初始化。4.1. Enron第一个数据集是Enron，由Enron公司的员工生成的大约50万封电子邮件2联邦能源监管委员会在调查安然公司倒闭时获得了它。为了计算提取的主题的TC-W2 V，我们使用在Google News数据集上针对英语电子邮件数据集训练的预训练word 2 vec模型。该模型包含300维向量，为了检验DFCM的性能，我们将该方法应用于在两个数据集上提取主题：英语电子邮件和印度尼西亚新闻。为了为主题检测方法准备文本数据，我们执行了nH. Murfi等人阵列13（2022）10012461https://keras.io。2 https://www.cs.cmu.edu/~./安然公司H. Murfi等人阵列13（2022）1001247图三. 当低维表示被设置为5时，Enron数据集关于主题10，20，...，100的数量的TC-W2 V方面的一致性得分。DFCM（100）、DFCM（400）和DFCM（700）分别意味着深度自动编码器的历元数被设置为100、400和700。见图4。当低维表示被设置为10时，Enron数据集关于主题10，20，...，100的数量的TC-W2 V方面的相干性得分。DFCM（100）、DFCM（400）和DFCM（700）分别意味着深度自动编码器的历元数被设置为100、400和700。百万字和短语3首先，我们分析了DAE训练时期的数量对DFCM的一致性得分的影响。使用256的批量大小，图3中给出了几个时期大小的相干性分数。首先，epoch的数量被设置为100。然后，这个时期的数量增加到400和1000。DFCM的平均一致性得分波动，并随着epoch数从100增加到400而增加。然而，当历元的数量增加到700时，平均相干性分数趋于降低。如果我们选择400作为epoch的数量，那么DFCM3https://code.google.com/archive/p/word2vec/。平均一致性得分为0.1771，比EFCM高22%。图4提供了类似于图3的模拟结果，但是对于10维的情况。空间表示。与五维表示相比，DFCM的平均一致性分数随着历元数从100增加到400和700而仅略有波动。DFCM给出400个时期的平均相干性分数为0.1896。与五维数据表示一样，DFCM仍然提供比EFCM更好的平均一致性得分，EFCM大约好5%图图3和图4表明数据的10维表示更适合于DFCM和EFCM方法。10维表示的DFCM给出的平均一致性得分比5维表示的DFCM同时，H. Murfi等人阵列13（2022）1001248图五、在Enron 数据集的主题数 10 ， 20 ， ...， 100 上， LDA，NMF，EFCM和DFCM的TC-W2 V一致性得分比较。见图6。当低维表示被设置为5时，Berita数据集关于主题10，20，...，100的数量的TC-W2 V方面的一致性得分。DFCM（50）、DFCM（100）和DFCM（400）意味着深度自动编码器的历元数分别被设置为50、100和400。10维表示的EFCM提供的平均一致性得分比5维表示的EFCM好26%。此外，我们还提供了DFCM和其他两个标准方法：NMF和LDA之间的比较。图5包括针对多个主题10，20，…,首先，菲格。 5证实了之前的模拟结果，EFCM提供的NMF和LDA之间的一致性分数。DFCM在几乎所有主题的数量上都达到了比NMF略好的一致性分数（图11）。 5）。只有当主题数为10时，NMF才能对于所有数量的主题，DFCM提供了更好的平均一致性分数，分别为3%，7%和34%，相比NMF，EFCM和LDA。4.2. Berita第二个数据集是Berita，由印度尼西亚九个知名的印度尼西亚新闻门户网站通过Twitter在线分享的50，304篇数字印度尼西亚新闻文章组成它们是Antara（antaranews.com）、Detik（detik.com）、Inilah （ inilah.com ）、 Kompas （ kompas.com ）、 Okezone（okezone.com）、Republika（republika.co.id）、Rakyat Merdeka（rmol.co）、Tempo（tempo.co）和Viva（viva.co.id）。新闻文章包含发表日期、标题和一些内容的第一句话。我们构建的word 2 vec模型使用语料库包括750，000印尼文档从维基，新闻，和推文来衡量提取的主题的TC-W2 V。与第一个英语数据集的word2vec模型不同，我们将Berita数据集训练成这个word2vec模型。H. Murfi等人阵列13（2022）1001249见图7。当低维表示被设置为10时，Berita数据集关于主题10，20，.，100的数量的TC-W2 V方面的相干性得分。DFCM（50）、DFCM（100）和DFCM（400）表示DAE的历元数分别设置为50、100和400。图八、在Berita 数据集的主题数 10 ， 20 ， .. . ， 100 上， LDA，NMF，EFCM和DFCM的 TC-W 2 V一致性得分比较。因此，Berita数据集的所有词汇表都存在于word2vec中模型Berita数据集的模拟在图1和图2中给出。六比八图6是模拟以观察DAE学习中的时期数对用于五维表示的DFCM的相干性分数的影响。图7是看到DAE学习中的时期的数量对10维表示的DFCM的相干性分数的影响的模拟。epoch的初始数量为50，然后增加到100，然后增加到400。一般来说，增加时代的数量会降低大多数主题的连贯性得分。对于400的时期数，DFCM甚至在几乎所有主题数中提供低于EFCM的一致性得分。同样的条件也适用于图10中的10维表示。第七章如果我们使用50个epoch进行DAE学习，那么DFCM为五维表示提供的平均一致性得分为0.3730。同时，EFCM提供的平均一致性得分为0.3589。这意味着DFCM实现了比EFCM略高的平均一致性得分，EFCM高出约4%。对于10维表示示出了类似的结果，其中DFCM给出了约3%的平均相干性分数，略高于EFCM。图 6和7表明，五维表示为DFCM和EFCM提供了稍好的一致性得分。图8提供了Berita数据集上的DFCM与其他两种标准主题检测方法的比较：NMF和LDA。在该计算中，DFCM和EFCM都使用五维表示。图 8显示DFCM、EFCM、NMF和LDA提供平均相干性H. Murfi等人阵列13（2022）10012410§得分分别为0.3730、0.3588、0.3560和0.2815这些结果表明，DFCM实现了更好的平均一致性分数比EFCM，NMF，LDA。然而，NMF仍然为最小数量的主题给出更好的一致性得分，即，10. 在这个Berita数据集中，NMF和EFCM提供了几乎相同的平均一致性得分。5. 讨论在前面的子章节中，仿真结果表明，DFCM实现了更好的平均一致性分数比EFCM。对于安然数据集，DFCM提供的平均一致性得分比EFCM高7%，比新闻数据集的EFCM高4%。这两种方法之间的主要区别是DFCM使用DAE的低维表示学习过程，而EFCM使用截断SVD。DAE和truncatedSVD产生不同的低维表示. truncatedSVD创建具有正交尺寸或特征的低维表示，但DAE生成具有非正交尺寸或特征的低维表示。主题通常由不一定正交的词组成，特别是在它们的意义上。此外，DAE隐式地实现去噪过程以产生这些低维表示。因此，这些低维特征中的每一个都将或多或少地影响所得的平均相干性分数。与NMF相比，DFCM还提供了更高的平均相干性得分DFCM在Enron数据集的平均一致性得分提高了3%，在新闻数据集的平均一致性得分提高了5%。与EFCM相反，DFCM和NMF提供具有非正交维度或特征的低维表示。NMF在由词组成的原始空间中进行主题提取过程。因此，所得到的主题可以直接解释，并计算其连贯性得分。同时，DFCM在低维空间中提取主题，并且必须转换回原始空间，以便可以解释提取的主题并计算一致性得分。然而，DFCM使处理通常具有大量噪声和变化的文本数据的更好表示成为可能。因此，DFCM在实现更好的一致性分数方面的成功主要是因为DFCM用更好的表示来处理文本数据。LDA的相同条件，其中LDA在原始空间中执行主题提取过程，由单词组成。深度学习是目前流行的监督学习方法，特别是对于诸如图像和文本的非结构化数据。深度学习将特征提取过程与分类或回归过程集成在一起。在无监督学习的背景下，DAE是一种流行的深度学习方法，用于表示学习。该方法允许执行去噪过程，同时降低维度以产生更好的低维表示。然而，将表示学习方法与无监督学习问题（如主题检测）相结合仍然是一个有待开发的机会6. 结论DFCM是一种结合DAE的表示学习和模糊C-均值的主题提取方法。因此，DFCM允许处理通常具有大量噪声和变化的文本数据的更好表示。与EFCM不同，DFCM从具有非正交维度或特征的低维表示中提取主题。这种表示法更能真实地表示主题。仿真结果表明，与EFCM和NMF、LDA两种标准方法相比，DFCM在相干性得分方面具有更高的作者声明Hendri Murfi：概念化，方法论，写作-原创起草工作。Natasha Rosaline：数据管理，可视化。Nora Hariadi：写作-审查和编辑。竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认本文得到了印度尼西亚Universitas Indonesia的PDUPT 2020资助。任何观点、发现、结论和建议均为作者的观点、发现、结论和建议，不一定反映申办者的观点、发现、结论和建议引用[1] Lee DD，Seung HS.利用非负矩阵分解学习对象的部分。Nature1999;401：788-91.[2] 艾伦·J 主题侦测与追踪：以事件为基础的资讯组织。Kluwer; 2002.[3] Blei DM，Ng AY，Jordan MI，Edu BB，Ng AY，Edu AS，Edu JB.潜Dirichlet分配马赫学习研究杂志2003;3：993-1022.https://doi.org/10.1162/jmlr.2003.3.4-5.993.[4] Nur'aini K，Najahaty I，Hidayati L，Murfi H，Nurrohmah S.结合奇异值分解和K-means聚类方法的Twitter话题检测。在：高级计算机科学和信息系统（ICACSIS）2015年国际会议。IEEE; 2015年。第123- 128页。https://doi.org/10.1109/ICACSIS.2015.7415168.[5] Bezdek JC ， Ehrlich R ， Full W. FCM ：模糊 C 均值聚类算法。 ComputGeosci1984;10（2）：191-203. https：//doi.org/10.1016/0098-3004（84）90020-7.[6] Muliawati T，Murfi H.基于特征空间的模糊c均值算法在Twitter中感知趋势话题。In：1862 AIP会议记录; 2017. https://doi.org/10.1063/1.4991244. 德波克[7] 穆菲·H低维空间中模糊C-均值主题检测的准确性。计算机科学课堂讲稿（包括人工智能和生物信息学的子系列课堂讲稿），第11344卷。LNCS; 2018.https://doi.org/10.1007/978-3-030-05755-8_32网站。[8] 穆菲·H在低维空间中使用模糊C均值监控印度尼西亚推文上真实事件的趋势主题。In：ACM International Conference Proceedings Series; 2019.https://doi.org/10.1145/3369114.3369127网站。[9] Nugraha P，Rifky Yusdiansyah M，Murfi H.模糊C-均值在低维空间的主题检测印尼在线新闻。2019年通信计算信息科学;1071.https://doi.org/10.1007/978-981-32-9563-6_28网站。[10] Nugraha P，Rifky Yusdiansyah M，Murfi H.低维空间中的模糊c均值用于印度尼西亚在线新闻的主题检测。In：Tan Y，Shi Y，editors.数据挖掘和大数据。新加坡：Springer Singapore; 2019.p. 269比76[11] GoodfellowI，Bengio Y，Courville A. 深度学习北京：清华大学出版社.[12] ZhangA，Lipton ZC，Li M，Smola AJ. 深入学习。 2020年。[13] Bengio Y，Courville A，Vincent P. Representation Learning：A Review and NewPerspectives. IEEE Trans Pattern Anal Mach Intell 2013;35：1798-828. 网址：//doi. org/10.1109/TPAMI.2013.50。[14] 作者：J. J. 无人机技术发展趋势及技术组合分析。J.Open Innov.：技术员。马克。复杂. 2020年6月48日。https://doi.org/10.3390/joitmc6030048网站。[15] Lamba M，Madhusudhan M.印度图书馆与信息技术期刊的主题映射：研究。Scientometrics 2019;120（2）：477-505. https://doi.org/10.1007/s11192-019-03137-5。[16] [10]杨晓，王晓刚. Scopus数据库中十年大数据研究的主题映射和文献计量学分析。信息2020;11（2）. https://doi.org/10.3390/info11020069网站。[17] Ciclawki A，Phan AH.大规模非负矩阵和张量分解的快速局部算法。IEICE T. Fund.Electr. E92-A 2009;（3）：708-21. 网址：//doi.org/10.1587/transfun.E92.A.708。[18] 作者声明：J. 的非负矩阵分解算法β-发散神经计算2011;23（9）：2421-56. https://doi.org/10.1162/NECO_a_00168.[19] 吴伟杰，王晓刚，王晓刚. Twitter中用于主题检测的两级消息聚类。CEUR研讨会继续进行。2014;1150：49-56.[20] 布雷DM. 概率主题模型。 Commun ACM 2012;55（4）：77-84.[21] Hoffman MD，Blei DM，Bach F.在线学习潜在Dirichlet分配。第23届神经信息处理系统国际会议论文集，2001年。美国：Curran Associates Inc.;2010年。p.856-64。[22] HoffmanMD，Blei DM，Wang C，Paisley J. 随机变分推理J MachLearn Res2013;14（1）：1303-47.[23] Ruspini EH，Bezdek JC，Keller JM. 模糊聚类：一个历史的观点。CompetIntell Mag 2019;14（1）：45-55.https://doi.org/10.1109/MCI.2018.2881643.[24] Winkler R，Klawonn F，Kruse R.高维空间中的模糊c-均值算法 Int JFuzzySyst Appl 2011;1（March）：2-4. https://doi.org/10.4018/ijfsa.2011010101。H. Murfi等人阵列13（2022）10012411[25] 黄宏，庄英，陈春.多核模糊聚类。IEEE跨模糊系统2012;20（1）：120-34.https://doi.org/10.1109/TFUZZ.2011.2170175网站。[26] 张伟，李芳，焦莉，Stolkin R.基于多核的模糊聚类多目标人工免疫算法。群进化Comput. 2019;50：100485. https://doi.org/10.1016/j.swevo.2019.01.001网站。[27] 作者：Zhu X，Pedrycz W，Li Z.非线性变换数据的模糊聚类。ApplSoft Comput2017;61：364-76. https://doi.org/10.1016/j.asoc.2017.07.026网站。[28] [10]杨文辉，李文辉，李文辉.基于随机投影的模糊聚类。IEEE跨模糊系统2018;26（3）：1510-24. https://doi.org/10.1109/TFUZZ.2017.2729501网站。[29] Yusdiansyah MR，Murfi H，Wibowo A.基于随机空间的模糊c均值算法在印度尼西亚在线新闻中的主题检测。收录于：计算机科学讲义（包括人工智能子系列讲义和生物信息学讲义），第11909卷。LNAI; 2019. https://doi.org/10.1007/978-3-030-33709-4_12.[30] 宋C，黄毅，刘芳，王忠，王玲。基于深度自动编码器的聚类。Intell DataAnal2014;18（6S）：S65[31] 宋C，刘芳，黄Y，王L，谭T。基于自动编码器的数据聚类。In：Ruiz-ShulcloperJ，di Baja G，editors.模式识别、图像分析、计算机视觉及其应用进展。Berlin，Heidelberg：Springer BerlinHeidelberg; 2013. p. 117比24[32] 郭霞，高莉，刘霞，尹军。保持局部结构的改进的深度嵌入聚类。第26届人工智能国际联合会议论文集。北京：清华大学出版社，2017.p. 1753年9月。[33] 作者：JiangJ，JiangJ，Jiang J.用于聚类分析的无监督深度嵌入。在：第33届国际机器学习会议论文集，卷。48岁。JMLR.org; 2016.p. 478-87.[34] 关荣，张宏，梁英，朱志华，黄丽，冯晓.基于深度特征的文本聚类及其解释。2020年IEEE跨知识数据工程。https://doi.org/10.1109/TKDE.2020.3028943。[35] BezdekJC ， Hathaway RJ. 交替优化收敛，神经并行。 Sci Comput 2003;11（4）：351-68.[36] Hinton GE，Salakhutdinov RR.用神经网络降低数据的维数。Science 2006;313（5786）：504-7. https://doi.org/10.1126/science.1127647.[37] [10] Vincent P，Larochelle H，Lajoie I，Bengio Y，Manzagol P-A.堆叠去噪自动编码器：使用局部去噪标准在深度网络中学习有用的表示。J MachLearn Res 2010;11：3371-408.[38] O'Callaghan D，Greene D，Carthy J，Cunningham P.主题建模中描述符的连贯性分析。E Xpert Syst Appl 2015;42（13）：5645-57。网址：//doi.org/10.1016/j.eswa.2015.02.055。[39]

下载后可阅读完整内容，剩余1页未读，立即下载