概念嵌入式主题建模技术的研究

6 浏览量更新于2023-10-15 收藏 488KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

博士课程WWW 2018，2018年4月23日至27日，法国里昂831概念嵌入式主题建模技术达克希湖Kapugama Geeganage昆士兰科技大学澳大利亚布里斯班dakshi.geeganage@ hdr.qut.edu.au摘要文本内容因数据的数字化而过载，并且通过生成大量信息而通过许多源传输新内容，这些信息通过不同的通信介质传播到世界各地因此，文本数据无处不在，阅读、理解和分析文本数据已经成为日常生活中的主要活动。随着信息量的增加和信息种类的增多，组织和检索所需的信息变得越来越重要。主题建模是信息组织、理解和提取内容的最新技术。目前流行的主题模型大多采用概率方法，考虑主题的出现频率和共现度，从文档集合中发现主题所提出的研究旨在解决现有的问题，主题建模引入一个概念嵌入式主题模型，通过理解内容产生最相关和最有意义的主题。该研究包括从内容中理解语义元素的方法，概念的领域识别，以及在不事先从用户获得主题数量的情况下提供最合适的主题。捕获文档集合的语义并根据实际意义生成最相关的主题集将是本研究的意义所在。CCS概念• 信息系统→文档表示关键词主题建模、语义、概念ACM参考格式：D. T. Kapugama Geeganage。2018.概念嵌入主题建模技术。InThe2018 Web Conference Companion（WWW 2018），April 23-27，2018，Lyon，France，ACM，New York，NY. DOI：https://doi.org/10.1145/3184558.3186571网站昆士兰科技大学徐岳副教授、李岳峰教授监制本文在知识共享署名-非商业性使用-禁止衍生4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW© 2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。DOI：https://doi.org/10.1145/3184558.31865711 介绍数字信息已经成为人类活动的基本要素。大多数可用作文本数据的内容和人类被这些文本数据过载。对新信息的探索已经成为人类生活中的一个栖息地，人们倾向于在日常生活中使用信息。人们比以往任何时候都更加依赖电子文本与“网络，社交媒体，即时消息到在线交易，政府情报和数字化图书馆”的互动文本数据在社交媒体中发挥着至关重要的作用[2]，以传达思想和信息，而大量的文本内容通过Facebook ，Twitter和Linkedin等不同的社交媒体进行传输。例如，推文属于各种主题，提取文本的含义并将其分类为主题确实具有挑战性[3]。关于组织的文本数据将有助于保持该组织的可持续性，并且大多数客户通过在线媒体提供反馈和评论[2]。随着信息量的增加和信息种类的增多，组织和检索所需的信息变得越来越重要。大多数时候，文本内容的质量会是一个问题，并且有太多的嘈杂内容可以误导核心思想。信息的多样性、复杂性和海量性等因素降低了人工干预信息组织和检索的可能性在信息组织、理解和提取内容的各种方法中，主题建模已经成为最流行的方法和最先进的技术。1.1问题主题模型是提取隐藏在文档集合的非结构化内容中的主题（特定词分布）的算法[4]。主题建模包含组织、理解和总结大量文本信息的方法。主题建模允许用户发现隐藏的主题模式，并帮助他们根据主题注释文档。在文档集合中找到单词的模式并建议类似于人类理解的适当主题可以被定义为复杂的任务。重要的是通过理解文档集合的含义来对与人类感知相似的主题进行建模。然而，大多数流行的主题模型使用概率方法[5-8]通过考虑频率和共现来发现主题博士课程WWW 2018，2018年4月23日至27日，法国里昂832概率模型根据生成过程运行，该生成过程包括隐变量，并且包含“观察到的和隐藏的随机变量的联合概率分布”[4]。因此，文件的文字和主题结构将是主要的组成部分。因此，将不考虑内容的语义来解释来自文档集合的主题。低质量的文本内容可能导致生成无意义和不相关的主题。除此之外，用户需要在开始主题建模过程之前定义主题的数量;因此，它会自动从文档集合中创建多余的无意义主题集。概念反映了内容的含义，关系将表达对概念的深入解释。在本研究中，一个概念嵌入主题建模技术将被开发来识别的语义元素或有意义的条款，从收集的文件和本体驱动的方法来理解的概念和关系。此外，概念将根据领域进行分类领域和概念将被加权以解释内容的语义含义。一个概念层将被纳入生成语义有意义的主题有点类似于人类的感知和理解。1.2研究问题该研究的目的是开发一种新的概念嵌入式主题建模方法，通过考虑内容的语义，从文档集合中生成语义有意义的主题模型。为了实现这一目标，以下研究问题将在这项工作中得到解决。1. 如何定义一种从文档集合中理解语义元素的方法？a) 如何识别文档集合中可用的不同类型的语义元素？b) 如何识别存在于所识别的语义元素之间的特征/连接性？c) 如何使用本体驱动的方法来提取不同类型的语义信息与它们的相关特征和连接在每个文档/s？d) 如何使用本体解释语义元素（概念和关系）的含义？2. 如何根据它们的领域对概念进行分类a) 如何确定每个概念的域？b) 如何使用聚类机制对与领域相关的概念进行分类？3. 如何将概念合并到主题模型中a) 如何对域和概念进行加权以解释文档集合中的主题？b) 如何在主题模型中建立一个概念层来表达主题模型中主题的语义有效性c) 如何在主题模型中建立概念、词汇和主题之间的关系？2 现有技术主题建模是一个研究领域，它在挖掘文本内容后为文档集合建议合适的主题。已经做出了许多努力来使用不同的算法和技术对主题进行建模。概率模型是目前流行的主题建模技术，它考虑了词的使用情况。潜在语义分析（LSA）[5]、概率潜在语义分析（PLSA）[7]和潜在狄利克雷分配（LDA）[8]是主题建模研究中使用的主要概率方法。LSA [5]是一种自然语言处理（NLP）驱动的方法，用于为文本生成基于向量的表示以提取语义。LSA检查单词在句子、段落或文档中的出现，并将文本表示为矩阵。段落中具有相应行的单词的频率将出现在单元格上，并且LSA将“奇异值分解（SVD）分配给矩阵”[5]。PLSA [7]是为了克服LSA中普遍存在的局限性而引入的，PLSA基于包含潜变量的方面模型来考虑文本的共现。然而，PLSA并没有促进在文件层面的处理。LDA [8]是为文本语料库设计的，内容表示为潜在主题的随机混合物。LDA是基于一个三层次的贝叶斯模型和分布在单词将被描述的主题。有许多研究，开发了基于概率技术的方法，大多数研究人员提出了混合方法与LDA。“Maximum[9] 的开发是为了生成一个基于模式的主题模型的文档集合，它包含了一个排名技术，以发现相关的文件对齐的主题模型。这种方法[9]的特点是，它包括来自主题建模的语义结构和来自最具代表性的模式的统计显著性。随着社会化媒体的普及，研究者们开始关注对社会化媒体中可用内容的总结。哈希（#）标签主要用于Facebook，Instagram和Twitter，用于搜索类似类型的主题和内容。在主题建模中考虑了与Twitter提要相关的用户对话[10]，并且将属于同一用户的Twitter回复主题模型使用LDA和作者主题模型（ATM）对先前合并的内容进行训练用户对用户的交互和相关主题之间的一致性的假设被用来提取最相关的主题。LDA和作者主题模型[11]被用来提取Twitter中的主题，作者主题模型已经实现了对LDA的一些改进。一些研究人员使用不同的分类法，并通过考虑结构来存储有关他们感兴趣的主题的知识，将其表示为固定的本体[3]本体被用来作为一种有效的知识表示技术，以获取Twitter上经常讨论的主题的语义。在认识到语义在主题建模中的重要性[3]考虑其他信息来源博士课程WWW 2018，2018年4月23日至27日，法国里昂833在本体建模过程中，集成主题推理，例如“嵌入的URL，#hashtag，@mention，命名实体，交互用户和其他上下文信息”。Asfari等人[12]专注于在从用户的推文中提取主题时对用户的兴趣进行建模。他们将LDA与分类法（在本例中为ODP）相结合，从tweet中提取主题作为外部知识源。研究的重点是词的含义，发现在Twitter上发布的高层次的主题，并提取用户的感兴趣的主题，通过检查他们在用户的推文中提到的术语。Tang等人[13]提出了一种四层主题建模方法，在传统主题模型中嵌入一个概念层，将主题看作概念的集合。“概念化LDA”（CLDA）通过嵌入概念集合而被引入作为LDA的扩展。Probase[15]被用作概念知识库，以从文档集合中导出概念。虽然Tang et al.[13]试图将概念层嵌入主题模型中，Chemudugunta等人。[14]展示了一种概率的方法，它使用混合技术的语义知识和主题的基础上的数据。通过考虑本体概念和主题集合之间存在强关系，将本体和LDA结合在一起以从文档集合中挖掘主题。2.1研究差距通过对文献的广泛研究，提出了以下几个问题。概率模型不关注内容的语义，而是关注词频和共现。LSA、PLSA和LDA是主要的概率主题模型，许多研究都是基于这些模型之一或结合一些技术进行的。LDA是最流行和改进的主题模型，相应地，文档被认为是主题上的概率分布。词频和共现被认为是主题建模过程中的主要事实，并相应地生成一组主题。人们通过理解内容的含义来感知内容，但是概率主题模型不关注内容的语义或含义，而是关注字数。因此，在没有掌握内容的语义的情况下，将生成无意义的主题。由于关注要生成的主题的数量而不是内容中最相关的主题，因此生成无意义和不相关的主题在LDA中开始主题建模过程之前，应指定主题的数量，因此将生成相关性较低且无意义的主题。由于主题模型需要生成指定数量的主题，因此它将优先输出所请求的主题数量，而不是相关性和适当性。基于本体的主题建模方法关注单个词的含义，而不是概念和描述关系。一些研究是针对忽略内容语义的问题而进行的本体驱动方法。大多数方法使用外部本体或WordNet，并试图检查内容中给出的单词的含义。单个单词被映射，而不是考虑概念和相关关系。因此，不可能突出突出突出的概念，这些概念需要成为一个专题。当存在全新的概念和文档集合时，基于本体的主题建模方法将存在问题。大多数基于本体的方法是不够聪明，以处理新的概念，这是没有给出的本体，由于穷人的学习过程。同时主题建模方法考虑文档集合作为输入，但大多数具有可接受精度的本体建模方法能够仅处理单个文档或段落以掌握语义含义。3 该方法建议的研究将产生一种新的主题建模方法，优先考虑的语义概念，并试图把握内容的语义含义，克服了“产生无意义的主题”在流行的主题建模方法的限制。因此，Probase[15]将用于解释所识别的概念和关系，因为它包含Reuters Corpus VolumeI（RCV1）[16]将用作生成主题模型的文本数据集，主题模型在文本挖掘研究领域中广泛使用。该研究包括三个阶段，并在图中详细阐述了研究的高级架构。1.一、阶段1：从文档集合中提取语义元素阶段1的目的是从文档集合中识别语义上有意义的元素，并且作为第一步，对内容进行预处理以消除不必要的语言元素和结构。一种新的算法被引入到语义相关的概念和词汇数据库已被用来发现相关的词在一起的群体。WordNet同义词（sysnsets）已被应用于生成组的语义相关的条款。首先，使用tf.idf（词频 * 逆文档频率）过滤重要术语，并且使用WordNet从文档集合中找到所识别的术语的相关和相似含义的词。然后将所有相关词分组在一起并聚类以导出语义相关术语的组。然后，语义相关的术语组被解释的概念。Probase[15]用于以更有意义的方式解释概念。对于每个文档，概念将被标识，而一些概念将基于它们的关系被注释为突出概念。最后，在此阶段结束时，将生成一组概念作为语义元素。算法1.A.生成语义相关的术语组。博士课程WWW 2018，2018年4月23日至27日，法国里昂834算法1.A：识别相关词组中的每个聚类中的术语��被认为是语义相关的，因为它们基于它们的同义词被分组在一起，并且每个聚类表示某个概念。下一步是用Probase中的概念注释每个簇。注释集群的简单方式是将每个集群中的术语映射到概念，并且与集群最相关的概念将用于注释该集群。在算法1.B中给出了一个简单的算法。在步骤5中，（ | ）表示Probase中提供的映射的强度��。算法1.B：确定最相关的概念阶段2：概念分类和领域聚类在阶段1中生成的概念组将被进一步处理以确定每个识别的概念的域将提出一种新的算法来确定每个概念的域，并根据域对概念进行分类。最后，文档集合可以包含一组结果将包含域列表，这些域可以在特定的文档集合中找到域列表将被进一步处理，以识别与给定文档集合最相关的域集合一将应用基于模糊的聚类机制来找到关于概念和关系的重要域的数量。阶段3：生成概念嵌入主题建模技术将引入一种新的算法来根据阶段1和阶段2的结果来对单词、概念和域进行加权。一个概念层将被制定来表达词，概念和领域之间的关系和关联。这一阶段的主要研究成果是概念嵌入主题建模方法和主题模型将生成的基础上的领域和概念与收集的文件。最后，语义上有意义的主题将派生的概念嵌入主题建模技术的基础上，最相关的主题将被生成。在现有的大多数主题模型中，用户需要预先提供主题的数量，并且由于无意义的主题和不太相关的主题将被生成。然而，本研究的特点是，最相关的集合将基于与文档集合的相关性来生成主题的数量，而不是关注要生成的主题的数量。4 方法本研究以行动研究法为研究范式，发展概念嵌入式主题建模技术。在研究的每个阶段将引入以下一组新算法。1. 语义元素识别算法2. 域识别算法3. 概念和领域聚类算法4. 词、概念、领域加权算法5.概念嵌入层生成概念嵌入主题建模技术算法和概念嵌入主题建模方法使用Python编程语言实现本文的研究将在文本挖掘、本体建模、聚类和主题建模等技术上有所创新。将对每种算法进行测试，以确保结果的准确性和算法的有效性。最后，将使用Reuters Corpus Volume I（RCV1）[16]数据集来评估概念嵌入主题建模技术，该数据集是文本分类中的典型数据集。此外，准确率，精确率和召回率将被用作评估矩阵来评估概念嵌入主题建模技术。5 结果算法1.A和1.B已经在RCV1数据集上实现和应用。生成10组语义相关的术语和最相关的概念作为算法1.A的输出。和1.B.结果示于表1中。博士课程WWW 2018，2018年4月23日至27日，法国里昂835表1：每个术语组组群相关术语相关概念G1{news，word，intelligence}{信息、主题、因素}G2{money}{资源，有价值，项目}G3{risk，危险，机会，赌博}{因素、主题、概念}G4{政府，权威，政治，政治{组织、区域、主题}G5{安全，保护}{问题、服务、因素}G6公司简介{组、特征、对象}G7联系我们{对象、资源、实体}G8{联邦、州、国家，美国}{实体、国家、民族}G9{law，警察}{行业、机构、领域}G10{人类，公共，全球，世界，人，地球，全世界{topic，concept，specie}注意，算法已经通过考虑内容的语义对相关术语进行分组并且映射最相关的概念。6 结论和今后的工作文本数据在万维网、社交媒体、电子商务和数字图书馆中发挥着重要作用大量的文本内容可用，并且准确地理解它们是至关重要的要求。信息的流动可能会有所不同，文本数据将通过网络的交互从世界的任何地方传输。因此，很难依赖内容的质量。大量低质量的文本数据在社交媒体中传输，重要的是要理解它们并将其分类为相关主题。客户评论和用户推荐在电子商务中发挥着重要作用，大多数公司通过在线媒体收集评论。理解、分析和分类反馈对组织和用户都是有益主题建模是组织、理解和总结大量文本信息的艺术状态。然而，大多数流行的主题建模技术都是基于概率方法，并且将考虑单词的频率和共现。此外，可能的主题的数量应该预先指定到主题建模过程。这阻碍了从文档集合中找到最合适和语义上有意义的主题的过程。所提出的研究旨在解决现有的问题，并计划引入一个概念嵌入式主题模型，通过从文档集合中理解内容来该研究包括从内容中理解语义元素的方法，概念的领域识别，以及在不事先从用户获得主题数量的情况下提供最合适的主题。研究的结果将通过理解文档的语义而不是集合中给出的字数来增强主题建模的能力，此外，它将从主题列表中删除与人类感知有点相似的无意义和不相关的主题引用[1]Evans，J.和Aceves，P. 2016.机器翻译：挖掘社会理论文本。社会学年度评论。42，1（2016），21-50. DOI = https://doi.org/10.1146/annurev-soc-081715-074206[2]Gentzkow，M.，凯利湾，澳-地和Taddy，M. 2017.文本作为数据。《经济文献杂志》（Journal of Economic Literature，2017）DOI = 10.3386/w23276[3] 杨，S.，Kolcz，A.，Schlaikjer，A.和Gupta，P.2014年twitter上的大规模20thACM SIGKDD International Conference on Knowledge Discovery and DataMining - KDD '14.（2014年）。DOI = 10.1145/2623330.2623336[4]Blei，D. 2012.概率主题模型。ACM的通信。55，4（2012），77. DOI =10.1145/2133806.2133826[5] Landauer，T.，Foltz，P. and Laham，D. 1998.潜在语义分析导论。话语过程。25，2-3（1998），259-284.DOI=https://doi.org/10.1080/01638539809545028[6] Steyvers，M.，和Griffiths，T.（2006）概率主题模型。于T. 兰道尔D. Mcnamara，S. Dennis，W. Kintsch（Eds.），潜在语义分析：一条通往意义的路427-448[7]霍夫曼，T. 1999.概率潜在语义分析。第十五届人工智能不确定性。（1999），289-296中所述。[8]Blei，D.，Ng、黑冠草A.和Jordan，M. 2003.潜在狄利克雷分配。机器学习研究杂志。3，（2003），993-1022中所述。[9]高，Y.，Xu，Y. Li，Y. 2015.信息过滤中基于模式的文档建模主题IEEETransactions on Knowledge and Data Engineering. 27，6（2015），1629-1642.DOI = 10.1109/TKDE.2014.2384497[10]Alvarez-Melis，D.和Saveski，M. 2016. Twitter中的主题建模：按对话聚合推文。第十届网络和社交媒体国际AAAI会议（ICWSM 2016）。（2016年）。[11] 洪湖，澳-地和Davison，B.2010年。Twitter主题建模的实证研究第一届社会化媒体分析研讨会论文集-SOMA '10。（2010年）。DOI = 10.1145/1964858.1964870[12] 阿斯法里岛汉纳奇湖Bentayeb，F.和Boussaid，O.2013年。本体主题建模提取Twitter用户感兴趣的主题。第八届信息技术与应用国际会议（ICITA2013）。（2013），141-146.[13] 唐，Y.，Mao，X.，黄，H.，Shi，X.和Wen，G.2017年。概念化主题建模。多媒体工具和应用。（ 2017 年）。 DOI=https://doi.org/10.1007/s11042-017-5145-4[14] Chemudugunta角Holloway，A. Smyth，P.和Steyvers，M. 2008.通过结合语义概念和无监督统计学习来建模文档。计算机科学讲义。（2008），229-244中所述。DOI = https://doi.org/10.1007/978-3-540-88564-1_15[15] Wu，W.，Li，H.，Wang，H. Zhu，K. 2012. Probase。2012年数据管理国际会议论文集 -SIGMOD'12 。（ 2012 年）。 DOI=10.1145/2213836.2213891[16] Lewis，D.，杨，Y.，Rose，T. Li，F. 2004. RCV1：一个新的文本分类研究基准集。机器学习研究杂志。5，（2004），361-397中所述。图1：研究

下载后可阅读完整内容，剩余1页未读，立即下载