文本数据仓库信息系统的上下文感知模型研究

19 浏览量更新于2024-01-02 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 2（2022）100129面向文本数据仓库Santanu Roya，Saha，Agostino Cortesib，Soumya Senca印度加尔各答未来工程与管理学院b意大利威尼斯Ca' Foscari大学DAIS印度加尔各答加尔各答大学aRT i cL e i nf o保留字：OLAP文本数据仓库信息系统概念层次词嵌入凝聚层次聚类a b sTR a cT利用商业智能的决策支持系统（DSS）是以数值数据为基础的，联机分析处理（OLAP）常用于实现它，然而，商业决策也越来越依赖于文本数据。文本数据仓库的XML研究工作在仅比较强相关文档时具有捕获上下文关系的局限性。本文提出了一种基于信息系统的上下文感知模型，该模型采用词嵌入和凝聚层次聚类算法对文档进行动态分类，形成概念层次。实验评估的结果提供了证据的有效性集成文本数据到数据仓库并通过各种OLAP操作改进决策1. Introducton随着各种业务系统中文本信息的不断增长，组织越来越希望同时近年来，为了使组织数据分析过程自动化以提取商业智能，企业应用基于信息系统（ IS ）的工作系统（ Struijk ， Ou ， Davison ，&Angelopoulos，2022）。信息系统是一个系统，在该系统中，人类和/或机器使用信息、技术和其他资源来执行工作（过程和活动），以为内部或外部客户生产信息产品和/或服务。在数据仓库上执行联机分析处理（OLAP）操作已成为组织实施IS使能决策支持系统的最广泛使用的技术。虽然OLAP工具已被证明对处理结构化数据非常有用，但它们在处理文本数据时面临挑战。通常，数据仓库技术和OLAP工具都无法对文本数据进行分析.此外，由于决策者的OLAP查询通常与上下文相关，因此在利用数据仓库期间必须考虑上下文信息。OLAP系统允许通过多个维度从一个视图导航到另一个视图，这可以有效地用于分析大数据。为了处理文本数据，信息检索（IR）技术通常用于评估数据与由表达所需信息的简单关键字组成的查询的相关性。这种相关性通常基于术语但在文本OLAP系统中，*通讯作者。导航分析，其可以基于与数据仓库模型中不同级别的文本上下文分析相对应的操作。1.1. 研究问题传统上，数据分析侧重于由决策支持系统管理的业务数据，数据主要存储在数据仓库或结构化文件中。在数字化时代和大数据的大量兴起，业务分析必须不断发展与结构化数据的增长相比，非结构化数据的增长速度更快。根据Gartner 2019年的魔力象限，非结构化数据每年增长30%至60%。根据根据ITC研究公司的数据，非结构化数据量将从2018年的33 zettabytes增长到2025年的175 zettabytes，即1750亿TB。在许多复杂的领域，如学术界、研究团体、公司人力资源活动、医疗诊断、社交媒体反馈、在线客户反馈和客户支持，决策者需要有用的指标和工具来分析文本数据并做出业务决策。多年来，数据仓库和OLAP工具已经成为管理大量数据的最有用的信息系统，帮助用户进行商业决策。数据仓库可以使用多种数据模型来实现。多维数据库通常是数据仓库的一部分，以多维数据模型（MDM）为这个模型是使用一组维度和事实来定义的用来判断事实的指标维度是组织要执行分析所电子邮件地址：santanuroy84@gmail.com（S. Roy），cortesi@unive.it（A. Cortesi），iamsoumyasen@gmail.com（S. Sen）。https://doi.org/10.1016/j.jjimei.2022.100129接收日期：2021年9月21日;接收日期：2022年10月1日;接受日期：2022年10月4日2667-0968/© 2022作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据杂志见解期刊主页：www.elsevier.com/locate/jjimeiS. Roy，A. Cortesi和S. 森International Journal of Information Management Data Insights 2（2022）1001292处理.每个维度可以与被称为概念层级的层级相关联。对于导航和可视化，OLAP使用诸如上卷、下钻、切片和骰子等操作（Sen，Roy，Sarkar，Chaki，&Debnath，2014）。传统的OLAP工具在数值型数据时是有效的，但对于文本等非结构化数据则不适用。由于文本数据的快速增长，需要在OLAP分析中考虑数据的文本内容的新方法，它被称为文本OLAP。然而，这不仅涉及处理表示和粒度的异质性，而且涉及处理大量数据。在每个组织中，每天都会产生大量的文本文档因此，应将文件纳入决策支持系统。在数据仓库环境中集成非结构化数据的完美过程是以与结构化数据一样有效和有意义的方式管理、查询和可视化信息。为了捕捉文本OLAP的概念，重要的是提出OLAP操作来处理和分析文本数据，并将其汇总到OLAP多维数据集（Cuzzocrea，2020）中，以便快速有效地做出决策。由于非结构化文本数据的复杂性，长期建立的OLAP操作&研究表明，很少有人尝试对文本数据进行OLAP操作，但即使是当前最先进的文本OLAP算法也无法以完美的精度和准确度从文本中提取语义信息。在OLAP分析中&将语义和上下文嵌入文本数据（Oukid，Ben- blidia，Asfari，Bentayeb，Boussaid，2015）并聚合它们以增强决策制定是商业智能系统中的一项挑战因此，必须修改传统的数据仓库模型并引入新的聚合技术（Sen等人，2014）适合文本OLAP。大多数现有的作品采用信息检索（IR）技术（Kosmopoulos，Androutsopoulos ， &Paliouras ， 2015; Lin ， Ding ， Han ， Zhu ，&Zhao，2008; Oukid等人，2015）来评估一组文本文档和包含简单关键字的OLAP聚合查询之间的语义文本相似性（STS）以表达所需信息。通常，这种上下文分析基于词频和逆文档频率（TF-IDF）或词袋（BOW）方法（Chakrabarty，Roy，&Roy，2018; Kim& Gil，2019;Oukid等人，2015; Ravat，Teste，Tournier，&Zur Zuuh，2008）。然而，这些技术不足以捕获跨维度表的不同级别的相似上下文。因此，从IR系统生成的结果支持在从文本数据仓库开发决策支持系统（SarkarShankar，2021）时提取上下文信息的限制。此外，对于具有概念层次的维度（Sen等人，2014），这些基于特征的向量空间模型（VSM）通常不适合于提取文档之间的层次关系，这是由于它们频繁的近似正交性并且不能捕获语义相似性作为具有相似含义或上下文的不同单词之间的距离的度量。本研究通过将上下文嵌入到模型中并随后执行OLAP操作，确定了在文本数据仓库上进行业务分析的可能机会。这些文本数据可以为任何组织的不同决策过程做出贡献。在这项研究中，作者提出了基于信息系统的上下文感知工作系统模型，结合词嵌入与凝聚层次聚类算法执行OLAP操作的文本数据仓库，以生成IT使公司的报告，可能有助于快速和有效的业务决策。1.2. 拟议方法该模型提出了一种新的方法来创建一个文本数据仓库的文本维组织的上下文（主题集）命名为上下文维及其在实际OLAP系统中的实现。本研究使用星型模式（Sen et al.，2014）构建概念文本数据仓库模型。所提出的方法处理的文本文档和构造一个数据立方体围绕一个中心主题的分析称为事实表定义的几个维度的定义，其中，∈ [1，]。��事实表的集合度量��表示为，存储要聚合的值。一事实F及其维度��和度量集形成了一个星型模式模型，该模型被形式化为：$ ; ��1，��2，...，你��好，2002年，... （掌声）。在根据星型模式排列文档后，提出的方法结合了词嵌入（DeMiranda ， Pasti ， &de Castro ， 2019; Ángel González ， Hurtado ，&Pla，2020; Maas等人，2011; Mikolov，Chen，Corrado，&Dean，2013 a; Mikolov，Sutskever ，Chen，Corrado ，&Dean，2013 b ）（DeMiranda等人，2019）结合凝聚层次聚类方法，通过提取相似文档的上下文相似性来对相似文档进行分组。该方法首先用基于词嵌入的词质心向量表示文本文档，然后对词质心向量应用层次凝聚聚类算法，根据上下文维度之间存在的概念层次对文档进行聚类.这种整体方法是动态的，因为它不需要在al-出租m执行开始时声明设计层次结构中的簇的数量。动态构造的概念层次结构将包括从一组低级概念到更广泛的高级概念的层次映射序列。上下文维度将允许决策者在选择在概念层次结构形成期间自动提取的上下文之后对文档集进行分析和查询。1.3. 拟议方法为了验证我们提出的模型实验研究已经进行了大量的公开可用的简历（生物数据）收集从不同的工作门户网站，可以方便搜索使用技能集，专业领域，一个人的位置，和经验作为上下文维度的多维文本数据仓库模型。在简历数据集上工作的想法已经从Oukid et al.（2015）的论文中进行的研究工作中采用。然而，本文作者已经完成了简历的收集和相应的定制成合适的格式的简历。因此，作者使用的是自己预处理和准备的简历数据集.例如，在简历数据集中，维度Topic（��）包含技能集专业化领域的概念层次结构。概念层次结构的一个例子如图所示。 1.1.4. 新颖性和拟议方法拟议方法的新颖性和发现可列举如下：- 该方法使用词嵌入算法来表示每个文档的质心词向量。实验结果表明，该方法在提取具有很少共同术语的文档之间的上下文相似性方面在结果分析部分，它已被证明所提出的基于词嵌入的方法是优于在提取上下文相似性相比，最先进的VSM模型，使用TF-IDF方法。所提出的方法通过捕获上下文相似性来增强性能，通过基于余弦的相似性度量来测量- 凝聚层次聚类算法根据概念层次对文本文档（简历）进行分类。该方法在动态地形成概念层次结构的基础上，在com-milling的国家的最先进的方法的基础上，显示出很大的改进性能。建议的新颖性S. Roy，A. Cortesi和S. 森International Journal of Information Management Data Insights 2（2022）1001293图1. 维度Topic （）的概念层次结构示例。概念层次结构的形成方法通过以下两个事实来理解：a）在执行算法之前不需要声明根据所提出的该算法动态地选择聚类数目和产生最高Silhouette得分的相应链接标准。b）在概念层次结构的形成期间，新概念基于它们的上下文相似性被自动添加到概念层次结构这是对基于向量空间模型（VSM）的上下文相似度捕获算法的一个E-x工作要求概念层次结构中的叶概念作为属于不同概念（主题）的一些术语或单词的集合静态地提供（作为输入）。因此，现有的方法在文档处理过程中动态添加由新词或术语表示的新概念方面受到很大c）在概念层次形成之后经理的活动对应于招聘广告和随后的求职者的求职申请），执行OLAP聚合操作的一组文件。本文提出的模型可以提取有用的信息，为企业的情报工作提供支持。d）最先进的算法通过基于TF-IDF的向量来表示文本随着文档数量的增加，这些稀疏的基于TF-IDF的向量可以是非常高维的。与此相反，该模型表示每个文档的维数较低的密集质心词向量。因此，处理低维词向量以用于使用设定的OLAP查询的上下文相似性计算比扫描通过高维TF-IDF向量所需的处理时间快得多。因此，在实验评估中，提出的模型在加快OLAP操作的执行时间方面表现出相当大的改进本文可以被视为IJIM Data Insights最近讨论的决策支持系统数据分析技术应用相关问题的进一步贡献。特别值得一提的是，我们在文本数据分析处理方面的贡献可以有效地与自然语言处理（NLP）和大数据分析（ Atkinson &Escudero ， 2022; Georgiadou ， Angelopoulos ，&Drake，2020）以及文本内容安全管理（Fujii，Sakaji，Masuyama，&Sasaki，2022; Wadud等人，2022），商业情报（Unhelkar等人，2022）和复杂的决策问题（Razavisousan& Joshi，2022）。本文的目的是提供一个模型，在文本数据仓库中执行OLAP操作。该模型可以捕捉文档之间的上下文相似性，从而对文档进行分类。根据存在于上下文维度之间的动态形成的概念层级来划分。1.5. 文件的结构第二部分讨论了文本联机分析处理领域的相关工作现有工程的局限性在第3节中讨论。第4节介绍了与所提出的方法相关的基本概念。第5节描述了拟定方法。第6节讨论了实验评价所需的材料和方法。在第7中讨论了EX perimental- tal结果和拟议方法的性能分析。关于效率工作的讨论见第8节。第9节结束2. 相关工作在这个数字化时代，数据仓库在工业中被广泛使用Bouakkaz，Ouinten，Loudcher，Strekalova（2017）提出的一项调查工作将文本OLAP和聚合技术大致分为两大类，基于数据结构（如数据立方体的属性）的方法不基于数据结构的方法进一步分为四个子类，基于语言知识的方法，基于外部知识的方法，基于图形的方法和基于统计信息的方法。下面将详细介绍这些方法2.1. 基于数据结构和数据模型的方法Park，Han，Song（2005）提出的X-OLAP：（XML-OLAP）是基于文本挖掘的方法。XML-OLAP基于文本挖掘技术，它聚合XML文档的文本内容。这种分析存储在数据仓库中的XML文档的方法由多维模型表示。DocCube ： DocCube 由 Mothe ， Chrisment ， Dous- set ， AlauX（2003）介绍。它将文档的几个事实视为维度。这些维表类似于OLAP系统的标准。然而，DocCube的主要特征就像包含链接的事实表的内容一样。Topic Cube：Zhang，Zhai，Han（2009）提出了一种称为TopicCube的方法，Topic Cube的主要思想是使用层次化的主题树作为文本维度的层次结构这个结构允许用户沿着这个树向下钻取和向上滚取，并发现文本文档的内容S. Roy，A. Cortesi和S. 森International Journal of Information Management Data Insights 2（2022）1001294文本立方体：为了在文本聚合中引入语义方面，Lin et al. （2008）提出了一种数据立方体的方法，称为文本立方体。其主要思想是让用户有可能在数据维中进行语义导航。为了实现这一点，两个OLAP操作，如上拉和下推。R-Cube：Perez，Aramburu，Berlanga，Pedersen（2007）专注于在同一数据仓库中集成结构化和文本数据的任务。本文提出了一种决策支持系统的体系结构，即上下文化数据仓库，它允许用户通过分析不同上下文下的数据，从异构数据和文档中获取知识。立方体索引： Azabou ， Khrouf ， Feki ， Soulé-Dupuy ， Val- lès（2015）提出了一种称为立方体索引的模型，该模型基于对每个文档的分层描述这种层次结构指定了一个文档中单词之间的关系它用于分析文档中不同抽象级别它支持TF-IDF（词频-逆文档频率），以促进信息检索技术。2.2. 基于内容文献中发现的通过最具代表性的关键字描述文档仓库而不使用数据结构或第一种是基于语言知识，第二种是基于外部知识的使用，第三种是基于图形，最后一种是使用统计方法。2.2.1. 基于语言知识的方法基于语言学知识的方法将语料库看作是文档中提到的词汇的集合，但其结果有时是模糊的。为了克服这一障碍，引入了基于词汇知识和句法知识预览的技术。Kohomban Lee（2007）描述了一种基于话语的科学词汇变量的文本在这些词汇变量中，他们选择名词，因为它们更有可能强调科学概念，而不是副词，动词或形容词。2.2.2. 基于外部知识的方法基于使用外部知识的方法选择代表域的某些关键字这些方法通常使用知识模型，Ravat，Song，Teste，Trojahn（2020）提出了一种聚合函数，该函数将从语料库的文档中提取的一组关键字作为输入，并输出另一组聚合的关键字。他们假设本体和文档主体属于同一个域。Oukidet al.（2015）提出了一种聚合运算符Orank（OLAP rank），它通过使用向量空间表示以降序排列文档来聚合一组文档。在Chakrabarty等人（2018）讨论的研究工作中使用了相同的概念传播技术。该工作（Chakrabarty等人，2018）使用基于上下文感知的模糊分类技术从文本文档中捕获语义本体，并根据相关概念对其进行分类以进行聚合。2.2.3. 基于图的基于图的方法使用关键字来构造图，其中每个节点代表预处理和候选选择后获得的关键字边表示两个关键字之间的强度或相关性（或语义相关性）在图形表示步骤之后，已经尝试了不同类型的关键词排名方法。第一个提出的是一种称为TextRank的方法（Mihalcea& Tarau，2004），其中边缘表示关键字之间的同现关系。Bouakkaz，Loud-cher，Ouinten（2016）的两个连续的研究工作专注于文本聚合技术。在他们早期的工作Bouakkaz等人。（2016）提出了一种方法，基于结构的文档关键词聚合使用关键字之间的相似性的图。基于词频的关键词抽取技术已在这项工作中使用。以下工作（Bouakkaz等人，2017）尝试通过使用Google相似性距离度量应用均值算法来捕获关键字的语义聚集。2.2.4. 基于统计方法的方法基于统计方法的方法利用术语的出现频率和术语之间的相关性。Landauer，Foltz，&Laham（1998）提出了一种称为潜在语义分析（LSA）的方法，其中语料库由矩阵表示，其中行表示文档，列表示关键字。Ravat et al.（2008）提出了第二个聚合函数TOP- Keywords来聚合关键词。他们使用TF-IDF函数计算术语的频率，然后选择第一个最频繁的术语。本节中讨论的论文提供了相当多的方法选择，适用于各种数据集，以在文本数据上执行OLAP操作。大多数技术将文本挖掘方法与OLAP聚合操作相结合。3. 最新方法的局限性通过第二的文献综述，可以看出现有的文本OLAP支持的研究工作存在以下局限性。1总结了一些处理上下文感知文本数据仓库的工作。1. Azabouet al.（2015），Bouakkaz et al.（2016），Chakrabartyet al.（2018），Manuel Pérez-Martínez，Berlanga- Llavori，Aramburu-Cabo ， &Pedersen （ 2008 ）， Oukid etal.（2015），Ravat等人（2008）试图专注于在文本OLAP分析期间捕获上下文信息。然而，在所有这些方案中，使用BOW模型、TF计算之间的模型或使用TF-IDF特征向量来表示文档。在对不同文档的相关部分进行比较时，这些技术往往不适合把握上下文之间的语义关系。在BOW表示中，词汇表中的每个单词被表示为因此，所得到的向量是高维稀疏向量（大部分为零分量）。标准的特征选择算法可以用来降低维度。然而，如果在用于OLAP分析的生物医学文本文档数据集中形成概念层次结构，则概念（类）的数量可以扩展到几千的数量级（Kosmopoulos等人，2015年）。在这些类型的场景中，即使每个类具有最少数量的特征（在应用特征选择算法之后），表示每个文档的特征的总数也可能包含向量空间模型（VSM）中的大量特征。这些高维特征向量中的OLAP查询处理可能非常慢。2. 关于文本-OLAP，很少有著作涉及概念层次结构（Sen等人，2014）存在于某个上下文域中。Chakrabartyet al.（2018）和Oukid et al.（2015）提出的研究强调了具有概念层次的上下文维度。这两种方法都使用相关性/概念传播技术来计算跨概念层次结构的不同级别的文档的上下文项权重。然而，这两种方法都假设概念层次结构的静态结构，其中有一些与概念相关的任意术语这种方法是非常低效的，因为随着数据集大小的增加而发现的任何概念（除了在开始时静态提到的概念）都不会被归类到专业化主题（类）的适当域中研究S. Roy，A. Cortesi和S. 森International Journal of Information Management Data Insights 2（2022）1001295∑⟨⟩��⃗∑��⃗��=��=1=1| |∑1∑表1上下文感知文本OLAP的研究成果比较Works数据格式方法使用概念层次结构的形成概念层次结构的性质（Ravat等人， 2008）XMLTF-IDF无NA（Azabou等人， 2015）文本TF-IDF无NA（Lin等人， 2008）文本立方体没有NA（Bouakkaz等人， 2016）文本图/TF-IDF无NA（Bouakkaz等人， 2017）文本图/TF-IDF无NA（Oukid等人， 2015）文本TF-IDF是静态（Chakrabarty等人， 2018）文本TF-IDF是静态建议工作文本字矢量是动态Bouakkaz et al.（2017）试图通过使用Google相似性距离度量来聚合关键词。然而，这项研究也支持从静态声明的聚类数的问题，因为它使用的聚类-均值算法来发现关键字之间的相似性。��（��+��x��）被定义为softmax，其中��是的目标嵌入向量��，��是上下文嵌入向量。嵌入��是保留的，��是副产品。以下定义用于Skip-gram：电子邮件4. 材料和理论基础��（=1电子邮件（二）我们的建议（在第5中讨论）是基于一系列已经在文献中介绍过的在本节中，我们列出了它们最后，利用这些方程生成文本文档的词嵌入向量。系统地，给予信贷谁介绍了他们，我们指出如何任何两个嵌入向量之间的相似性表示为⃗它们是我们解决办法的决定性因素。单词嵌入技术及其相关的��分别是由余弦相似性距离测量的d（Oukid等人， 2015年），并计算为：Word2Vec算法见第4.1。一词的使用-��(��⃗,��⃗)=-��是��的��⃗��（三）在第4.1节中还强调了基于层面的质心向量。所提出的方法使用层次凝聚聚类||��.��||. ||��⃗��||算法应用在质心向量上，根据概念层次对文档进行分类并进行了广泛的讨论在第4.2节中讨论了具有不同链接标准的凝聚层次聚类算法。在拟议的方法中的树状图的效用也进行了解释。4.1. 单词嵌入4.1.1. 文档质心在计算了所有词汇表单词的密集向量之后，获得文本文档的密集向量（相同维度）的最简单方法��=��1， 2，.，�� 连续��单词出现s的计算方法是简单地计算��单词出现的密集��向量的质心：近年来，词嵌入产生了大量的跨语言现象，d=∑|��| -��是��的��(��,��)（四）est在文本分析中（Angel González等人， 2020）研究领域1 个(, )自从两个非常简单的对数线性模型（Mikolov等人，2013 a; Mikolov等人，2013年b），提出了优于所有以前的NLP模型。Word2Vec已经成为所有NLP模型的基础当然，也有人提出了使用深度学习递归神经网络（RNN）进行改进的建议。然而，正如Kosmopoulos等人（2015）所建议的那样，我们在此使用等式计算文档质心向量。(5)以tak-将其标记/单词的IDF分数考虑在内。如Kosmopoulos等人（2015）所示，这种修改导致文档分类性能的改善。基于长短期记忆（LSTM）（Alcamo，Cuzzocrea，Bosco，d∑|��| -��是��的�� （��，��）。电子邮件：info@jiangshi.com��=Pilato，Schicchi，2020）节点以及最近的BERT算法（Devlin，Chang，Lee，Toutanova，2019），但在过去的五年里，= 1∑|��|��(��,��).��(��)（五）嵌入已被证明是一个强有力的基线。深层神经系统Net LSTM模型和基于单词嵌入的模型可扩展到非常大的语料库大小，并产生准确的结果。然而，词嵌入模型在体系结构上非常简单.基于词嵌入的算法还具有显著降低时间复杂度的优点。因此，最近关于捕获文本中语义上下文的作品（Krishna &Sharada，2019; Periñán-Pascual，2021）仍然采用单词嵌入技术作为文本挖掘任务中的最先进技术之一。简要介绍了Skip-gram模型的工作原理假设有一个语料库，一个单词序列 1，2，...， �� .窗口由参数c定义，其中目标右侧和左侧的c个单词被取。对于Skip-gram，每个上下文都是在给定目标的情况下独立预测的要最大化的目标函数定义为：她的e是词汇量，是第j个词汇，rep-��表示其嵌入，TF（，d）是在中的词频，IDF（）表示的逆文档频率。4.2. 凝聚层次聚类算法凝聚聚类技术使用自下而上的方法执行层次两个聚类之间的距离是根据从一个聚类到另一个聚类的直线长度计算的。我们已经使用词向量表示文档，因此，如Mikolov等人（2013a，2013b）中所讨论的，如果它们被映射到欧几里得空间中，则可以观察到相似的词对倾向于表现出相似的位移向量。使得双头（双头+双头）（1）��“DBMS”和“MS-Access”之间的直线距离将等于“Data Science”和“Python”之间的直线距离。保持��=1 −��Skip-gram将在单词“”的上下文窗口中观察到单词“”+“”的概率考虑到词向量的这种性质，在所提出的方法中，我们使用欧几里德距离作为距离度量来计算两个聚类之间的距离选择距离度量后，1S. Roy，A. Cortesi和S. 森International Journal of Information Management Data Insights 2（2022）1001296+||表2Lance-Williams更新不同聚集方法的公式参数与相异性度量的定义。方法相异性度量单连杆0.50.500.5全联动0.5 0.5 0 0.5全联动平均链接数电子邮件0 0Ward+电子邮件−��0 2++++++同一类中的其他点和样本与下一个最近聚类中的所有其他点然后，单个样本的Silhouette Coe有效系数如下：为��−��( , )（七）图2. 树图采用平均连锁凝聚聚类算法。需要确定从何处计算距离（链接标准）。例如，它可以在一个集群的两个最相似的部分（单链接），一个集群的两个最不相似的位（完全链接），集群的中心（平均或平均链接）或一些其他标准之间计算已经制定了许多联系标准。本工作中描述的所有分层方法都可以通过广泛使用的 Lance-Williams 相异性更新公式（ Theodorphic Koutroumbas ，2009）轻松实现。Lance-Williams更新的公式允许我们直接计算这个距离，根据以下公式：��=��.��+��.��−��（6）�� 凝聚性标准由系数、、和来定义。表2中还描述了两种不同类型的相异性度量。相异性度量可以是欧几里得距离，最佳值为1，最差值为-1。对于凝聚层次聚类，可以针对若干切割（��= 2，3，..，N-1）。用户选择具有最大轮廓系数值的轮廓5. 拟议方法在本节中，我们将介绍并讨论一种新颖的上下文感知模型，该模型使用词嵌入结合凝聚层次聚类算法来动态地对文档进行分类，以形成概念层次结构。所提出的方法可以大致分为4个步骤：（i）原始文本文件首先表示为文档质心向量（见5.1节），（ii）凝聚层次聚类算法用于形成概念层次结构（见5.2节）。本文提出了两种新的算法来执行前两个任务(iii)根据相关概念对聚类进行标记（见第5.3节）。最后，（iv）根据业务需求执行OLAP聚合操作（参见第7.4节）。该方法的示意图见图10。 3.5.1. 文档质心向量的计算原始文本的初始预处理包括去除文档中存在的停用词，以准备有意义的术语语料库。在大的文档语料库（简历）上，执行Skip-gram al-出租以形成词嵌入向量。随后，使用Eq. （5）在第或其平方值。、和中的文档数量第4.1.1条。因此，文本文档被表示为二维的聚类分别为10、11和124.2.1. 树状图在概念层次形成中的应用在概念层级的形成过程中，树状图（Angel González et al.，2020）结构，以获得用于计算出所形成的层次结构的概念（簇）的数量的视觉表示。它被创建为分层聚类算法的输出，并以树形图的形式显示。使用树状图是为了确定在紧凑性和紧密性方面最适合数据的聚类数量。树状图的不同部分如图2所示。这个树状图是通过从我们的数据集中选择20个随机文档（CV）进行实验来实现的。水平轴指示文档的数量，并且垂直轴对应于文档之间的相异性度量。在建议的方法中，我们使用了Silhouette Coe系数（）（Shahapure&Nicholas，2020）来更准确地选择最适合文件的最佳数字。在树状图中也使用了截断方法，以直观地表示层次中的概念。为每个样本定义轮廓系数（λ），由两个分数组成：a-样本与所有样本之间的平均距离[ =50，100，200]密集字向量。形成doc的步骤从原始文本文档的质心向量的形式化的一种新的算法，并提出了算法1。5.2. 基于层次凝聚聚类的文档分类在将文本文档表示为三维文档质心向量（算法1的输出）之后，我们将凝聚层次聚类算法应用于质心向量以将它们分类到一组聚类中。每个聚类表示具有概念层级的维度的概念。我们使用了最先进的标准凝聚层次聚类算法（Theodorphic& Koutroumbas，2009），保持了链接标准的通用性。Lance-Williams相异度更新公式（等式(6)）已被用作通用相异性度量。然而，链接标准的最终选择和聚类数量的选择已经基于轮廓系数（）（等式10）决定。(7)）在实验过程中获得的分数。产生最高Silhouette评分值的链接方法被认为是特定数据集的合适聚集链接标准。形成概念层次的方法学被呈现为算法2。S. Roy，A. Cortesi和S. 森International Journal of Information Management Data Insights 2（2022）1001297| |⟨⟩��=1图三. 拟议方法示意图。算法1构建基于词嵌入的文档质心向量.输入：{��∶ ��∈��}-语料库D中的文档（原始文本格式），-文件数量Word2Vec模型的窗口大小，算法2 概念层次的动态形成。输入：{∶∈}��-文档质心向量（算法1的��-文件数量连锁标准（根据最大轮廓评分选择），��嵌入的非对称性（- 距离度量（使用等式(6))任何两个集群- 词汇量结果：{��∶�� ∈��}-每个文档的质心向量预处理：每个文档��通过执行停止词去除和标记化进行预处理。每个预处理的文档 ��都表示为一系列有意义的单词。��=�� 重��覆��Repeat重复：��-计算词汇表中的单词“”的词频��“（，）��"��在文件中，借计算在文件中出现的次数，以计算在文件中出现的次数。��and��, ∀��,��∈��结果：概念层次结构中文档的分配��重复，重复= 1到1��-��-��结束{重复}={}Repeat重复.重复次数> 1- {��1��，2}��=minimum（��，），��，∈��-计算文档��的逆文档频率（逆文档频率）- 删除密码1 ，2 来自文件中包含的单词中文（简体）- 将{}}添加到{}结束{重复}- 通过 �� 执行具有窗口大小的Skip-gram算法来计算单词所属的单词嵌入向量。- 通过使用等式（1），通过组合术语频率、逆文档频率和属于文档词的每个词的词嵌入向量的结果来计算文档词的文档质心向量��(5)如：=∑|��| -��是��的�� （��，��）。电子邮件：info@jiangshi.com��用一个或多个概念名称作为该特定聚类的标签，但最终，我们选择具有最高平均余弦相似性值的一个，该余弦相似性值具有20个最频繁出现的术语。层次结构中的前趋概念由所产生的树状图的分支标记。结合后代集群，连接-结束{Repeat}结束{Repeat}��{��⃗��∶ ��∈��}=1∑|��|��(��,��).��(��)进化枝也被标记有适当的概念名称。最后，层次结构的根被标记为覆盖所有后代概念的最一般化的概念。6. 实验评价我们通过使用以下组件完成了实验以说明所提出的方法的有效性。5.3. 概念层次在应用凝聚层次聚类算法后，文档被聚类在概念的层次中。标签是为聚类选择描述性和人类可读的标签/名称的任务，这些标签/名称总结了聚类的概念或主题。标签将聚类彼此区分开。这是唯一需要人为干预的步骤。在所提出的方法中，我们挑选了属于特定聚类概念的20个最之后，我们咨询了领域专家，并参考了不同求职门户网站上常见问题中相关主题的查询日志。后来有人建议我们6.1. 基准数据集创建数据集的选择对于解释所提出的方法的功能至关重要这里，出于以下原因选择简历数据集：（i）简历通常本质上是结构化的，因此可以很好地定义不同的上下文维度。在文本OLAP环境中，用户或决策者通常基于上下文的概念提出查询例如，候选人的候选资格可以通过一起参考几个上下文维度来入围，例如，在技能集、经验年数、工作地点、资格等方面的经验。S. Roy，A. Cortesi和S. 森International Journal of Information Management Data Insights 2（2022）1001298| |表3数据集描述。数据集特性的样品特征数量值范围缺失值性质班级数数据集-I多元8502000.0- 一点没有密集5数据集-II多元80500.0- 一点没有密集4数据集-III多元802000.0- 一点没有稀疏4必须加以考虑。使用简历数据集的结构化格式，更容易基于上下文因素分离简历的不同分区语境因素可以表示为语境维度。例如，简历可以很容易地格式化和分割成一组上下文维度，如技能集，位置等。（ii）这些上下文维度中的一些，如技能集和位置保持概念层次结构，因此可以执行OLAP操作，如上卷，下钻上下文概念层次结

下载后可阅读完整内容，剩余1页未读，立即下载