没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报一种增强的DSSM(Deep Semantic Structure Modeling)职位推荐技术Ravita MishraRathi,Sheetal RathiThakur College of Engg.计算机科学与工程印度孟买Kandivali East,Thakur Village,Shyamnarayan Thakur Marg,400101,阿提奇莱因福奥文章历史记录:收到2021年2021年7月5日修订2021年7月25日接受在线预订2021年保留字:基于内容的过滤(CB)BM 25协同过滤(CF)DSSM(深度语义结构建模)混合过滤(HF)Adam优化器LSTM(长短期记忆)A B S T R A C T目前的一日推荐系统解决了海量信息过载的问题,只为应聘者提供集中于职位领域相关信息的推荐服务。工作推荐系统在招聘新人和有经验的人的过程中起着重要的作用。现有的职位推荐系统主要集中在基于内容的过滤和协同过滤两个方面,前者用于提取用户的个人资料内容,后者用于以评分的形式捕捉用户的行为。就业市场的动态性质导致冷启动和可扩展性问题。这个问题可以通过基于项目的协同过滤与机器学习技术来解决现有的职位推荐模型采用约束模型来解决冷启动和可扩展性问题,并提供更好的推荐,但它们不能接受职位描述和候选人档案之间的复杂关系。在本文中,我们提出了一个深层语义结构算法,克服了现有系统的问题。深层语义结构建模(DSSM)系统使用语义表示它以字符三元组格式表示工作描述和技能实体,这增加了系统的效率我们将结果与DSSM模型的三种变体进行比较,并使用两个不同的数据集(Naukari.com和CareerBuilder)。com),并给出了令人满意的结果。实验结果表明,DSSM嵌入模型及其变形在解决冷启动问题时,与几种变形的嵌入模型相比,具有较好的效果。我们使用Xavier初始化器来初始化模型参数,使用Adam优化器来优化系统性能。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍机器学习算法的效率在很大程度上依赖于输入数据的良好表现。不适当的数据表示会导致与良好的数据表示相比性能增益较低,因此长期以来,特征工程一直是机器学习的重要组成部分,其重点是从原始数据中构建特征。深度学习*通讯作者:电话:+91 9766027442。电子邮件地址:m. gmail.com(R.Mishra),sheetal.rathi@tion.org(S。Rathi)。沙特国王大学负责同行审查制作和主办:Elsevier算法以自动化的方式执行特征提取,其利用最少的领域知识、人工努力来提取有区别的特征,并且以分层架构来呈现数据。深度学习的主要优势在于它模仿了人类大脑的工作方式,并且受到了人工智能(AI)的启发 。 深 度 学 习 将 机 器 学 习 转 移 到 新 的 阶 段 , 即 “ 更 智 能 的 AI”(Deeplearning)。第 一章推荐系统中使用的神经网络模型不需要额外的努力就能发现用户和项目之间的交互。该街区分为两个主要部分。第一个块评估用户项评级,并获得要素并生成评级矩阵(Ricci等人,2016; Aggrawal,2020,Schmitt et.例如,2016年)。第一块的输入被认为是模型的提取特征。类似地,输出块是由用户生成的某个概率分数的表示。出于预测目的,将使用排名最高和概率最高的分数。深度学习模型可以有效提高推荐准确率,https://doi.org/10.1016/j.jksuci.2021.07.0181319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comR. Mishra和S. Rathi沙特国王大学学报7791Fig. 1.深度学习推荐系统。可伸缩性问题(Zhang等人,2018; Mu,2018; Batmaz等人,2018;Jan等人, 2019年)的报告。 在工作领域,推荐系统在服务的两端都起着至关重要的作用(图。 2)的情况。本节包括推荐系统的局限性和不同的文本分类方法以及深度学习技术的向量表示。工作推荐系统中的主要问题是冷启动和数据稀疏(图1和图2)。 3、4、5、6)。1.1. 冷启动作业在系统中的短寿命性质和快速进入新用户和新作业的速度都产生了冷启动问题。个性化的改进PageRank算法通过加入职位的受欢迎程度来提高排名.在动态推荐系统中,行为数据(点击和应用程序)会导致冷启动问题,因为新工作/新用户以非常高的速度进入许多用户在一段时间内不与新作业交互时并不活跃为了解决这个问题,从用户简历中识别活跃用户和全新用户图二. 文本分类中的深度学习方法。图三. 深度学习研究方向。见图4。 建议的DSSM-SJR模型。图五. DSSM的数学模型并将修改的页面排名算法应用于从候选简历中提取的特征。1.2. 数据稀疏性余弦相似性和相关性度量在实际应用中不它使用各种显式和隐式信号,这引入了高水平的数据稀疏性问题。在高级或修改的相似性测量的帮助下,我们将减少数据稀疏性问题,它捕获不同行为数据源之间的关系(Kumar和Sharma,2015; Bobadilla等人, 2013年)。R. Mishra和S. Rathi沙特国王大学学报7792见图6。 DSSM基本模型。1.3. 文本分类中的深度学习方法深度学习推荐模型使用了许多神经网络概念;这里讨论了一些。基于前馈网络的模型,将文本视为一个词袋。在递归神经网络(RNNs)模型中,文本应该被视为一个单词序列,它也可以很容易地捕获单词依赖关系和文本结构第二分类模型是为计算机视觉任务和各种NLP任务开发的卷积神经网络(CNN)。这些模型被进一步训练以识别文本、关键短语和图像的模式(Xie等人,2018; Minaee等人,2020年)。该模型由三种类型的层组成:第一层卷积层,这一层在滑动核的帮助下提取图像的局部特征。第二层是非线性层,它主要用于非线性激活函数的取值。最后一层池层用于聚合局部特征并形成全局特征。由于使用了内核,CNN另一类文本分类方法是胶囊网络,它解决了CNN池化层信息丢失问题。注意力机制有效地识别文本中的相关词,并已成为开发深度学习应用程序的有用工具。简而言之,语言模型可以被解释为重要性权重的向量。注意力机制预测句子中的一个词,并估计它与使用注意力向量的相关程度。类似地,其他单词将它们的值之和通过注意力向量加权作为目标的近似值。在文本分类方法中,其他类别是将神经网络与外部记忆形式相结合的记忆增强网络。它使用了可以读写的技术。在Transformer机制中,与RNN,CNN和其他文本分类技术相比,实现了更多的并行性。在Transformer中,可以使用GPU集群预训练非常大的语言模型,并实现更多的并行性。根据观察,RNN总是遭受计算瓶颈。为了解决这个问题,Transformer模型将为句子或文档中的每个单词提供并行计算一个“注意力分数”来模拟每个单词对另一个单词的影响。Transformer模型体系结构在加密和解密组件中都包含了大量的层。每一层都有毛皮-另外两个子层包括多头注意层。这一层之后是一个位置前馈网络。最后一类神经网络是图神经网络,其设计用于使用自然语言处理来捕获图的内部结构。在图神经网络中,语法和语义解析树是为语法公式而设计的。暹罗神经网络也是为文本匹配设计的其他类别的文本分类,并且在文本分类任务的特殊情况下是有帮助的(Minaee等人, 2020年)。1.4. 深度学习研究方向在深度学习技术中,文本分类是重要的范例,并且在许多实时应用中非常有用。为了方便起见,我们根据它们对研究的贡献将这些模型分为以下类别:RNN,LSTM和DSSM(Fakhfakh et al.,2017年)。1.5. 递归神经网络(RNN)和长短期记忆(LSTM)RNN的主要功能是处理文本、语音和视频等序列数据,但它无法捕获非常长的序列和长期依赖性数据。由于RNN的梯度消失和爆炸问题,在许多实际应用中会出现这个问题。为了解决这个问题,设计了一种名为LSTM的新变体,以捕获长期依赖关系并解决长序列中出现的问题。1.6. 文本的矢量表示在职位推荐中,我们必须以矢量或数字形式表示文本,因此为了检索所需文本文档的相似性,我们使用了不同的相似性度量,通过查找距离来比较它们会更容易。在本节中,我们将讨论和描述接收文档嵌入向量的各种方法。给定一对或一组文本文档,具有某种领域语言的人可以找到彼此相似的文本文档,甚至可以识别某种程度的相似性或对它们进行排名。为了自动找出哪些文档是相似的,必须计算它们之间的相似系数,为了计算它,我们必须将这些文档表示为向量。因此,我们必须找出特定文档集在某个向量空间中的最佳表示。对于文本的矢量表示,我们使用了不同的技术来查找它们之间的相似性并检查它们的准确性。下面讨论几种嵌入技术1. Bag of Words(英语:Bag of Words)这种方法通过文档中使用的单词集来比较文档,表示某个单词对文档语义的贡献程度,在大多数情况下可能执行得很好。缺点:它无法捕捉文档中的词序,它们的上下文以及同义词和短语之间的相似性。N-gram是一种先进的n-gram方法,它可以导致统计上显着的改进,只有相当特定的数据集。单词袋和n-gram适用于不常见的单词。2. CBOW模型:CBOW模型根据上下文预测单词。它获取上下文向量,计算它们的总和并预测目标。Skip-gram是CBOW模型的扩展,其中每个单词都被单独预测。R. Mishra和S. Rathi沙特国王大学学报77933. TF-IDF(词频-逆文档频率):Tf-idf是BOW的加权形式的扩展,用于评估文档中的重要单词。Tf-idf将通过以下公式进行评估:Tf-idf = Tf(w,d)* idf(w,D)Tf(w,d)是单词w在集合D的文档d中出现的次数。idf(w,D)指示集合D中的词w的逆文档频率等式1。4. 潜在语义分析。潜在语义分析还试图解决多个术语可以指代同一对象的问题。LDA(Latent Dirichlet Allocation)学习给定单词中的潜在主题变量,并专注于每个单词的语义。Tf-idf和LDA在动态数据中没有给出显著的结果。5. BM 25:这是词袋的另一种加权方案,其主要用于搜索,但也可以用于将文档彼此合并。它与TF-IDF非常相似,但引入了几个需要调整的超参数。因此,对于BM 25,TF部分计算为:tf = tf(k + 1)k(1 - b + bj Dj/davg + tf)<$2其中k和b是一些超参数,DL是文档长度,AVDL是平均文档长度。引入超参数规范文档长度,以确保TF部分的单调增长。在这种情况下,与TF-IDF等式2中类似地计算IDF。6. Word2Vec:在这个模型中,每个单词都是由它在句子中出现的上下文单词定义的。米科-洛夫等。在利用每个单词及其n-gram上下文单词生成的n-gram元组上训练神经网络。该模型训练神经网络,并使用其描述生成每个作业对的分布式表示。这种现象也被称为嵌入。对于分别用于作业i、j的嵌入向量vi、vj,我们计算基于嵌入的余弦相似性得分。在向量空间之间。Sent2Vec方法主要使用深度结构化语义模型来执行映射。通过对现有的嵌入模型的分析和比较,我们发现现有的嵌入模型在稀疏和动态数据上的效果并不突出,因此需要一种适用于不同数据集和参数的嵌入模型2. 文献调查这一节总结了推荐系统的类型和技术,在许多应用中使用。在2016年,2020年Ricci,Charu等人(Ricci等人,2016;Aggrawal,2020)给出了推荐系统,机器学习和深度学习技术的基本思想。2018年,Shau,R. Mu等人(Zhang等人,2018; Mu,2018; Batmaz等人, 2018)讨论了深度学习研究的前景和问题,作者还讨论了该领域的许多研究方向。2013年和2016年,B。Ram,etal. (Jan等人,2019; Kumar和Sharma,2015; Bobadilla等人,2013)提出了推荐系统概述和现有的方法来学习用户简档和执行推荐协作过滤、基于内容的方法和互惠推荐器。重点是改进现有的基于内容的推荐系统使用密集向量表示的职位发布。2018年(Xie etal.,2018; Minaee等人,2020; Fakhfakh等人,2017),R.Fakhfakh等人讨论了使用深度学习方法和NLP以及深度学习问题及其在大数据中的应用在2018年,2019年,(Valverde-Rebaza等人,2018; Mishra和Rathi,2019; Yuan等人,Ravita等人比较了工作推荐系统的性能,并提出了一种使用深度神经网络匹配工作和简历的混合方法。他们讨论了帮助我们在现实生活中应用的关键见解。提出了一种新的方法来估计协同过滤向量,以处理冷启动问题。讨论了不同的文档嵌入方法。在 2013 年 , 2015 年 , ( Elkahky 等 人 , 2015; Huang 等 人 ,2013;Chiranjeevi等人,2016; Wang等人,2019)Xiaodong et al. 作者SIMVi:Vj讨论DSSM背后的基本思想及其变化。的ðði;jÞ ¼jjVijjj Vjjjð3Þ7. Doc2vec:引入了类似的技术,不仅可以学习单词的固定长度表示,还可以学习句子,段落和文档的固定长度表示,称为段落向量或Doc2Vec。Doc2vec方法使用与CBOW模型类似的逻辑,但不是仅使用上下文中的单词来预测下一个单词,而是使用与一个唯一的文档向量来预测这个单词。 在这里,每个词都在段落之间共享,但每个段落并不是所有语料库都共享的。8. 自动编码器:另一种直接生成文档嵌入的方法最简单的自动编码器是一个浅层神经网络,其目标是尝试在输出层重建输入。根据使用什么作为正则化,有不同类型的自动编码器。Autoencoder9. Sent 2 Vec:在这种方法中,短文本字符串,如句子或一对查询-答案被映射到连续和低维空间中的特征向量在该方法中,文本串之间的相似度被计算为余弦相似度使用卷积神经网络的数据语义表示-工作还讨论和显示不同的数据集上的实验作者提出了基于内容的推荐,以解决系统的可扩展性问题。本文还讨论了在搜索引擎中使用文本哈希技术的DSSM。在2014年,2018年(Chen等人,2014; Palangi等人,2016年;Tang等人,Chen等人讨论了如何通过LSTM实现文本和句子嵌入,以及在不同语言翻译器模型中对实体进行语义表示。在2018年,2020年(Abualigah等人,2021; Zhong等人,2020),Laith等人讨论了adams和 算法 优 化 器如 何 提 高系 统 的 性能 。 在 2016 年 ( Seide 和Agarwal,2016),F。Siede等人介绍了深度学习工具包的CNTK教程,并讨论了许多使用CNTK工具轻松实现的深度学习应用程序。在2021年(Elshawi等人,2021),Eleshwri等人提出了一种用于深度学习评估的DLBench方法,并讨论了深度学习技术的比较分析。在2016年(Elsafty,2013),讨论了如何通过使用深度协同过滤来解决冷启动问题,并讨论了其他研究方向2013年(Kivimaki等人, 2013)讨论了基于图的方法,该方法从文本文档中执行技能提取,并产生一系列专业技能,R. Mishra和S. Rathi沙特国王大学学报7794P. .2019年12月28日星期一与给定的输入文本相关。2017年(Shalaby等人,2017年),Wahib等人提出了一种用于工作推荐领域的基于混合图的方法,并且还讨论了该方法的局限性。2013年(Kivimaki等人,2013)基于图的方法也用于从简历中提取技能和工作描述。2016年,ch等人提出了使用DSSM的文本检索技术,并讨论了文本检索的大数据应用。DSSM使用基于深度神经网络(DNN)的建模技术来表示连续语义空间中的文本字符串。它计算两个文本字符串之间的语义相似度。DSSM技术已被应用于不同的应用领域,如网站排名、广告选择、信息检索、语言翻译、图像字幕,主要用于所有的求职招聘任务。在2018年(Ramanath等人,2018)作者讨论了嵌入模型的变化,其他研究人员也关注各种嵌入模型。在深度学习模型中,它包括节点嵌入,顺序嵌入和图嵌入,方法和被广泛用于推荐系统。通过对现有系统的观察和分析,我们认为图信息系统节点向量嵌入方法适用于许多领域,而其他最近的嵌入模型如欧氏嵌入、深度行走等也被用于图神经网络。学习的嵌入向量通常用于表示用户/项,并用于构建项的图以对用户行为进行建模。在基于图的方法中,我们使用深度学习模型来评估候选人和招聘人员查询之间的2.1. 实体的表示在DSSM模型中,实体被表示为查询和文档成员对的组合,然后计算它们之间的最终得分。我们已经考虑了两种主要的实体语义表示方法,如监督嵌入和无监督嵌入。非监督嵌入模型不能提供分类表示,并且存在数据稀疏性问题。为了提高模型性能,有必要提供学习 来 表 示 数 据 的 密 集 表 示 , 并 以 更 简 单的 方 式 表 示 这 些 实 体word2vec(Huang等人,2013)技术在文本数据中提供有效的结果,如果所需的信息由实体序列编码,则它将不支持工作推荐数据。因此,本文采用帮助图嵌入算法来表示工作推荐中的实体.基于图的方法面临着不可压缩的训练和噪声问题。加权图模型解决了这个问题,通过提供几个数量级来减小现有问题的规模,并为给定的特征构造更小更无监督嵌入进一步分为两个子嵌入一阶嵌入和二阶嵌入。一阶嵌入提供两个顶点vi和vj之间的无向边,并定义它们在两个顶点之间的联合概率。二阶嵌入与相似的邻居共享顶点,然后他们的观察被用来生成二阶嵌入。在这种情况下,顶点有两个主要的作用,第一个顶点本身和第二个:顶点应该是其他顶点的特定上下文。在基于图的方法中,ui和ui 0是我们使用的两个向量,其中ui是vi被视为顶点时的表示,而ui 0 代表了当它被用作特定的上下文时。单个向量(查询,成员)可以通过连接一阶和二阶嵌入来表示,并且它被表示为实体公司的袋子。在这种情况下,一个查询可以包含搜索词中引用的多个公司,并且一个成员可以工作在多个公司工作,这些都在档案上显示出来。简单的池化操作是不够的,实体包将每个(查询,成员)表示为向量空间上的一个点。两个向量之间的计算相似性得分将用作排名。2.2. 监督嵌入本节解释如何以监督的方式训练实体嵌入。首先,从推荐给招聘人员的候选人中收集训练数据也称为单词散列的技术是DSSM中使用的重要概念(Jan等人,2019; Kumar和Sharma,2015)(表1)。3. 拟议方法3.1. 问题公式化在该模型中,搜索查询被用作(查询,文档)对,其包括来自招聘人员数据集的职位名称,技能和位置等搜索标准,DSSM-SJR模型的目标是选择最突出的技能并基于基于图的推荐方法对候选人进行排名(表2)。3.2. 深层语义结构建模(DSSM)在DSSM技术中,查询和文档文本由单独的神经网络层进行建模,并在最终得分计算之前进行交叉,并且进一步优化搜索参与并将其视为正标签。在特征表示中,DSSM将文档文本和查询作为成员对,并将其转换为字符三元组。所生成的字符三元组被用作所提出的模型的输入。所述技术也被称为单词散列,并且它以字符三元语法格式表示每个单词,而不是整个单词的矢量表示(Elkahky等人,2015; Huang等人,2013年)。本节描述了工作推荐领域中的深层语义建模的工作,并将每种类型的实体的分类表示作为输入添加到所提出的DSSM模型中。DSSM模型的表示是:M(q;H)M:q 2 D!y 2 RD400PDjQ预期寿命在上面的等式中,c用作softmax函数中的平滑因子D表示要排名的候选技能集合,Q表示查询。 通过最大化其文档和查询对P(D)来计算所选技能的可能性|Q),在下一步中应用公式以最小化以下损失函数。L K(Q,D+)3.3. DSSM的数学模型DSSM模型包括三个主要部分。词散列,非线性激活函数和排名。DSSM模型的输入是单词散列,用于对候选数据进行排名的MLP和最终排名和学习将通过高级DSSM算法步骤来实现。(图五)R. Mishra和S. Rathi沙特国王大学学报7795表1不同DSSM方法的比较研究。Sr.没有参考编号所用技术的优点和缺点1(Ramanath等人,2018年)1.DSSM(Deep StructuredSemantic Model)深度结构化语义模型1. 支持查询在低维空间中的投影.处理大型词汇。3.可伸缩语义模型1. C-DSSM模型在字后引入了卷积和最大池化1.在DSSM中使用超过3层时未观察到更好的性能2(黄例如, 2013年度)3(Shen等人, 2014年度)1.最大化被点击文档的条件似然性2.DNN计算语义数据。3.Word Hashing降低了维度1.使用词n-gram模型2. CLSM模型在用户点击数据上进行训练。大规模的真实世界数据集。1.该模型优化了所有版本的数据2.单词哈希扩展了深度模型的训练。1.新的潜在语义模型2.学习低维表示语义向量3.在NLP和IR任务1.新算法必须经过测试1.如果我们把这三个集合它将产生一个新的最先进的语义模型。1.未使用基于物料的模型1.扩展为自动捕获更广泛的类型4(Li等人,2019年度)5(Elkahky例如,(2015年)6(沙拉比例如,(2017年)7(Chiranjeevi等人,(2016年)8(帕兰吉例如,(2016年)9(Wang等人, 2019年度)1. 快速匹配CDSSM模型.向更强大的注释者学习1. CDSSM共同学习人类意图和相关话语的表示。1.将用户和项目映射到一个潜在空间,该模型适用于全新用户和现有用户。1.具有文本哈希特性的DSSM模型将提出下一代1.训练R-DSSM比训练DSSM要慢。2.LSTM- DSSM优于1.解决两个推理任务,2。WinogradSchema Challenges(WSC)和Pronoun Disambiguation(PDP)。1.高吞吐量,2.减轻对人类提供的标签的依赖。减少对人工标签的1.在可见意图和不可见意图之间建立语义联系,实现意图扩展;应用于检测可操作的话语1. 计算相关性得分2。根据文档的相似性分数1.强大的计算技术2.最佳性能增强3.在大数据和数据分析方面显示出1.解决词汇不匹配和长期上下文建模问题,2。优于Web文档检索任务。1.有效地捕捉上下文信息2.比以前有了1.该模型适用于弱标注. 极大地限制了模型的准确性。1.能够生成更灵活的意图嵌入1.模型应该是可扩展的2.添加更多域4.也不工作CF1. DSSM专门为文本文档提供了出色的性能1.平均归一化贴现累积增益(NDCG)1. Transformer,比LSTM更强大,适用于UDSSMmodels2。从Common Crawl收集更大的语料库来训练我们的模型。1.CDSSM的性能与标注模型的性能高度相关1.减少数据标注的人工工作量,消除领域和体裁2.对体裁不匹配的鲁棒性1.扩展到不同领域的能力。2.纳入分类特征1.该原型将实现具有实时性的应用。1.基于Bing搜索的信息检索任务。1.模型在这两个任务上取得了更好的性能。表2算法中使用的符号TermPython编程是好语言和符号表示FreqC平滑因子D1110000D文档(候选人技能)D2111211W权重向量用于计算余弦相似度的神经网络参数B偏倚L-MLP层3.4. 词散列单词哈希是我们提出的DSSM模型的第一层。Letter n-gram可扩展大型数据集,并使用原始输入来处理非常大的词汇。单词散列的优点是捕获子单词语义,控制输入空间的维度,并且具有小错别字的单词具有类似的原始表示。单词散列或字母n-gram散列的示例如下:d1:python编程D2:Python是一种很好的编程语言,Term频率R. Mishra和S. Rathi沙特国王大学学报7796词频输入向量X##gmm mmi imi min ing#字哈希三元组频率Token Python编程不错语言还有频率d1 1 00 0 02019 - 01 - 22 00:00:002 1 1单词哈希三元组向量l在我们的模型中,没有。数据集中的技能是近似的500 K,基于数学表示,它生成29^ 3三元组技能,大约30 K。R. Mishra和S. Rathi沙特国王大学学报7797-kyQkkyD1/2X-在n-gram模型中,2个不同的技能具有相同的向量表示,但避免或忽略了三元组冲突。3.5. 多层感知器非线性激活MLP是DSSM模型的第二层,适用于分类数据集或文本数据集。在作业描述中,输入数据是表格格式的。MLP中的两到三层给出了令人满意的结果。输入层表示X-输入术语向量,它是从属性、职位和技能中提取的,输出层表示Y-输出术语向量,用于结果输出数据。隐藏层由I表示,并且它在范围i N中1,权重矩阵Wi表示权重,bi用于表示偏置项。隐藏层和偏置项的方程如下所示:li-f-wi-i-b-i-bl2=f ( W2l1+b2)l3=f(W3l2 + b3)y =f(Wol3 + bo)其中fx:= tanh(x)=x21þ exp ð-ÞDSSM模型M计算两个技能q、d之间的相似度,sim q,d:1/4余弦yq,dq=第DSSM模型的输出是低维语义特征空间中的概念向量.3.8. 技能和职称排序的DSSM算法在许多动态应用中,简单的关键字匹配算法往往不能给出最佳的结果. DSSM概念用于将查询映射到文档空间。这里使用的单词哈希概念可以最大化文档的条件可能性,并通过额外的单词哈希层优化文档排名。该算法包含三个主要部分:1. 映射2. 计算相关性3. 优化所提出的DSSM模型(图7)的算法步骤讨论如下:算法1:计算职位和技能相似度建议DSSM算法初始化1. Input:Query:Title id,Document:Job title,技能输出:字典2. 数据抽取阶段包括查询和文档-YqTYdjYqjjYdj该方程可以改写为:ð7Þ查询(招聘人员页面,职务)文档(简历(技能))职位名称:神经网络第一技能1,技能2:神经网络第二其中q<$ Mq; Yd< $Md为803.6. 技能排名和学习(优化)这是所提出的DSSM模型的最后一步,对技能和职位进行排名,我们从前20名数据中知道答案技能d +。P d+:=技能2,d+在给定技能的情况下相关的概率Pd/C= 1/4d02Dexpcsimq;d0209mgc是softmax函数中的平滑因子在实践中,对于每个查询-文档对,我们通过包括d +和四个随机选择的未点击技能集来近似DD = {d+,d1,d2,d3,d4}假设i.i.d,我们对给定数据集的似然定义为LK =P q,+ P d + q最大化似然函数LK等价于最小化以下负对数似然。nllK:1/4- logLK1/4-q;对数 PdobjXK:¼argminKnll10位3.7. DSSM的工作DSSM 模块用于将原始文本特征映射到语义空间中的特征在DSSM模型中使用高维项向量作为输入术语向量是查询或文档中未归一化的术语的原始计数3. 输入数据:项向量X4. 映射:查询<>文档X:术语向量(X1:skill1,X2:skill2)5. 技能1和技能2的字符三元组计算(单词哈希)示例:{#py,pyt,pyths,tho,on#}6. 单词哈希层生成{w1,w2,w3,w 4,w5- Python Skill}7. 字符三元组向量源s和目标t8. 计算数据的语义表示(python)9. Q;D<$<$cosineQ;yD<$yQTyD10. 查询和成员(实体包)11. 输出(Y字典(职务、技能))12. 端图7.第一次会议。建议DSSM模型的职称和技能属性。¼R. Mishra和S. Rathi沙特国王大学学报7798-kyQkkyD3.9. C-DSSMC-DSSM具有额外的卷积层来提取局部上下文特征,其中最大池化层形成全局特征向量。输出层是语义层,用于表示输入词序列的高级语义特征向量单词散列层使用称为单词散列的技术将输入单词序列中的每个单词转换为特征向量。在C-DSSM中,卷积运算被看作是一种基于滑动窗口的特征提取技术,它捕捉词的上下文特征。C-DSSM的算法步骤(图1)。 8)讨论如下:分析:C-DSSM在图像数据中给出了最佳结果,与DSSM相似,它最大化了点击数据的条件似然3.10. 2-Arm DSSM算法在许多应用中,简单DSSM和C-DSSM不足以产生高效和可扩展的结果。2-ARM DSSM方法将有助于改善结果。在2-Arm DSSM中,查询和文档成员对分为三种方式:1. 查询网络2. 会员网络3.第三章。跨网络算法2.用C语言计算职称与技能相似度DSSM算法1. Input:Query:Title id,Document:Job title,技能输出:字典2. 数据提取阶段包括查询和文档查询(招聘人员页面,职务)文档(简历(技能))职位名称:神经网络第一技能1,技能2:神经网络第二3. 输入数据:项向量X4. 映射:查询<>文档X:术语向量(X1:skill1,X2:skill2)5. 技能1和技能2的字符三元组计算(单词哈希)示例:{#py,pyt,pyths,tho,on#}6. 单词哈希层生成{w1,w2,w3,w 4,w5- Python Skill}7. 任务:Wt?卷积矩阵H?卷积层8. 什么? Ht(投影到局部上下文特征Ht的WT)9. 从卷积层提取上下文特征分配:Globalfeaturevector麦克斯·普尔 有用的功能10.余弦函数Q;y余弦函数Q;y余弦函数Q11. 查询和成员(实体包)12. 输出(Y字典(职务、技能))13. 端见图8。 基本C-DSSM模型。在我们提出的模型,2臂DSSM考虑查询?标题ID和在文档成员上搜索显著性的技巧以及生成字符三元组。双臂DSSM模型的输入是实体的分类表示。模型的输出是每个实体类型(title id和skill)的一组表示。在2-Arm DSSM查询中,网络的主要功能是排列从用户简档中提取的多个职位和技能(图1和图2)。9、10、11、12、13、14、15)。见图9。 CareerBuilder数据集。见图10。基本嵌入模型的精度。见图11。调用基本嵌入模型。R. Mishra和S. Rathi沙特国王大学学报7799kyQkkyD见图12。 doc2vec嵌入模型的精度。图十三. 调用doc2vec嵌入模型。见图14。系统的性能图15. 建议业绩。根据结果,具有监督嵌入的DSSM将不会给出适当的结果。在双臂DSSM中,查询和文档很容易嵌入,并给出正确和改进的结果。双臂DSSM的算法步骤如下所述。算法3.基于双臂DSSM算法的初始化1. Input:Query:Title id,Document:Job title,技能输出:字典2. 数据提取阶段包括查询和文档查询(招聘人员页面,职务)文档(简历(技能))职位名称:神经网络第一技能1,技能2:神经网络第二3. 查询(文本)和文档(Word哈希)是嵌入的。4. 应用tanh作为激活函数5. 技能1和技能2的字符三元组计算(单词哈希)示例:{#py,pyt,pyths,tho,on#}6. 单词哈希层生成{w1,w2,w3,w 4,w5- Python Skill}7. 字符三元组向量源s和目标t8. 计算相似度1.点积2.余弦相似度8.计算数据的语义表示(python)9. Q; D <$<$cosineQ;yD<$yQTyD10. 查询和成员(实体包)11. 分片计算语义层查询网络(文本)计算成员网络(文档)计算计算跨网络最多3层,改善效果。11. 用于word的12. 附加层降低了查询/文档的维度11. 输出(Y字典(职务、技能))12. 端分析:超过3层,成本增加,但性能保持不变。根据我们的观察,与在线相比,离线计算嵌入会更快。根据观察,与余弦相似性度量相比,两个嵌入的点乘积产生更少的延迟。4. 实验在本节中,我们使用两个不同格式的真实世界数据集来评估DSSM-SJR模型我们使用了Car- eerBuilder和Naukari.com数据集,并在Intel i7 2.3 GHz核心处理器和最低8 GB RAM与GPU上进行实验然后,我们整理我们提出的模型对其他现有的工作推荐排名模型的执行数据集收集、描述和系统设置将在下文中讨论。4.1. 数据集集合在这个实验中,我们使用了来自工作领域的两个不同的数据集。第一个数据集CareerBuilder是从在线平台上收集的,它来自一个我们从naukari网站收集的第二个数据集是在kaggle和naukari网站上免费提供的开放kaggle完成。R. Mishra和S. Rathi沙特国王大学学报7800≥4.2. 数据集描述Naukari.com数据集(大小:52 KB,22,000个实例,14个属性)。Careerbuilder.com数据集(大小为2GB,超过1,000,000个实例,18个属性)。为了实现的目的,我们使用Tensorflow来执行数值计算,并支持机器学习和深度学习环境。Theano(GPU兼容的Python库)对多维数组进行平滑的数学运算。CNTK(Microsoft Cog-工具包(CNTK))用于通过有向图和Keras来描述计算,Keras用于在Tensorflow上运行4.3. 评估指标我们随机抽取了10%的工作数据,对top-k推荐和偏好排序的有效性进行了k的默认值为(10-30)。我们报告测试集中所有用户的平均结果。4.4. 基准办法我们将我们提出的DSSM-SJR模型与一些最先进的基线进行比较,这些基线包括不同的嵌入模型( BOW , CBOW , tf-idf ,LDA,具有上下文特征的tf-idf, doc 2 vec和单词哈希(sent 2vec))。Word2vec(Doc2vec):我们切断了阈值c(4)以下的所有相似性,并根据经验进行调整因此,基于内容的相似性边缘将仅在其Simc.作业之间的关联,即使它们不共享任何用户交互,也会从推荐池中删除(表3)。与其他模型相比,嵌入模型LDA在结果上显示出显着的改进,但由于偏差数据集LDA将消耗更多的时间。与其他模型相比,具有上下文特征的模型tf-idf给出了更好的结果(表4)。嵌入模型CBOW和LDA在作业20之后将给出近似相同的结果具有上下文特征的模型tf-idf将提高性能,并且在作业20之后性能提高。为了提高模型的性能,我们现在使用doc2vec嵌入方法并比较它们的结果(表5)。基本嵌入模型在图推荐中的性能随着任务的增加而缓慢增加,它在少量任务上给出了最佳如果我们将tf-idf与doc 2 vec方法进行比较,无论有无特征,模型的性能都会逐渐提高(表6)。查全率图表明,与tf-idf相比,有和没有上下文特征的doc 2 vec将大大提高性能。Doc2vec模型仅适用于二元语法方法,因此需要改进嵌入模型。为了解决这些问题,我们使用单词哈希方法进行监督和无监督学习。词散列表3TOP 10相似作业的基本嵌入模型精度。模型精度弓14.8CBOW 15.2LDA 18.4过渡联邦-以色列国防军29.2%tf-idf与上下文功能32.8%表4TOP10 -30相似工作的基本嵌入模型的回忆模型前10前20前30弓百分之十五点二17.0%百分之十九点二CBOW百分之二十三点五百分之二
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功