"多重检验加权融合的短文本相似度计算方法是针对传统文本相似度计算方法的局限性而提出的,旨在提高短文本相似度计算的准确性和合理性。该方法结合了编辑距离、词频考虑的语义信息以及Word2vec-LSTM模型三种不同的计算方式,通过多重阈值检验和加权融合技术,避免了单一阈值可能导致的异常加权相似度值。实验结果显示,这种方法在准确率和F1值上均优于层层检验和无检验融合方法,尤其在召回率上有显著提升,证实了其有效性。该研究由石彩霞、李书琴和刘斌完成,并发表于《计算机工程》杂志。"
本文介绍的是一种针对短文本相似度计算的新方法,它弥补了传统方法仅依赖文本结构特征或语义信息的不足。在短文本特征稀疏的情况下,该方法采取了多元策略。首先,利用编辑距离来评估文本间的字符级别的差异,这在处理拼写错误或同义词替换时非常有效。其次,考虑到词频的语义信息,这有助于捕捉文本中的重要概念和主题。再者,引入了Word2vec-LSTM模型,该模型能够学习词汇的上下文关系,提供更深层次的语义理解。
为了提高相似度计算的稳定性和准确性,该方法采用了多重阈值检验。这意味着不是简单地将三种方法的结果相加或比较,而是设定多个阈值,只有当至少两种计算方法的结果达到这些阈值时,才会进行加权融合。这样可以防止某一相似度值过大或过小对整体结果的影响,使得加权融合后的相似度更加均匀和合理。
实验部分显示,多重检验加权融合的方法在各种指标上都优于其他比较方法,平均提高了16.01%的准确率和7.39%的F1值,F1值达到了70.21%。同时,这种方法在召回率上的提升表明它能更有效地识别出相似的短文本,从而提高了检索和匹配的效率。这些实验结果充分证明了该方法在短文本相似度计算领域的优越性。
此外,文章还提及了网络首发的相关政策和规定,强调了在网络平台发布的录用定稿的严肃性和正式性,以及在出版过程中的版权和学术道德要求。这项研究得到了陕西省多项科研基金的支持,展示了其在学术研究中的实际应用价值。