候选标记感知的偏标记学习算法:CLAPLL

1 下载量 79 浏览量 更新于2024-08-28 1 收藏 1.99MB PDF 举报
"候选标记信息感知的偏标记学习算法是一种新的机器学习方法,旨在提高在只有部分或模糊标记数据情况下的学习效率。该算法由陈鸿昶、谢天等人提出,通过结合候选标记集信息来改进示例之间的相似度计算,从而在构建图的阶段优化学习过程。CLAPLL算法利用杰卡德距离和线性重构技术来评估标记集之间的相似性,并结合实例相似度来创建相似度图,最终通过基于图的偏标记学习算法进行学习和预测。实验结果显示,这种方法在消歧准确率和分类准确率方面都优于基线算法,分别提高了0.3%至16.5%和0.2%至2.8%。" 在偏标记学习中,由于每个实例的真实标记可能隐藏在一个候选标记集合中,传统的学习算法通常只考虑实例的特征信息来衡量它们的相似度。然而,这种方法忽略了候选标记集的信息,这可能导致学习模型的性能下降。陈鸿昶等人提出的CLAPLL算法解决了这一问题,它创新性地将候选标记集的信息纳入到相似度计算中。 具体来说,CLAPLL算法首先应用杰卡德距离,这是一种衡量两个集合相似度的指标,来计算不同实例的标记集之间的相似度。杰卡德距离考虑了两个集合交集和并集的大小,从而能够捕捉到标记集的重叠程度。接着,通过线性重构技术,该算法进一步分析这些标记集的结构,以便更准确地理解它们之间的关系。结合实例的特征相似度和标记集的杰卡德距离,算法构造了一张相似度图,这有助于识别具有相似标记信息的实例。 相似度图的建立是CLAPLL算法的关键步骤,因为它是后续基于图的偏标记学习算法的基础。这样的图可以捕获实例之间的复杂关系,使得学习过程能更准确地推断出实例的真实标记。在实验部分,CLAPLL算法在3个合成数据集和6个真实数据集上进行了测试,实验结果验证了其优越性,不仅在消除标记不确定性(消歧)上取得了显著提升,还在分类准确性上有了显著改善。 候选标记信息感知的偏标记学习算法(CLAPLL)是一种有效的弱监督学习方法,尤其适用于那些标记信息不完整或模糊的学习任务。通过充分利用候选标记集的信息,它提高了学习模型的泛化能力和准确性,为处理现实世界中的大规模、不完全标记数据提供了新的思路和工具。