微博图文相关性研究:多模态特征与机器学习结合

需积分: 10 0 下载量 178 浏览量 更新于2024-09-07 2 收藏 1.3MB PDF 举报
“面向微博图文相关关系识别的多模态特征组合研究” 这篇研究论文专注于微博中的图文相关性问题,这是社交媒体分析的一个重要方面。在微博这样的平台上,用户常常结合文字和图片来表达观点或分享信息,然而对于图文内容的相关性的深入研究尚属少见。论文提出了一种多模态特征组合的方法,旨在提升对中文图文微博相关性的识别精度。 首先,研究人员采用了三种不同的方法来计算图文微博的相似度特征:基于WordNet的方法、基于Word-Embedding的方法以及基于余弦相似度的方法。实验结果显示,基于WordNet和Word-Embedding的方法在计算图文相似度时表现出色,而基于余弦相似度的方法效果相对较差。这可能是因为WordNet和Word-Embedding能够更好地捕捉到语义上的关联,而余弦相似度更多地依赖于词汇的共现频率,无法充分反映复杂的语义关系。 接着,研究者将这些图文相似度特征与图文微博的文本特征(如词汇、语法、情感等)和社会特征(如用户影响力、互动行为等)相结合,利用三种机器学习算法(未具体指明是哪三种)进行相关性分类。实验表明,加入这些额外特征后,所有三种算法的识别性能都有所提升,这意味着图文的语义和社会背景对理解它们的关联性至关重要。 在比较各种方法后,研究者发现使用Word-Embedding计算图文相似度,同时结合文本特征和社会特征,通过BP神经网络进行相关性识别,可以达到最佳的效果。BP神经网络因其强大的非线性建模能力,能更好地处理复杂的数据模式和多层次的特征交互。 此外,这篇论文是由颜杰、刘茂福、刘亚和胡慧君四位作者完成的,他们分别来自武汉科技大学计算机科学与技术学院的智能信息处理与实时工业系统湖北省重点实验室。该研究得到了国家社会科学基金重大项目和湖北省自然科学基金等项目的资助,主要研究方向涵盖了社会媒体分析、机器学习、自然语言处理以及图像处理等领域。 总结来说,这篇论文通过多模态特征组合和深度学习方法,对微博图文相关性进行了深入探索,为社交媒体分析提供了新的视角和方法,对于提升信息提取和理解的准确性具有重要意义。