彩色描述子与主题模型提升新闻自动标注精度

需积分: 5 155 浏览量更新于2024-08-12 收藏 430KB PDF 举报

本文主要探讨了基于彩色描述子和主题模型的新闻标注技术，发表于2014年的《西南大学学报（自然科学版）》。作者针对新闻及相关图片面临的大量信息处理需求，提出了一种创新的自动标注算法，旨在提升新闻工作者的工作效率和标注准确性。该算法的核心思路如下： 1. **彩色描述子**：算法采用彩色尺度不变特征转换（RGB-SIFT），这是一种用于图像特征提取的技术，它能够提供图像底层的鲁棒性和不变性，即使在不同光照、旋转或缩放情况下也能保持特征的一致性。通过这种描述子，算法可以捕捉到图像中的关键视觉元素。 2. **视觉单词与词典**：接着，算法运用K均值聚类算法对图像的底层特征描述子进行聚类，形成视觉单词，并构建一个视觉词典，这有助于后续的信息组织和理解。 3. **文本信息处理**：对于新闻的文本部分，文章采用了词频逆向文件频率（TF-IDF）算法进行预处理。TF-IDF是一种常用的文本挖掘工具，通过计算词语在文档中的频率以及在整个语料库中的出现频率，筛选出具有代表性的关键词，帮助区分信息的特性和普遍性。 4. **混合文档建模**：将视觉单词和经过TF-IDF过滤后的文本信息视为混合文档，这种方法结合了图像和文本的特征，形成了更为丰富的文档表示，为后续的主题模型提供了更全面的信息。 5. **主题模型的改进**：文中提到的主题模型，可能是Latent Dirichlet Allocation (LDA)模型的改进版本，LDA是一种常用的主题模型，用于发现文档中的潜在主题。改进的主题模型在此处可能是在原有基础上考虑了图像特征和文本特征的融合，从而提高新闻标注的精度。 6. **实验结果与应用**：实验结果显示，这种融合彩色描述子和主题模型的新闻标注算法有效提升了标注的准确度，满足了网络新闻快速检索的需求，为新闻工作者减轻了工作负担，也为读者提供了更便捷的信息查找方式。该论文的研究成果为计算机视觉领域的信息自动标注提供了新的思路和技术支持，特别是在处理大量新闻图片信息方面，具有重要的实践价值。

第



卷第



期



西南大学学报

(

自然科学版

)

 

年



月

󰁑󰁑    



(

  

)





󰁑 

DOI

󰁑    





󰁑󰁑󰁑󰁑 󰁑 

基于彩色描述子和主题模型的新闻标注



杨



明





康南南





赵玉芳



󰁑

西南大学计算机与信息科学学院



重庆

  



󰁑

西南大学心理学部



重庆

  

摘要

为了减轻新闻工作者的负担以及提高信息标注的准确性

本文针对新闻及相关图片提出了融合彩色描述子

和主题模型的自动标注算法



该算法利用彩色的尺度不变特征转换

(

󰁒

)

得到图像的底层特征描述子

通过



均值聚类算法得到图像的视觉单词及词典

利用词频逆向文件频率

(

󰁒

)

对新闻的文本信息进行过滤



同时

将视觉单词和过滤后的文本信息看作混合文档

利用改进的主题模型对该文档新闻进行自动标注



实验表明该算

法提高了对新闻标注的准确率



关



键



词

主题模型

;

视觉词袋

;

新闻标注

;

彩色描述子

中图分类号

TP751

;

TP31 1.1

文献标志码

A

文章编号

    







   

随着信息技术的发展



网络上涌现的新闻图片每天都在爆炸式增长



如何对这些信息进行自动标注来

减轻新闻工作者的负担



并且让读者能快速根据关键字检索到所需信息



这是目前计算机视觉研究领域面

临的巨大挑战



近几年来



基于文本的自动标注已经得到了广泛的应用



其中的

󰁒

算法是一种通过

计算词频和逆向文件频率的统计方法



该方法认为如果词语在一篇文章中出现的频率较高



但是在整个语

料库中出现的频率较低



那么这个词语就能够代表该类文章的特征



主题模型是现在应用比较广泛的图像

自动标注模型



其内的



模型在对图像进行标注时首先使用



算法提取图像的描述子



经过聚类

得到图像的视觉单词



最后通过学习对图像进行标注



但是由于单纯的文本和图片都不能很好地描述新闻

的信息



而且



特征忽略了图像颜色信息进而影响了标注的准确性



通过基于颜色的图像分类方法的

研究认识到颜色对图像特征提取的重要性









针对这些问题



本文提出了利用

󰁒

提取图像信息



结合新闻的文本信息



利用主题模型对新闻进行自动标注



1 

彩色描述子和主题模型

1.1 

彩色描述子

词袋模型已经成为图像检索和标注领域重要的研究模型



使用词袋模型首先要得到图像检测点的描述

子



在



年提出



模型来计算物体的局部特征描述子



为了得到稳定的检测点



该模型利用

了不同尺度的高斯差分核和图像进行卷积



为了使图像具有尺度不变性



建立了子八度图即图像的金字

塔



高一层金字塔是低一层图像经过拉普拉斯变化得到的



每一个检测点都要和相邻采样点进行比较以确



收稿日期



  

基金项目



国家自然科学基金面上项目



      



重庆市科技攻关计划项目



  









作者简介



杨



明



  



女



山东肥城人



副教授



主要从事图像处理与机器学习的研究



下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38531788

粉丝: 4
资源: 913

彩色描述子与主题模型提升新闻自动标注精度

基于概率主题模型的图像分类和标注的研究

一款基于深度学习，提供数据标注、模型训练、模型部署、基于已有模型自动标注等功能的计算机视觉一体化平台.zip

基于联合媒体相关模型的图像自动标注改进算法 (2014年)

面向微博用户标签推荐的关系约束主题模型* (2014年)

基于金字塔梯度方向图像特征的检索模型设计 (2014年)

2014年人民日报标注数据.zip

人明日报2014年crf标注语料整理文档

基于隐马尔可夫模型的有监督词性标注

关联词驱动的高效主题模型语义标注提升准确性

基于语义相关性提升的三维模型智能标注与分类

最新资源