用户点击驱动的细粒度图像识别进展与挑战

128 浏览量更新于2024-08-28 收藏 2.1MB PDF 举报

细粒度图像识别方法概述随着信息技术的飞速发展，计算机视觉领域内的细粒度图像识别已经成为一项备受关注的研究热点。细粒度分类任务，如区分不同的鸟类、花朵或狗的品种，其核心在于处理视觉上极为相似的物体，这与传统的大型目标分类（如PASCAL VOC竞赛中的船只、自行车和汽车）相比，具有更高的识别精度要求。传统的图像识别依赖于视觉特征，如颜色、纹理、形状和轮廓等，这些特征虽然能够捕捉到图像的表面信息，但未能充分挖掘出其中蕴含的深层次语义信息。因此，当面对细粒度图像时，由于“语义鸿沟”的存在，即计算机视觉与人类视觉在理解和解释图像上的差异，传统方法往往难以达到理想的效果。为了克服这一难题，研究人员开始探索利用用户点击数据作为辅助信息。用户点击行为反映了人们对图像内容的主观认知和兴趣，可以作为潜在的语义线索。基于用户点击的数据预处理阶段，涉及如何有效地从大量用户行为数据中筛选出与图像分类相关的信号；特征提取则聚焦于如何从用户点击数据中提取有意义的特征表示，这可能包括用户注意力分布、点击模式等；而模型构建则是将这些特征转化为可用于分类的模型，如深度学习中的卷积神经网络（CNN）或通过度量学习方法来学习图像和用户点击数据之间的关联。当前的研究进展包括开发新的点击数据驱动的特征提取算法，以及融合深度学习和度量学习的技术，以更准确地捕捉和理解图像的语义信息。此外，结合迁移学习和多模态学习也是热门方向，通过结合视觉特征和点击数据，进一步缩小“语义鸿沟”。俞俊等人在该领域的研究中，总结了已有的基于用户点击数据的图像识别算法，关注了这些方法在数据预处理、特征提取和模型构建各环节的应用，并分享了最新的研究成果。他们的工作旨在通过用户点击数据提升细粒度图像识别的性能，为解决计算机视觉中的语义鸿沟问题提供新的思路和解决方案。基于用户点击数据的细粒度图像识别方法是一种新兴的研究趋势，它将用户的行为信息与计算机视觉技术相结合，有望在未来的图像识别任务中取得突破。通过深入研究和优化这些方法，我们有望实现更加智能和贴近人类理解的图像识别系统。

ＤＯＩ：１０．１３８７８／ｊ．ｃｎｋｉ．ｊｎｕｉｓｔ．２０１７．０６．００１

俞俊

１，２

　谭敏

１，２

　张宏源

１，２

　张海超

１，２

基于用户点击数据的细粒度图像识别方法概述

摘要

近年来，细粒度图像识别逐渐成为

计算机视觉领域的研究热点．由于不同

类别图像间的视觉差异小、语义鸿沟问

题严重，传统的基于视觉特征的细粒度

图像识别性能往往不尽人意．针对这些

挑战，目前许多学者都在研究基于用户

点击数据的图像识别．本文围绕点击数

据在图像识别中数据预处理、特征提取

和模型构建３大模块中的应用，总结了

已有的基于点击数据的识别算法及最新

的研究进展．

关键词

用户点击；图像识别；度量学习；深

度学习；语义鸿沟

中图分类号ＴＰ３９１􀆰 ４１３

文献标志码Ａ

收稿日期２０１７⁃０７⁃２８

资助项目国家自然科学基金优秀青年基金

（６１６２２２０５）；国家自然科学基金青年基金

（６１６０２１３６）

作者简介

俞俊，男，博士，教授，研究方向为机器学

习、多媒体分析与图像处理．ｙｕｊｕｎ＠ｈｄｕ．ｅｄｕ．ｃｎ

谭敏（通信作者），女，博士，讲师，主要研

究方向为人工智能、计算机视觉与机器学习．

ｔａｎｍｉｎ＠ｈｄｕ．ｅｄｕ．ｃｎ

１杭州电子科技大学计算机学院，杭州，３１００１８

２杭州电子科技大学复杂系统建模与仿真

教育部Ｂ类重点实验室，杭州，３１００１８

１　引言

１􀆰 １　背景

细粒度视觉分类（Ｆｉｎｅ⁃ＧｒａｉｎｅｄＶｉｓｕａｌＣａｔｅｇｏｒｉｚａｔｉｏｎ，ＦＧＶＣ）是目

标分类的一个子领域．与ＰａｓｃａｌＶＯＣ竞赛

［１］

等对船、自行车和汽车进

行分类的任务不同，细粒度分类是对于视觉上非常相似的目标进行

区分的过程，如鸟、狗、花的种类等，这些子类图像在视觉上差距甚小．

传统的图像识别技术大多借助于视觉特征，如颜色、纹理、形状、

轮廓等．然而，图像的视觉特征仅能刻画视觉信息，忽略了它们所包含

的语义信息，与人类对图像的理解存在一定的差异．这种在计算机图

像理解与人类图像理解之间存在着的客观区别，即图像低层视觉特

征与高层语义特征之间存在着的较大距离，被称为“语义鸿沟”

［２⁃４］

．

计算机视觉和人类视觉的“语义鸿沟” 使得人们在图像识别领域

一直面临巨大挑战，尤其是对于细粒度的图像识别而言．近年来，许多

从事图像视觉研究的人员已经逐渐认识到语义信息在图像理解中的

重要性，并在图像识别的过程中引入了用户点击数据表征图像的语

义特征从而解决“语义鸿沟”问题．

１􀆰 ２　点击数据

点击数据是依托搜索引擎（如Ｇｏｏｇｌｅ、百度、Ｂｉｎｇ等）收集的用户

对图像与文本间相关性的反馈数据．如图１所示

［５］

，针对任意查询文

本，搜索引擎会检索到一组可能相关的图像集，用户会基于查询文本

与候选图像的相关性点击更为“相关” 的图像，从而产生大量点击数

据．利用点击数据，查询文本被图像集表征．类似地，任一图像也可以

被其对应的点击文本集合表示．

目前，点击数据已被广泛应用在网页检索、商品推荐等领域，它

在图像识别领域中的应用还相对较少

［６⁃１０］

．如图２所示，在基于点击

数据的图像识别中，输入的样本除图像本身ｘ外，还有其对应的在文

本ｑ下的点击次数向量．图像识别大多是通过融合图像视觉与点击特

征实现的．

近年来，世界各地的研究人员根据用户点击数据设计模型、计算

新数据被点击的概率，以此更新该网页放置在返回结果中的位置．微

软亚洲研究院

［１１⁃１２］

、谷歌研究院

［１３］

、雅虎研究院

［１４］

等机构在用户点

击数据方面均做了深入的研究．其中典型的代表是微软亚洲研究院根

据点击数据建立了一个基于点击数据的数据集———Ｃｌｉｃｋｔｕｒｅ

［５］

，该数

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38656364

粉丝: 8

用户点击驱动的细粒度图像识别进展与挑战

基于多层聚焦Inception-V3卷积网络的细粒度图像分类.docx

人工智能AI：计算机视觉-细粒度动物识别（8000种动物）

细粒度图像分割：atoms数据集发布（包含训练和验证集）

深度学习下卷积神经网络在细粒度图像分类中的研究与实现

细粒度人脸识别算法研究与实践

基于改进的mask r-cnn的行人细粒度检测算法

全球120犬种图像集：细粒度分类挑战

高通AI大赛手绘图像识别赛道概述

Part-based RCNN: 细粒度类别检测的MATLAB实现

基于MobileNet的微生物图像分类识别教程与代码解析

最新资源