![](https://csdnimg.cn/release/download_crawler_static/18271791/bg1.jpg)
收稿日期:20200212;修回日期:20200408
作者简介:王亚(1995),男,河北唐山人,硕士研究生,主要研究方向为计算机视觉;郑博文(1994),男(通信作者),山西太原人,硕士研究生,
主要研究方向为计算机视觉(zbw19940723@163.com);张欣(1993),女,山东济南人,工程师,硕士研究生,主要研究方向为智能制造、人工智能.
基于多模态融合的三维模型检索算法研究
王 亚
1
,郑博文
1
,张 欣
2
(1.天津大学 电气自动化与信息工程学院,天津 300072;2.中国电子技术标准化研究院,北京 100007)
摘 要:为了获得更好的三维模型检索分类性能,基于深度学习模型研究了多模态信息融合对三维模型的特征
描述,在训练步骤提出相关性损失函数来指导不同模态之间的训练,提取更稳健的特征向量;最后将融合特征应
用于三维模型的检索和分类,在
ModelNet40数据集上进行了三维模型分类任务和检索任务评估。实验结果及
与现有方法进行的对比证明了该方法的优越性,为三维模型检索分类领域提供了一种新的思路。
关键词:三维模型;多模态;深度学习;信息融合
中图分类号:TP301.6 文献标志码:A 文章编号:10013695(2021)03008068504
doi:10.19734/j.issn.10013695.2020.02.0086
3Dmodelretrievalalgorithmbasedonmultimodalfusion
WangYa
1
,ZhengBowen
1
,ZhangXin
2
(1.SchoolofElectrical& InformationEngineering,TianjinUniversity,Tianjin300072,China;2.ChinaElectronicsStandardizationInsti
tute,Beijing100007,China)
Abstract:Inordertogetbetterperformanceof3Dmodelretrievalandclassification,thispaperproposedthecharacterization
of3Dmodelsbymultimodalinformationfusion,whichbasedondeeplearningmodel.Themethodconsideredthecorrelationof
differentmodalitiesinthetrainingstepforextractingamorerobustfeaturevector,whichbenefittedfromtheproposedcorrela
tionlossfunction.Inaddition,itappliedfusionfeaturesto3Dmodelretrievalandclassification.Thispaperevaluatedthepro
posedmethodontheModelNet40datasetfor3Dmodelsclassificationtaskandretrieval.Thecomparisonbetweentheexperi
mentalresultsandtheexistingmethodsprovesthesuperiorityofthismethod
,whichprovidesanewideaforthefieldof3D
modelretrievalandclassification.
Keywords:3Dmodels;multimodal;deeplearning;informationfusion
0 引言
随着数字化技术和计算机视觉技术的发展,三维模型被广
泛地应用于人们的日常生活中,如计算机辅助设计、医学诊断、
生物信息学、3D打印、医学成像和数字娱乐等。如何理解三维
模型和识别三维模型愈发成为人们研究的热点,已经提出了多
种表示三维模型的深度学习模型,例如多视图、点云、草图和全
景图等。目 前相关 领 域涌 现 了许 多 优 秀 的 深 度 学 习 模 型:
MVCNN
[1]
通过提取三维模型在不同视角下的二维视图,结合
多视图特征 信 息 组 合 成 单 一 简 洁 的 三 维 特 征 描 述 符;
Point
Net
[2]
使用对称函数和最大池化去标记点云的关键点来获取点
云的全局特征;PointNet++
[3]
能够在不同尺度提取局部特征,
通过多层网络结构得到点云的深层特征;PANORAMA
[4]
通过
使用 SYMPAN方法连续姿势归一化三维模型获得特征表示,
全景视图由三通道图像组成,包含空间分布图、法线的偏差图
和法线的偏差梯度图
[5]
;草图模型利用草图信息来表示三维
模型,Yoon等人
[6]
提出了一种新颖的网络来提取三维模型表
示的草图信息,可以有效地处理由于比例变化引起的一些形状
信息变化。然而,这些方法只关注单模态的三维数据而忽略了
训练步骤中这些模态之间的相关性。为了综合不同模态网络
的优势、获取更具鲁棒性的特征,本文提出利用多种模态联合
来获得三维模型的特征。
在本文之前就有相关学者进行了多模态的研究,PVNet
[7]
提取模型的二维关键点,利用二维和三维的对应,通过 PnP计
算出物体的
6D特征;晋忠孝
[8]
提出通过语义分割网络对目标
物体提取 RGB图片和点云数据,并进行融合特征预测目标物
体的 6D姿态;PVRNet
[9]
利用模型的点云和单一视图之间的相
关性指导来自点云的特征与视图的特征融合。这些方法在三
维模型检索和分类领域都有良好的表现,然而均只能解决特定
模态之间的融合。本文提出了一个更具普适性的框架,可以综
合不同模态的特性以获取更具鲁棒性的特征表示。
一个三维模型可以通过不同的模态进行表示,因此可以联
合不同的模态来学习三维模型的特征描述符。虽然特征向量是
通过不同的模态学习得到的,但均表示的是同一个三维模型,所
以包含有相同或者相似的部分,这些特征向量可以在训练步骤
中彼此指导以获得更稳健的特征表示。为了证明这一想法,本
文提出了一种用于三维模型分类和检索的新型多模态联合网
络:
a)提取每个三维模型三个模态的特征,其中点云模态用来描
述结构信息、多视图模态用来描述视觉信息,PANORAMA模态
用来表示三维模型的表面信息;b)提出了一种新的相关性损失
函数,可以有效地减轻不同模态的特征分布差异以获取更稳健
的特征表示,并在训练步骤实现不同模态的相互指导,提高了学
习效率;c)提出了一种基于统计思想的融合方法以融合不同模
型的分类结果,用于最终的三维模型分类和检索。
1 基于多模态融合的三维模型检索算法
11 数据处理
本文提出的多模态网络中单一模态的选取是为了获取三
第 38卷第 3期
2021年 3月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol38No3
Mar.2021