旋转等变自注意球面向量网络:三维网格与全景分割新突破

0 下载量 128 浏览量 更新于2024-06-17 收藏 1.92MB PDF 举报
"球形向量网络:三维网格分类和全景图像分割" 本文探讨了在处理球形数据,如行星数据、激光雷达扫描和三维物体数字化时所面临的挑战。传统方法通常将球形信号投影到二维平面上,然后使用卷积神经网络(CNN)进行处理,但这会导致投影失真和对平移的不等变性,从而降低算法性能。针对这一问题,作者提出了一个名为球形向量网络(Spherical Vector Network, SVN)的新架构,结合了旋转等变自注意机制,旨在学习部分-整体的关系,减少失真影响。 在SVN中,球形卷积网络(Spherical Convolutional Neural Network, SCNN)作为前端网络,用于提取初步的向量特征。这些向量随后通过旋转等变自注意模块进行处理,该模块能够在保持旋转不变性的前提下,捕捉不同部分之间的相互依赖关系。这有助于生成能够表示对象存在概率和方向的高级向量特征。 实验结果在两个不同的数据集上展示了该方法的有效性。在刚性物体的ModelNet40数据集上,当训练集不旋转而测试集任意旋转时,该方法提高了前端网络的三维网格分类精度9%。而在非刚性的SHREC15数据集上,3D网格分类精度提升了12.2%。此外,对于球形图像的语义分割任务,与现有方法相比,该方法在平均像素精度和平均交并比(IoU)上分别提升了2.2%和1.3%,显示出在球形图像分析上的优越性能。 这篇研究强调了处理球形数据的必要性,并提供了新的解决方案。通过旋转等变自注意机制,SVN能够更好地适应球形数据的特性,减少了由投影引起的失真,提高了三维网格分类和全景图像分割任务的准确性。这项工作为未来在球形领域的计算机视觉应用提供了有价值的理论和技术支持。
2022-12-23 上传
基于多分类支持向量机的图像分割数据分析报告 1 数据集来源及理解 这里的数据集来源于麻省大学的一个视觉小组,并由由其中的Carla Brodley贡献给UCI数据集。用于训练的实例源于一个包含有7个户外图像的数据库的随机 采样结果,这些图像中的各个部分已被手工分类,从而可以创建一个分类器来给其他图 像的不同区域进行分类。 每一个样本实例都由原始图像上某个取样点所在的3x3邻域的RGB值获得,并根据一系 列的分析,可得到以下属性: 1. 中心点横坐标(region-centroid-col):取样中心点所在的图像的横坐标; 2. 中心点纵坐标(region-centroid-row):取样中心点所在的图像的纵坐标; 3. 每个样本所含点的数量(region-pixel-count):为9; 4. 低密集度计数(short-line-density- 5)指在通过这个区域的在任意方向上的,长度为5的线段当中,有多少条对比度 大小要低于或等于5; 5. 高密集度计数(short-line-density- 2)指在通过这个区域的在任意方向上的,长度为5的线段当中,有多少条对比度 大小要高于5; 6. 横向像素差值的平均(vedge- mean):指在3x3的样本中,所有的左右相邻的两像素亮度之差的绝对值(共有 6个)的平均数; 7. 横向像素差值的标准差(vedge-sd):上述像素差值的标准差; 8. 纵向像素差值的平均(hedge- mean):指在3x3的样本中,所有的上下相邻的两像素亮度之差的绝对值(共有 6个)的平均数; 9. 纵向像素差值的标准差(hedge-sd):上述像素差值的标准差; 10. 整体亮度的平均数(intensity-mean):亮度按(R + G + B)/3计算(上同),再根据9个点的这些亮度取平均数 11. 红分量平均(rawred-mean):整个样本区域的红分量的平均值 12. 蓝分量平均(rawblue-mean):整个样本区域的绿分量的平均值 13. 绿分量平均(rawgreen-mean):整个样本区域的lan分量的平均值 14. 红色超出量(exred-mean):测量红色多于其他颜色分量的程度,按(2R - (G + B))的公式计算 15. 蓝色超出量(exblue-mean):测量蓝色多于其他颜色分量的程度,按(2B - (G + R))(的公式计算 16. 绿色超出量(exgreen-mean):测量绿色多于其他颜色分量的程度,按(2G - (R + B))的公式计算 17. HSV空间中的V值平均(value- mean):从RGB到HSV颜色空间的转换是一种三维的非线性转换,这个算法可以在 交互式计算机图形学基础教材《Foley and VanDam》中找到。 18. HSV空间中的S值平均(satue-mean) 19. HSV空间中的H值平均(hue-mean) 此外,在这个数据集当中,一个图像的各个部分被分成了7种类别,包括了砖块表面 (BRICKFACE),天空(SKY),树叶(FOLIAGE),水泥(CEMENT),窗户(WINDOW), 小路(PATH),以及草地(GRASS)。在这些数据集当中,每个类别均提供了30个训练数 据和300个测试数据,这两个数据集分别按csv(逗号分隔)的格式储存在segmentation .data和segmentation.test中,另外还有一个文件segmentation.names储存了这个数据 集的说明。 2 方法与思路 2.1 方法理解与简介 LIBSVM是台湾大学林智仁(Lin Chih- Jen)副教授等开发设计的一个简单、易用和快速有效的SVM模式识别与回归的软件包,不 但提供了编译好的可在Windows系列系统的执行文件,而且提供了源代码,方便改进、修 改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多 的默认参数,并提供了交互检验(Cross Validation)的功能。利用这些参数和功能可以解决很多有关分类与回归的问题,包括C -SVM、ν-SVM、ε-SVR和ν- SVR等问题,也包括了包括基于一对一算法的多类模式识别的问题。 LIBSVM 使用的一般步骤是: 1) 准备训练的数据集,包括每个样本的维数l,每个样本的属性集x,以及每个样本的对应 分类编号y; 2) 对数据进行简单的缩放和平移操作来实现数据的归一化; 3) 考虑选用核函数,包括线性核,RGF核,多项式核,sigmoid核等; 4) 采用交叉验证选择最佳损失参数C与最合适的gamma系数 ; 5) 采用最佳参数C与gamma系数 对整个训练集进行训练获取支持向量机模型; 6) 利用获取的模型进行测试。 LibS