没有合适的资源?快使用搜索试试~ 我知道了~
Fushun Zhu 1* S2221uaicheng Liu 3,2†12121212196890多尺度变换器的半监督广角人像校正01 四川大学 2 Megvii Technology 3 中国电子科技大学0摘要0我们提出了一种用于广角人像校正的半监督网络。广角图像往往受到透视畸变的影响,尤其是在脸部区域更为明显。先前基于深度学习的方法需要使用地面真实校正流图进行训练指导。然而,这些标签很昂贵,只能手动获取。在这项工作中,我们设计了一种半监督方案,并构建了一个具有丰富场景的高质量无标签数据集,使我们能够同时使用标记和无标签数据来提高性能。具体而言,我们的半监督方案利用了一致性机制,包括方向和范围一致性(DRC)和回归一致性(RC)等几个新颖的组件。此外,与现有方法不同,我们提出了基于多尺度Swin-Unet(MS-Unet)的多尺度Swin变换块(MSTB),可以同时学习短距离和长距离信息,以避免产生伪影。大量实验证明,所提出的方法优于现有的方法和其他代表性基线。源代码和数据集可在https://github.com/megvii-research/Portraits_Correction获取。01. 引言0近年来,越来越多的智能手机配备了广角摄像头,可以拍摄到内容丰富的广角图像。然而,广角摄像头往往会导致严重的透视畸变,使建筑物的直线边缘弯曲,脸部变形,如图1(a)所示。因此,需要一种理想的智能算法来纠正畸变图像。经过修正后,脸部看起来更自然,背景中的弯曲线条也得到了修正,如图1(b)所示。传统的去畸变方法使用校准的相机参数进行透视投影,从而修正图像中的畸变。0* 相等贡献. † 通讯作者。0(b)我们的结果0(a)输入图像0图1. 我们方法的示例。(a)原始的广角图像,带有弯曲的线条和扭曲的脸部。(b)提出的半监督方法的结果,线条和脸部都得到了修正。0直接将背景上的线条变成直线[3, 8,24]。然而,由于不正确的平面投影,图像上的脸部被拉伸得不自然。与透视投影相比,墨卡托和立体投影[28]可以在局部保持脸部的形状,但也会弯曲背景中的线性结构[4]。显然,脸部区域和背景需要两种不同类型的投影来进行广角图像校正。Carroll等人[4]提出了一种保持内容的方法,根据用户指定的线条找到最佳映射解决方案。最近,Shih等人[26]设计了一个优化问题,通过在脸部区域上适应立体投影并在背景上应用透视投影来创建网格,通过自动解决优化问题在肖像和背景之间实现平滑过渡。然而,该方法[26]有时会导致修正后的脸部附近的建筑物变形。此外,它还需要肖像分割掩码和相机参数作为额外的输入。Tan等人[29]提出了第一个基于完全监督的CNN的广角图像校正方法,包括线条校正网络和肖像校正网络。Tan的方法以畸变图像作为输入获得了令人满意的结果。然而,他们的工作仍然存在缺点。首先,它需要许多训练照片。3. Method196900在丰富的场景下进行手动校正,照片中的每张脸都必须通过特定工具手动去畸变。同时,手动注释可能会出现错误,导致注释质量不均匀或引入脏数据。因此,整个数据准备过程复杂且昂贵,通过扩大训练数据集来提高性能是不现实的。其次,Tan的方法在某些情况下也会产生伪影,因为它没有使用面部的长距离语义信息来处理面部的局部变化。为了解决上述问题,我们尝试采用一种新颖的半监督策略,旨在减少准备昂贵的手动校正数据集的成本。具体而言,我们采用包含方向和范围一致性(DRC)和回归一致性(RC)的半监督策略,通过引入一个替代任务(分割)充分利用标记和未标记数据。此外,与Tan等人[29]相比,我们基于多尺度SwinTransformer块(MSTB)开发了一种新颖的网络,称为多尺度Swin-Unet(MS-Unet),更适合于肖像矫正。特别地,我们还从不同手机和场景收集了5000多张未标记的畸变图像,以通过半监督策略训练MS-Unet。实验结果表明,我们的方法可以比以前的方法更好地纠正广角肖像中的畸变,并且只需要少量手动标记的数据。总之,我们的主要贡献是:0•我们提出了第一个用于广角肖像矫正的半监督学习策略,大大降低了对标记训练数据的要求。0•我们开发了一种基于MSTB的新型变换器网络,称为MS-Unet,以充分利用局部尺度和远程语义信息的相互作用,用于广角肖像矫正。0•我们提供了一个高质量的未标记数据集,可用于训练半监督广角肖像矫正算法。02. 相关工作02.1. 广角肖像矫正0早期的广角肖像矫正方法总是依赖于传统算法[4, 40]。Tehrani等人[31,32]提出了一种方法,在这个过程中去除面部畸变并保留背景特征,但他们的解决方案需要用户的协助。Shih等人[26]提出了一种基于网格的算法,可以在直线和面部校正效果之间自动取得平衡。然而,它需要相机参数和肖像分割作为输入。最近,Tan等人[29]提出了一个两阶段的深度神经网络,只需一张图像作为输入即可完成广角肖像矫正。然而,这个方法在某些情况下会产生伪影,因为它没有使用面部的长距离语义信息。为了解决上述问题,我们尝试采用一种新颖的半监督策略,旨在减少准备昂贵的手动校正数据集的成本。具体而言,我们采用包含方向和范围一致性(DRC)和回归一致性(RC)的半监督策略,通过引入一个替代任务(分割)充分利用标记和未标记数据。此外,与Tan等人[29]相比,我们基于多尺度SwinTransformer块(MSTB)开发了一种新颖的网络,称为多尺度Swin-Unet(MS-Unet),更适合于肖像矫正。特别地,我们还从不同手机和场景收集了5000多张未标记的畸变图像,以通过半监督策略训练MS-Unet。实验结果表明,我们的方法可以比以前的方法更好地纠正广角肖像中的畸变,并且只需要少量手动标记的数据。总之,我们的主要贡献是:0全监督方法受限于需要高成本的手动筛选和处理的标记数据的数量。幸运的是,我们的方法极大地减少了标记训练数据集的限制,并从畸变图像到常规图像学习了校正流程图。02.2. 深度半监督学习0深度半监督学习为充分利用包含标记和未标记图像的混合数据集提供了一种实用而有效的方法。它已被广泛应用于图像分类[13, 36, 37]、语义分割[1, 35, 38]、机器翻译[6, 9,12]、人群计数[21, 23]、文本分类[15, 17,18]、文本分割[30,34]等领域。这些工作证明了半监督方法可以提高准确性。因此,我们将半监督策略引入肖像矫正领域,并取得了显著突破。02.3. 视觉变换器0Transformer的提出已经广泛应用于自然语言处理(NLP)领域。受到其杰出成就的启发,研究人员最近开始将Transformer逐渐应用于计算机视觉领域。更令人印象深刻的是,Liu等人[22]提出了一种优秀的分层Transformer结构,称为SwinTransformer,它建立在移位窗口分区机制之上。它在包括图像分类、目标检测和语义分割在内的各种视觉任务上具有先进的性能。Hu等人[2]还设计了一种称为Swin-Unet的U形Transformer块,专注于医学图像分割,并取得了卓越的结果。基于这些工作,我们提出了一种新的Transformer网络,可以满足广角肖像矫正中对长距离语义信息的需求。0图2显示了所提方法的流程图。我们设计了一种新颖的半监督方案,通过利用标记和无标记数据来解决训练数据有限的问题。如图所示,我们假设一个单一的畸变图像作为输入。然后,我们得到校正流图和分割掩模作为中间输出。校正流图用于将畸变图像投影到校正图像中。分割掩模是标记和无标记数据之间的桥梁。03. 方法0如图2所示,在我们的问题设置中,我们有一组无标记图像U= (Iu)和一组标记图像L = (Il,F),其中F表示标签。我们混合这些图像,并采用DRC和RC组成的半监督方法来训练校正网络,下面将详细描述这两种方法。𝑆𝑆/𝑆���/𝑆���𝑆�/𝑆�� /𝑆��𝐹�/𝐹�� /𝐹��196910翻译0翻译0� RC0共享权重0� RC0� 网络0� 输出 � RC0� 输入 � 输出0� DRC0� DRC + � RC0网络0网络0� 输入0� 输入0孪生网络0(a) 标记图像的训练策略 (b) 无标签图像的训练策略0输入0� 输入0输入0� 输入0八月0八月0通过预测得到的分割掩模0通过翻译得到的分割掩模0通过预测得到的校正流图0基于掩模的Sobel损失0RC损失 � RC0翻译0图2. 带有替代任务(分割)的半监督广角肖像校正框架的流程图。 (a) 利用标记图像的网络训练策略。 (b)利用无标签图像训练我们的网络。训练策略包括方向和范围一致性(DRC)、回归一致性(RC)。对于一个无标签图像Iu,当它被送入孪生网络时,利用估计的分割掩模和校正流图计算DRC损失LDRC和RC损失LRC。03.1.1 方向和范围一致性(DRC)0许多现有的方法已经证明,通过引入近似的替代任务[10,23]可以进一步提高估计的准确性。受到这一成功的启发,我们尝试将一个替代任务(分割)引入到网络中,该任务与现有的全监督广角肖像校正方法[29]不同。具体而言,替代任务的分割掩模可以帮助网络构建一种新的方向和范围一致性学习策略,有助于提高广角肖像校正的准确性。这个设计主要受到以下四个方面的启发:1)肖像校正流图表示每个像素的偏移和方向,用于校正畸变图像。通过将分割任务引入到流图中,网络更加关注学习每个像素的方向变化,有助于更好地理解肖像校正。2)如果我们生成一个二值掩模,网络将更加关注方向的引导作用,但忽视了区域一致性的重要性。因此,通过多个阈值生成多类别掩模来监督分割任务。在分割掩模中,被分类到同一类别的像素表示它们的值在相同的阈值范围内变化。换句话说,分割掩模也有助于引导网络学习区域一致性的信息,使网络预测的校正流图也变得更加平滑。3)如图2所示,预测的校正流图也可以转换为分割掩模。因此,可以在肖像校正和分割之间构建损失函数,使引入无标签数据成为可能。0监督方案。4)同时,分割掩模可以在不增加额外成本的情况下生成。这有利于流图和分割掩模之间的转换。此外,在进行DRC学习策略时,可以充分利用无标签数据。语义分割和肖像校正具有相似的特点,使得学习它们之间的一致性成为可能。当语义分割在本文中被部署为替代任务时,它预测流图值F(i,j)是否满足给定的方向和范围。我们通过阈值δ∈N+来判断偏移量,偏移量在范围(-∞,-δ]或[δ,+∞)的像素保持负向或正向,范围(-δ,δ)内的偏移量合并为一个集合,表示轻微移动。分割任务的预测目标定义如下:0S(i,j)=00,如果F(i,j)�-δ1,如果-δ
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功