从在线鞋印照片创建鞋印法医数据库

42 浏览量更新于2023-10-16 收藏 3.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

858GGFRGG从在线鞋印照片创建鞋印法医数据库3*Chelsea Shafique1 Bedroom2 Bedroom 2 Bedroom 2 Bedroom 3*1加州大学欧文分校2罗宁学院3得克萨斯农工大学sshafiqu@uci.edubailey.ronininstitute.orgfowlkes@ics.uci.edushu@tamu.eduhttps://github.com/Samia067/ShoeRinsics摘要鞋印是犯罪现场最常见的证据之一。然而，由于缺乏涵盖大量且不断增长的不同鞋款的鞋印数据库，这种证据的实用性受到限制。此外，数据库优选地包含鞋印照片的3D形状或深度，以便允许提取鞋印以匹配查询（犯罪现场）印。我们建议通过利用在线零售商收集的鞋印照片来解决这一差距。核心译者S→RS→RL1损失GAN损失S→R→S垂直深度正常光垂直深度正常光L1损失监督损失GAN特征损失渲染器重构实数挑战是预测这些照片的深度图由于它们没有允许训练深度预测器的地面真实3D形状，我们利用合成数据。我们开发了一种称为ShoeRinsics的方法，该方法可以从完全监督的合成数据和非监督的零售图像数据中学习预测深度特别是，我们发现域自适应和内在的图像分解技术有效地减轻了合成的真实域的差距，并产生显着更好的深度预测。为了验证我们的方法，我们引入了2个验证集，包括鞋印图像和印刷对，并定义了一个基准协议，以量化预测深度的质量。在这个基准测试中，ShoeRinsics优于现有的深度预测和合成到真实域适应方法。1. 介绍研究留在犯罪现场的证据有助于调查人员辨认罪犯。鞋印有更大的机会出现在犯罪现场[9]，尽管它们可能比其他生物特征样本（如血液或头发）具有更少的独特识别特征。因此，研究鞋印可以提供有价值的线索，帮助调查人员缩小犯罪嫌疑人的范围.鞋印的法医学分析可以提供关于犯罪嫌疑人鞋子的类特征和后天特征的前者涉及鞋的类型（例如，品牌、型号和尺寸）;后者由独立组成*作者分享资深作者。图1：预测鞋印图像的深度（由在线零售商）是构建法医用鞋印数据库的核心挑战。我们开发了一种称为ShoeRin- sics的方法来学习深度预测器。流程图描述了我们如何使用注释的合成和未注释的真实图像来训练ShoeRinsics（第二节）。4）. 我们使用域自适应（通过图像转换器S→R和R→S）和内在图像分解（通过分解器和渲染器）技术，以减轻合成真实的差距（第二节）。（五）。我们的方法实现了显著更好的深度比现有技术更好地预测真实的鞋印图像（Sec. （六）。特定鞋在穿着时随时间出现的视觉特征（例如，孔、切口和划痕）。我们有兴趣帮助研究鞋印的类别特征。现状。传统上，调查鞋印的类别特征涉及将鞋印与手动策划的各种鞋模型的印象数据库进行匹配[11]。研究界对自动化这一匹配过程表现出极大的兴趣[10，12，21，22，23，3，29，33，31，57，65]。然而，在实践中--因此，这项工作的成功取决于与鞋印证据进行比较的数据库的质量。然而，维护和定期更新这样的数据库以包括所有鞋模型是乏味的、昂贵的，并且需要大量的人力。如果数据库中不包括罪犯所穿的鞋的类型，鞋印匹配方法显然就不那么有用了！部分原因是，鞋印证据在美国被大大利用不足[52]。动机为了满足这种综合性数据库的需求，我们建议利用在线零售商收集的鞋印图像。高分辨率同步输入译者R→S实数输入分解器859各种鞋类产品的胎面照片随处可见，购物网站也经常更新（根据我们对某些网站的分析，每个月都有超过图2（b）示出了这样的鞋踏面图像的示例。开发一种方法来预测三维形状从一个鞋印图像将直接解决需要一个全面的，最新的数据库的胎面花纹。我们将此问题表述为鞋履的深度预测;对给定鞋的深度图进行阈值处理可以生成/模拟足以匹配查询印迹的鞋印。技术洞察。为了从单个鞋印图像中学习深度预测器，我们将理想地利用对齐的鞋印图像及其对应的深度图的监督训练示例。然而，由于这样的地面实况数据根本不可用，我们开发了一种替代策略。我们创建一个合成数据集的渲染鞋印图像和相应的地面实况深度，垂直，正常和照明。这些数据可以以完全监督的方式训练预测器。然而，由于合成图像和真实图像之间的域差距，所得到的模型在真实世界的图像上执行次优。为了解决这个问题，我们引入了三种额外的技术，通过结合域自适应[70]和固有图像分解[28]的方法来缩小合成-真实域的差距（见图10）。①的人。首先，我们训练了一个翻译器，它将合成的鞋印翻译成逼真的图像，更好地匹配真实鞋印的分布。其次，我们使用对抗性损失来强制执行真实和翻译的合成图像的特征是不可区分的。第三，我们使用重新渲染损失，采用综合训练的渲染器，使用其预测的深度和其他内在成分重建真实的鞋印图像。我们发现这三种技术相结合有助于缩小域差距，并产生更好的深度预测。捐款. 我们做出了三大贡献。• 出于创建一个鞋印数据库供foren-sic使用，我们介绍了在线零售商收集的真实鞋印照片的深度预测任务。• 我们开发了一个基准测试协议，我们评估现有的深度预测方法，使用域适应这项任务。• 我们开发了一种称为ShoeRinsics的方法，该方法包含内在图像分解和域自适应技术，优于现有技术。2. 相关工作鞋印分析自动鞋印匹配在过去的二十年中得到了广泛的研究[45]。现有的工作集中在从鞋印生成良好的功能，并使用它们来分配一个类标签（鞋型），实验室鞋印数据库为了研究全局特征（即，考虑到整个鞋），[33]介绍了一种概率成分主动基础模型，[31]例如，探索多通道归一化互相关以匹配多通道深度特征，[57]采用多重排名方法，[65]使用VGG16作为特征提取器。另一方面，[41]研究了多部分加权CNN，[5]引入了块稀疏表示技术，[6]应用多个兴趣点检测器和SIFT描述符来研究鞋印的局部特征（即，关键点[34]）。我们的工作不同于以前的工作，因为它侧重于创建一个数据库的打印，而不是开发方法的鞋印匹配。建立这样的数据库是进行配鞋算法研究的前提。自早期作品以来，单目深度预测已被广泛研究[26，48，47]。以前的冰毒-ODS发明特征表示[8，44，18]，深网-工作架构[7，37，46，30，36，60]和培训损失[16，51，62]。[35，20，39]在立体设置中探索自监督学习，而[43，67]则在大型数据集上进行训练实验。通过考虑摄像机姿态，深度估计得到了我们的工作与上面的不同，因为它旨在通过学习未注释的真实图像和合成图像（及其地面真实本质：深度、深度、法线和光）。本征图像分解。另一个工作线的目的是解释图像的外观方面的一些内在的，sic的组成部分，包括反褶曲，法线和照明。然而，预测内在图像是困难的，如果不是不可能的话。我们的方法与[28]相关，它学习内在图像分解，并使用可微渲染器来利用具有重建损失的未注释图像[50，42，58]专注于面部图像并探索类似的[59]工作在旋转对称的对象上，只有对象轮廓作为监督。[49，64，69，38，63]研究整个场景的分解。[4]学习合成数据的照片真实感渲染和使用非配对数据作为输入经由对抗性损失的真实图像的内在分解。与此相反，我们的工作利用内在的分解技术，以帮助学习深度预测，通过利用注释的合成和未注释的真实数据，通过域自适应。域适配。仅在合成数据上训练可能会导致模型在真实数据上表现不佳。对抗性领域适应已被证明是有希望的，以弥合这种领域差距。解决这个问题的一种方法是使用域不变特征在域之间进行映射[40]提出减少最大均值离散度来学习域不变特征。[56]建立在这一思想的基础上，并进一步提高了分类任务中的域自适应性能。[55 54，19，53]通过对准源和目标特征来学习域自适应。另一个工作方向是使用图像到图像的翻译[70]来风格化源代码860表1：我们用于训练和测试的数据集概述，以及它们的鞋类别和数量。值得注意的是，real- val包含正式和二手鞋，这些鞋在训练中不存在火车真的来了）。我们包括这些新颖的鞋类型，（a）同步列车(b)实车(c) 真正价值的鞋印(d) 实FID值分析不同方法的通用性详见新的，运动的使用正式鞋印秒4和图中的视觉示例。二、数据集鞋类总注释新-运动鞋已用同步训练88,4083,543000 88，408深度0 3，543，无，正常，轻度无实值2268 36打印实FID值4100 41打印图像作为目标图像。[25，68]使用风格化的源图像来使用源标签从目标图像学习，同时在图像和特征级别执行对准。我们使用域自适应深度估计，但通过推理未标记的真实数据的内在成分进一步采取3. 问题设置和评估方案我们的动机是建立一个鞋印数据库供法医使用。具体任务是预测在线零售商收集的鞋印图像的深度图。下面，我们制定问题，并介绍一个评估协议的基准方法。3.1. 问题设置网上的鞋印照片没有地面实况深度。因此，我们不能直接在它们上训练深度预测器。相反，我们建议创建一个合成鞋印图像的数据集，我们有一个完整的注释集，包括深度，亮度，法线和光照（详见4.1节）。因此，问题是通过在合成的鞋底（具有注释）和真实的鞋底（没有注释）上学习深度预测器来预测真实的鞋底的深度。这需要（1）通过利用具有深度和其他内在分量的注释的合成数据来学习深度预测器，（2）解决合成-真实域间隙。3.2. 评价方案回想一下，所创建的数据库包含预测的深度图和鞋印图像，并且将用于法医用途因此，我们评估预测的深度图的质量w.r.t鞋印匹配。为此，我们引入了两个验证集，其中包含成对的“地面实况”鞋印和鞋印照片（详见第4.2节）。对于给定的鞋印，训练模型预测其深度，度量测量地面真实鞋印之间的匹配程度图2：来自（a）同步列车，（b）实时列车，(c)real-val，和（d）real-FID-val。显然，域间隙存在于（a）syn-train和（b）real-train之间，表明需要关闭合成-真实域间隙。此外，为了研究通用性，我们对2个数据集（c）和（d）进行了评估，并故意保留了正式的和使用过的鞋印，这些鞋印不用于训练，而是用于验证（c）。和预测的深度。我们开发了一个基于交集的度量（IoU）。具体来说，我们使用自适应阈值处理（具有一系列超参数）为预测深度生成一组鞋印，并计算地面实况打印与这些生成的鞋印中的每一个之间的IoU该指标返回最高的IoU。我们进一步将所有验证数据的IoU平均为基准方法的平均IoU（mIoU）。更多详细信息，请参阅附录。4. 数据准备在训练过程中，我们有两个数据源：具有注释的合成数据集（syn-train），以及未注释的真实鞋底的数据集（real-train）。为了研究模型这些数据集中的每一个都包含具有对齐的地面真实鞋印的鞋印照片请注意，为了分析模型图2显示了示例性的鞋底，表1总结了四个数据集。下面，我们详细介绍合成训练集（ syn-train ）、真实训练集（ real-train ）和验证集（real-val和real-FID-val）的创建。4.1. 用于训练的我们的合成数据集（syn-train）包含合成的鞋印图像及其内在注释（深度，亮度，法线和光照）。我们用给定的深度图、灰度图和光照环境合成一个鞋印图像（如图1所示）。（3）第三章。我们将这些传递给基于物理的渲染引擎[27]以生成合成图像。最后的合成训练集包含88，408个具有成对的地面真实内在图像的鞋印。深度贴图。我们使用现有的数据集[61]来生成合理的合成深度图以创建同步训练数据。对于387个鞋印中的每一个，我们合成10-15个不同的深度图。由于鞋印有噪声，影响合成数据的生成，我们首先应用高斯模糊滤波861RFGRFSSSSSSSS鞋形假假马勃同步靴图3：合成数据的生成。我们缩放现成的鞋印来生成“伪”深度图。我们从一个真实的鞋子例子中采样颜色分布来创建一个颜色分布图。深度图和灰度图与照明环境相结合，以渲染合成图像。照明环境是通过可视化一个闪亮的球体来代替鞋子来展示的在此示例中，平行光来自右侧的一个点。噪音。然后我们缩放模糊的打印图像以创建“伪”深度图。为了生成更多样化的深度图，我们添加了随机的高频纹理。最后，我们通过添加先验特征，例如胎面元素上的倾斜斜面和鞋胎面的全局曲率（补充细节），使胎面形状更加逼真阿尔贝都地图。每个渲染鞋的调色板来自真实鞋胎面照片的颜色分布。鞋往往只有少数不同的颜色在整个胎面。我们使用均值漂移算法[17]识别真实鞋底上渲染鞋的反照率贴图由这些颜色组成。首先，我们使用深度图来识别鞋底元素，并分割出可能具有不同颜色的鞋区域。然后，我们从一个真正的鞋的调色板中的百分比，他们是目前的颜色分配给这些部分图3示出了一个示例。光环境。在线零售店使用特殊的漫射照明设备来拍摄鞋子的照片。我们为渲染图像创建了一个类似的光照环境。鞋子是用来自各个方向的明亮漫射白光和一些可选的定向光拍摄的我们总共使用了17种不同的灯光配置。一种光配置是来自所有方向的简单漫射光。除了漫射白光外，八种灯光配置还包括从鞋周围八个方向发光的单个灯泡其余八个是类似的，但包含两个灯泡在120欧姆对方。补充材料有进一步的细节。4.2. 用于训练和预测的在线鞋底在线零售商[1，2]采用鞋子的照片进行广告，其中包括鞋踏图像。Real-train（3，543），cf.表1，由这样的鞋印图像和通过简单网络计算的掩模组成，以分割出鞋印。该数据集不包含任何地面实况，仅包含新的运动鞋。4.3. 验证实验室数据实值为了定量基准方法，我们收集配对的鞋印图像和地面真实指纹，图4：从鞋印图像中生成伪双曲映射。我们展示了两对。我们在鞋印图像上运行均值漂移算法[17]来对RGB像素进行分组，从而生成相应的伪伪随机映射。我们使用伪映射作为监督信号来训练分解器（参见。图①的人。实验室环境图5、总结过程。我们把鞋子放在一个上面有环形灯的灯箱里给它们照相我们用一层薄薄的浮雕墨水涂在鞋底上，然后把吸水性的白纸压在鞋底上，这样就可以从这些鞋子上收集到指纹这种收集鞋印的方法被称为块印刷技术，是法医界用于收集参考鞋印的几种技术之一[9]。为了提高打印质量，我们为每只鞋收集2-3个打印，并在与鞋底对齐后将其我们使用平滑度参数为0.5的薄板样条[13]进行对齐。我们将平均鞋印作为最终的地面真实鞋印。Real-val包含22双新运动鞋，6双新正式鞋和8双旧运动鞋。正式的和使用过的鞋子在训练期间不存在，因此在评估中作为新的例子。实-FID-值我们引入了第二个验证集，该验证集由来自FID300数据集[32]的鞋印和分别从在线检索下载的鞋印图像（即，这些图像与真实列车集合中的图像不相交）。我们找到匹配的FID300指纹（用作地面实况）和下载的鞋印图像，并手动对齐它们。Real-FID-val包含41个新的运动鞋踏面图像，具有相应的地面真实鞋印和用于分割鞋踏面的遮罩。5. 方法我们现在介绍我们的ShoeRensics，这是一个流水线，它通过结合无监督对抗域自适应和固有图像分解技术来训练真实图像IR的深度预测器。给定合成图像IS及其对应的地面实况本质函数（深度X a、深度X d、法线X n和光线X l）和未标记的真实图像IR，我们的目标是训练模型来预测真实图像IR的深度dR。图1概述了我们的培训管道。我们的流水线的主要组件是一个翻译器S→R到stylistening合成图像作为真实图像，一个分解器的内在图像分解，和一个渲染器重建输入图像从他们的内在成分。综合训练。我们在syn-train上以监督的方式训练分解器和渲染器。对于输入图像，分解器预测深度Xd、深度X a、法线Xn和光线X l。渲染器R学习鞋印深度图百分之七十百分真鞋反照率图光862LFLDDLLDDG→G→RLLGANGFGANGRRRRSSSSR→SS s sSLRLRS→RR→S(a) 鞋印图像(b) 油墨鞋印采集打印机(c) 同一鞋印有两个指纹(d) 与鞋印对齐，并将鞋印平均(e) 最终二元地面实况通过图像重建减轻磁畴间隙。我们还使用图像重建损失来解决域间隙[28]。我们使用经过训练的渲染器R从其分解的内在成分重建真实图像，在对转换的合成数据进行微调后，我们将其冻结。我们使用R来正则化分解器的训练图5：我们收集了一组经过验证的地面真实鞋印在实验室环境中的鞋子。(a)显示了一个示例鞋。(b)它涂上一层薄薄的浮雕油墨，并使用滚筒将纸张均匀地压在鞋底（c）我们重复此操作以获得2-3个不同的打印。(d)我们使用薄板样条[13]将这些脚印与鞋印对齐，并（e）对其平均值进行阈值处理，以获得最终的地面真实鞋印，该鞋印具有更好的覆盖率。从这些预测的本征分量重建输入图像。为了训练分解器，我们使用1个损失用于学习深度、深度和法线预测，以及交叉熵损失CE用于学习光（在给定有限光源的情况下，将光预测视为K路分类问题）。我们将整体损失降到最低：Lsup=λlLCE（X<$ l，Xl）+λκL1（X<$ κ，Xκ）。（一）我真的很抱歉。将重建的真实图像表示为IR：=R（Xd，Xa，Xn，Xl），我们最小化差在原始图像IR和其重建图像IR之间，1损失，即，1（IR，IR）。通过特征对齐来缓解领域差距我们进一步采用特征对齐技术来缓解域间隙[70]。具体来说，我们学习了一个对抗性的判别器专长，以区分由分解器为真实图像和翻译的合成图像提取的特征我们在训练分解器时使用它作为一个损失，并在训练分解器时更新分解器这鼓励分解器在真实数据上提取与合成数据无法区分的从而有助于减小畴间隙。其中λ为了学习渲染器，我们简单地最小化原始图像和渲染图像之间的11（IS，（Xd，Xa，Xn，Xl））。请注意，深度预测是我们的主要关注点，我们发现使用分解器和渲染器的学习对深度学习有很大的帮助（参见。图1，表2）。仅在合成数据上训练的模型不能有效地在真实数据上工作，因为众所周知的合成-真实域差距。我们使用下面的技术来解决这个问题。通过图像平移减轻畴隙。先前的工作[25，70]通过将图像从一个域转换到另一个域来解决图像源之间的域差距。我们采用类似的方法，通过训练一名翻译员SR，将我们的合成图像翻译成现实图像。我们训练另一个RS，将真实图像转换为合成风格。同时学习鉴别器R（I）和S（I）以鉴别翻译的图像并用于训练翻译者。这被称为对抗域适应[25]。我们进一步将翻译后的合成/真实图像翻译回原始域，并在结果图像和初始图像之间使用循环损失，以确保在翻译过程中保留结构和内容以下损失训练翻译[25，70]：LS→R （ IR ， IS ） = logDR （ IR ） +log （ 1− DR（GS→R（IS）L（IS，IR）= logDS（IS）+log（ 1− DS （ GR→S （ IR ） Ltran=L （ IR ， IS ） +L（IS，IR）利用伪反照率鞋印，像许多其他人造物体，如汽车和其他玩具一样，往往具有逐段恒定的摩擦力。在此观察的基础上，我们通过使用均值漂移算法[17]对像素进行分组，为真实数据创建伪随机数。图4示出了两个真实鞋子上的示例性伪双足。由于pseudo函数并不理想，因此我们使用它来通过分解器学习pseudo函数预测器。我们发现这产生了比伪地面实况更(see补充分析为了学习预测，我们最小化1损失，即，1（X_ a，MS（IR）），其中MS是均值漂移聚类算法。阶段式训练在训练多个模块时很常见，特别是使用GAN判别器。我们的训练模式包括四个阶段。首先，我们在syn-train上训练解作曲器F和渲染器R。其次，我们用等式训练图像翻译器和鉴别器GS→R、GR→S、DR和DS。2.第三，我们使用翻译的合成图像通过GS→R微调R。最后，我们冻结R和S→R和微调翻译合成图像以及使用上述损失的真实图像。6. 实验我们验证了我们的ShoeRinsics，并将其与我们基准上的先前深度预测方法进行比较。我们从实施细节开始，然后进行可视化的计算和定量评估，并进行一个abla-GANGAN关于ShoeRinsics为什么优于Lcyc=L1（GR→S（GS→R（IS）），IS）+L1（GS→R（GR→S（IR）），IR）（2）通过S→R（IS），我们转换syn-train图像并保持其相应的地面真实本质不变。我们使用这样的转换数据来微调渲染器R。现有技术6.1. 执行训练细节。我们不使用训练集中的高分辨率图像（405x765），而是裁剪补丁κ∈{d，a，n}863DDFRFRG G DD−F−图像预测你好正常预测值深度预测打印GT打印新的，运动的（见）新的，运动的（见）看不见（Unseen）Unseen（看不见的）图6：在实值集的图像上，我们可视化ShoeRinsics的预测，包括生成预测打印的深度阈值。我们的方法ShoeRinsics产生了视觉上吸引人的内在分解（深度，深度和法线）。重要的是，在最后一排底部显示的新鞋印上，ShoeRinsics通过与地面真实鞋印进行比较，产生了非常好的深度和鞋印为了显示预测的指纹，我们设定了预测深度的阈值，以最好地匹配地面实况指纹（第3.2节）。（128x128）来训练模型。我们发现这会产生更好的性能，如消融研究所示（第2节）。6.4）。为了进行公平的比较，我们用相同数量的优化步骤用补丁训练所有模型。在训练过程中，我们从随机位置采样补丁。我们使用Adam optimizer，并将训练的学习率设置为1e-3和1 e-4。Image /GT打印机新的，运动的（见）使用的（看不见的）正式的（看不见的）使用初始模型（例如，和），并分别微调它们。在整个实验中，我们将批量设置为8。回想一下，我们分阶段训练我们的模型（第二节）。（五）。我们在前两个阶段训练20M次迭代，在后两个阶段训练10万次迭代。建筑。我们的分解器和渲染器有一个经典的编码器-解码器结构，如[28]中所用。我们将光预测解码器修改为17路分类器（假设我们的合成数据只有17种照明配置）。我们还在层之间添加残差连接，以预测内在分量（深度、垂直度和法线）的全分辨率映射。我们的翻译器和区分器（S→R，R→S，R，S和feat）与[25]中使用的结构相同。这一壮举是一个卷积网络，它使用一个大小为3的内核来处理卷积、深度和法线特征。它还将照明预测分支的特征也就是说，feat可以学会区分所有内在组件的特征超参数设置。我们将组合的hy-ShoeRinsicspred.深度/打印CyCADA捕食深度/打印UDAB捕食深度/打印Adda捕食深度/打印图7：与针对我们的实值基准上的深度预测定制的最先进的自适应方法的比较。我们的ShoeRinsics在可见和不可见鞋类方面的表现优于其他产品，如红框所示。预参数为λn=（λa，λd，λn，λl），1.一、德-作曲家使用λ=（1，1，1，0. （1）在第一阶段，并使用λ=（1，2，1，0. （1）最后阶段。微调时，我们将反射损失的权重设置为3，伪反射损失的权重设置为2，特征对齐的权重设置为1。我们通过验证来设置超参数。测试时间增强。在测试过程中，我们考虑测试时间增强[14，24]。对于每个图像，我们产生23种变体：3次翻转（水平、垂直和垂直+水平）、4次旋转（角度+5、+10、5和10）、4次缩放（比例因子0.5、0.8、1.5和1.8）和12次翻转+旋转版本（3次翻转乘以4次旋转）。对于每个变体，我们预测深度，然后变换回原始坐标系。我们平均24个864深度图作为最终预测。6.2. ShoeRinsics的定性结果我们通过我们的方法ShoeRinsics在图6中可视化实值图像上的预测。ShoeRinsics预测了良好的深度图，其阈值生成与地面真实指纹匹配的鞋印。作为副产品，我们的方法还对其他内在成分进行了视觉上吸引人的预测。我们将我们的预测与其他方法在实值上的预测进行了比较（图1）。7）和real-FID-val（图（八）。显然，我们的ShoeRinsics比COM方法产生更合理的视觉效果（深度和鞋印）。补充有进一步的可视化。865Image /GT打印机ShoeRinsicspred.深度/打印CyCADA捕食深度/打印UDAB捕食深度/打印Adda捕食深度/打印图8：在real-FID-val上与最先进的深度预测和域自适应方法[19，25，55]的比较。显然，我们的ShoeRinsics产生的鞋印在视觉上比以前的方法更接近地面。6.3. 最新技术水平比较在大多数验证示例中，ShoeRinsics的性能优于先前的方法（详见补充材料）。表2和表3列出了如下分析的比较。与固有图像分解的比较。我们比较了我们的ShoeRinsics和RIN [28]，它学习内在图像分解。由于RIN [28]强调法线预测来表示形状，因此我们使用标准的Frankot-Chellappa算法[15]将法线集成到深度图中。与[28]相比，我们的ShoeRinsics在图像和特征空间中显式地引入了域适应。这样做有助于缓解合成-真实域差距。因此，ShoeRinsics在real-val和real-FID-val上都优于RIN（表2和3）。在实际价值上，它比RIN在（看过的新运动鞋）上的表现好20.5% mIoU，在正式的看不见的鞋上的表现好8.1% mIoU，在用过的看不见的鞋上的表现好 11.4% mIoU 。在 real-FID- val 上，ShoeRinsics比RIN提高了5.6%的mIoU。与Domain Adaptation的比较表2和3清楚地表明，我们的ShoeRinsics在实值和实值FID数据集上的性能始终从消融研究中，如表2的下图所示，我们看到使用渲染器（参见图1）和分解器（学习预-表2：以实际价值为基准我们使用IoU作为指标（以%为单位），并对不同类别的鞋进行分析（训练期间看到的新运动鞋，以及训练中看不到的正式和二手鞋）。我们计算所有验证示例的平均IoU（mIoU）。仅在合成数据上进行训练会产生较差的性能，而我们的ShoeRinsics在可见和不可见类别上都表现最好。这清楚地证明了将合成到真实域自适应与内在分解相结合的好处。消融研究（底部面板）显示每个单独的组件（转换器、转换器和渲染器，参见图1）有助于提高鞋印预测。最后，从我们的仅同步消融来看，分解到所有内在成分的表现优于训练用于鞋印预测的深度预测器，进一步证明了结合内在分解有助于缩小合成到真实域的差距。利用测试时间增加将性能从mIoU=46.8提升到49.0。方法新运动正式使用 Miou表3：实-FID-值的基准测试我们报告了验证示例的平均IoU（mIoU）。ShoeRinsics优于传统方法，并通过测试时间增加进一步改进。RIN Adda UDAB CyCADA ShoeRinsics[28][19][25]第一次世界大战Miou 26.027.229.031.231.6命令行、正常和照明作为辅助监督）大大提高了性能。图中实值的定性比较。7和图中的real-FID-val。8表明，深度图和我们的ShoeRinsics预测的相应打印具有更丰富的纹理和更好的RGB输入对齐模式。当利用测试时间增强时（参见ShoeRinsicsw/ test-time aug），我们将性能从mIoU = 46.8%提高到49.0%（基于实时值），从mIoU=31.6%提高到32.0%（基于实时FID值）。real-val与real-FID-val的性能。所有方法在实际FID值与实际值的比较中均显示出较低的mIoU数。这是由于real-FID-val的噪声地面实况打印（见图1）。第9段）。请注意，FID打印是通过将明胶升降器压在灰尘鞋底上，然后扫描升降器来获得的[32]。这意味着鞋印可能是嘈杂的，因为接触表面不会留下完整的印记。相比之下，对于实值鞋印，（见）（看不见）（看不见）RIN [28]30.039.724.430.4ADDA [55]46.541.427.241.4UDAB [19]46.040.429.641.4CyCADA [25]48.843.934.544.8仅同步，仅41.341.228.438.4仅同步，所有内部函数41.841.527.138.5舒厄林希奇50.547.835.846.8不含酒精48.239.933.643.6w/o翻译器49.042.831.444.0无渲染器49.046.434.745.4866DDDGRGR（a）实FID值（b）实值噪声鞋印设计失配图9：real-FID-val（a）和real-val（b）之间的比较。来自real-FID-val的鞋印有噪声，并且与相应的鞋印轻微相比之下，真实值的鞋印包含整个接触表面，并且与相应的鞋印图像很好地对齐图像预测预测正常捕食深度预测打印图11：失败案例。ShoeRinsics在复杂材料（例如，不透明）。ShoeRinsics（cf.表2）。这验证了渲染器的有效性。图10可视化了在训练期间具有和不具有渲染器的深度预测。显然，使用渲染器，预测的深度具有更好的高频纹理，图像预测深度捕食深度w/ renderer无渲染器图像预测深度w/renderer捕食深度无渲染器真的。见图的标题。10细节所有内部函数仅对深度。比较表2中的图10：使用渲染器（允许使用重建损失）训练ShoeRinsics产生的深度明显优于不使用渲染器的情况。使用渲染器鼓励分解器输出包含细粒度细节的深度图，因为它通过图像重建损失惩罚粗略的预测也就是说，渲染器通过利用来自其他内在组件（视差、法线和光照）的辅助监督来正则化深度预测的学习。我们最小化了这种噪声，并且通过对同一鞋的多个印刷品进行平均来获得更均匀的覆盖此外，虽然real-val由完全相同的鞋子的图像和打印对组成，但real-FID-val由[32]中的打印组成，其中我们手动发现了鞋胎面图像，这意味着它们可能没有很好地对齐，如图11所示。9.第九条。6.4. 消融研究我们进行了消融研究（参见表2底部面板），包括特征对齐（通过在特征空间中学习CXD专长），翻译器S→R和渲染器。所有三个模块都旨在缓解合成-真实域差距。我们还研究了预测内在成分（正常，正常和光照）是否有助于深度预测，以及基于补丁的学习是否优于全图像学习。特征对齐的效果。ShoeRinsicsw/o删除了功能识别器功能，但保留了所有其他模块。它产生 43.6%mIoU，比ShoeRinsics低3.2% mIoU（参见。表2）。这证明了feat通过对齐特性来缓解域差距的有效性图像转换器S→R的效果。ShoeRinsics w/o translator去掉了translator，但保留了其他组件，实现了 44.0%的mIoU，比ShoeRinsics低2.8%（参见表2）。这表明了使用translator来关闭合成-实域间隙的有效性。渲染器的重建损失的影响。ShoeRinsics w/o renderer从ShoeRinsics中删除渲染器，导致45.4% mIoU，比（38.5%对38.4%）。重要的是，这允许使用渲染器作为重建损失来正则化真实图像上的训练，在最终的ShoeRinsics中产生明显更好的结果（46.8% mIoU）。补丁与全分辨率图像。我们通过在补丁上训练分解器与合成数据的全分辨率图像来比较深度预测性能。我们发现前者（基于补丁）实现了38.5%的mIoU（参见表2），而后者的mIoU为36.5%这证明了在此设置中对整个图像进行深度学习的好处。6.5. 失败案例我们在图11中分析了ShoeRinsics的失败案例。我们发现，我们的方法表现不佳的鞋与复杂的材料。一个原因是syn-train数据不包含任何复杂的材料。未来的工作可能会探索更丰富的合成数据集，以提高性能。7. 结论出于构建一个数据库的鞋印法医使用，我们介绍了一个问题，预测深度的鞋踏线照片收集的在线零售商。因为这些照片没有地面实况深度，我们利用合成图像（包含鞋印和地面实况内在函数，包括深度，亮度，法线和照明）。我们研究了域自适应和内在图像分解技术，并提出了一种称为ShoeRin- sics的方法来训练深度预测。我们的实验证明了ShoeRinsics在这项任务上相对于传统方法的持续改进。我们期待未来的算法探索这个任务的角度域自适应，深度预测，和内在的分解。鸣谢。这项工作是由统计和应用中心在Forensic证据（CSAFE）通过合作协议，70NANB15H176和70NANB20H019。867引用[1] 下午六点。 http://www.6pm.com。[2] 美捷步 http://www.zappos.com。[3] Gharsa AlGarni和Madina Hamiane。一种新的鞋印图像自动检索技术。法医科学国际，181（1-3）：10[4] Hassan Abu Alhaija ，Siva Karthik Mustikovela ， JustusThies ， Varun Jampani ， Matthias Nießner ， AndreasGeiger，and Carsten Rother.用于联合神经渲染和内在图像分解的内在自编码器，2021年。[5] 赛义德·阿里扎德和杰马尔·科塞。利用分块稀疏表示的鞋印图像Foren-sic Science International，277：103[6] SomayaAlmaadeed ， AhmedBouridane ， DannyCrookes，and Omar Nibouche.使用多个兴趣点检测器和SIFT描述符的部分鞋印检索。集成计算机辅助工程，22（1）：41[7] Riza Alp Guler ， George Trigeorgis ， EpameinondasAnton- akos ， Patrick Snape ， Stefanos Zafeiriou ， andIasonas Kokki- nos.Densereg：完全卷积的密集形状回归。在IEEE计算机视觉和模式识别会议论文集，第6799- 6808页[8] 穆罕默德·哈里斯·拜格和洛伦佐·托雷萨尼。耦合深度学习。 2016 年 IEEE 计算机视觉应用冬季会议（WACV），第1-10页。IEEE，2016.[9] 威廉·J·博齐亚克鞋印证据：检测、恢复和检查。CRCPress，2017.[10] Ahmed Bouridane，A Alexander，Mokhtar Nibouche和Danny Crookes。分形在鞋印检测与分类中的应用。2000年国际图像处理会议（International Conference onImage Processing）No.00CH37101），第1卷，第474-477页。IEEE，2000年。[11] 罗宾·鲍文和杰西卡·施耐德。法医数据库：油漆鞋印等等NIJ Journal，258：34-38，2007.[12] Philip De Chazal，John Flynn，and Richard B Reilly.基于傅立叶变换的鞋印图像自动处理在法医学中的应用。IEEE Transactions on Pattern Analysis and MachineIntelligence，27（3）：341-350，2005。[13] 让·杜雄Sobolev空间中极小化旋转不变半范数的样条在建设性理论的职能的几个变量，第85-100页施普林格，1977年。[14] David A.作者声明：Jason J.岩石使用范例的内在图像CoRR，abs/2011.10512，2020。[15] Robert T.弗兰克和拉玛·切拉帕。一种增强明暗恢复形状算法可积性IEEE Transactions on Pattern Analysis andMachine Intelligence，10（4）：439[16] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议论文集，第2002-2011页[17] 福永敬之介和拉里·霍斯特勒。密度函数梯度的估计IEEE Transactions on In

下载后可阅读完整内容，剩余1页未读，立即下载