物理照片中嵌入的不可见QR码的隐写技术及其应用探索

66 浏览量更新于2023-10-23 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1StegaStamp：物理照片Matthew Tancik、Ben Mildenhall、Ren Ng加州大学伯克利{tancik，bmild，ren}@ berkeley.edu摘要打印和数字显示的照片能够隐藏无法察觉的数字数据，这些数据可以通过互联网连接的成像系统访问另一种思考方式是物理照片，其中嵌入了不可见的独特QR码。本文提出了一个架构，算法和原型实现，灰处理这一愿景。我们的主要技术贡献是StegaStamp，这是一种学习的隐写算法，能够以接近感知不可见的方式将任意超链接位串鲁棒地编码和解码为照片。StegaStamp包括深度神经网络，其学习对图像扰动鲁棒的编码/解码算法，所述图像扰动近似于由真实打印和摄影产生的失真空间我们演示了实时解码照片中的超链接，从在野外的视频，包含变化的照明，阴影，透视，遮挡和观看距离。我们的原型系统稳健地检索56位超链接后纠错1. 介绍我们的愿景是这样一个未来：现实世界中的每一张照片都无形地编码了一个指向任意信息的独特超链接通过将相机指向照片并使用本文中描述的系统来解码并跟随超链接来访问此信息。在未来，增强现实（AR）系统可以连续地执行该任务，在用户的视图中将检索到的信息与每张照片一起视觉地叠加我们的方法与无处不在的QR码和类似的技术有关，这些技术现在普遍用于各种数据传输任务，例如共享网址，购买商品和跟踪库存。我们的方法可以被认为是一种互补的解决方案，它避免了可见的、丑陋的条形码，并使数字信息能够隐形作者对这项工作做出了同样的贡献。并被嵌入到现代视觉世界无处不在的图像值得花点时间考虑我们系统的三个潜在用例首先，在农贸市场，摊位所有者可以在价格旁边添加每种第二，在大学部门的大厅中，可以通过对每个人的照片的唯一URL进行编码来增强教员的照片目录，该唯一URL第三，纽约市所显示的每个图像帧可以用包含关于产品、公司和促销交易的进一步信息的URL来编码。图1在典型使用流程的上下文中展示了我们的系统（我们称之为StegaStamp）的概述。输入是图像和期望的超链接。首先，我们为超链接分配一个唯一的位串（类似于URL缩短服务（如tinyurl.com）所使用的过程）。其次，我们使用我们的StegaStamp编码器嵌入到目标图像的位这产生理想地在感知上与输入图像相同的编码图像。如第4节中详细描述的，我们的编码器被实现为与实现解码的第二网络联合训练的深度神经网络。第三，编码图像被物理地打印（或在电子显示器上示出）并呈现在现实世界中。第四，用户拍摄包含物理打印的照片第五，系统使用图像检测器来识别和裁剪所有图像。第六，用StegaStamp解码器处理每个图像以检索唯一的位串，该位串用于跟随超链接并检索与图像相关联的信息。这种数据传输方法在隐写术和水印文献中都有很长的历史。我们提出了针对此问题的第一个端到端训练的深度管道，即使在“物理传输”下也可以实现鲁棒解码我们扩展了传统的学习隐写框架，增加了一组不同的-21172118消息1010..001检测1010.. 001解码消息输入图像编码器StegaStamp捕获照片图像解码器损坏图1：我们的深度学习系统被训练来隐藏图像中的超链接首先，编码器网络将输入图像和超链接位串处理StegaStamp然后被打印并由相机捕获。检测网络在将StegaStamp传递到解码器网络之前定位并校正在位被恢复和纠错之后，用户可以跟随超链接。为了训练编码器和解码器网络，我们模拟了打印，重新成像和检测StegaStamp与一组可区分的图像增强所造成的编码器和解码器之间的可行的像素和空间图像损坏成功地近似了由“物理传输”导致的失真空间（即，实际打印或显示以及随后的图像捕获）。其结果是鲁棒的检索的95%的100个编码位在现实世界的条件下，同时保持良好的感知图像质量。这使得我们的原型能够对隐藏的超链接进行唯一编码，这些超链接的数量级超过了今天互联网上存在的图像（上限为100万亿）。2. 相关工作2.1. 隐写隐写术是将数据隐藏在其他数据中的行为我们提出的任务是一种隐写术，我们在图像中隐藏代码已经开发了各种用于数字图像隐写的方法数据可以隐藏在图像的最低有效位、细微的颜色变化和细微的亮度变化中。通常，方法被设计为逃避隐写分析，隐藏消息的检测[18，34]。我们建议感兴趣的读者阅读综述[9，11]，其中回顾了一系列广泛的技术。与我们的提议最相关的工作是利用深度学习对隐藏在图像中的消息进行编码和解码的方法[5，21，43，47，51，54，44]。我们的方法假设图像将被破坏，在编码和解码步骤之间的显示成像流水线。除了HiDDeN [54]和光场消息传递（LFM）[45]之外，小的图像操作或损坏将使现有技术无用，因为它们的目标是在完美的数字传输背景下编码大量的每像素比特HiDDeN在编码和解码之间引入了各种类型的噪声，以增加了鲁棒性但仅关注通过数字图像操作而发生的一组JPEG压缩和裁剪）。作为一个物理条形码使用，解码器不能假设完美的对齐，考虑到透视移位和像素复位保证发生时，采取一个休闲的照片。LFM [45]使用在手动摄影监视器的大型数据集上训练的网络来获得鲁棒性，以消除相机显示损坏。我们的方法不需要这种时间密集型的数据集捕获步骤，并推广到打印图像，一种收集训练数据将更加困难的介质。2.2. 水印水印是隐写术的一种形式，长期以来一直被认为是将物理图像链接到互联网资源的潜在方法[2]。该领域的早期工作定义了鲁棒水印的一组理想目标，包括不可见性和对图像操作的鲁棒性[7]。后来的研究证明了在对数极坐标频域中对水印进行编码的显著鲁棒性益处[27，33，35，53]。类似的方法已经被优化用于交互式移动电话应用[13，31，36]。额外的工作集中在仔细建模打印机-相机变换[37，42]或显示器-相机变换[17，46，50]，以更好地传递信息显示器-摄像机通信的一些方法利用了这种硬件组合的独特属性，例如偏振[49]、滚动快门伪影[26]或高帧速率[12]。图像取证中的相关工作探索是否可以使用CNN来检测图像何时被重新成像[16]。与以前的水印工作中使用的手工设计的流水线相比，我们的方法自动学习如何以一种对许多不同的水印都具有鲁棒性的方式隐藏和传输数据。2119打印机/显示器、相机、照明和视点的组合。我们提供了一个框架来训练这个系统，并对其能力进行了严格的评估，证明它在许多现实世界的情况下工作，并使用消融来显示我们的训练扰动的相对重要性2.3. 条形码条形码是用于将短串数据传输到计算设备的最流行的解决方案之一，仅需要简单的硬件（激光阅读器或相机）和用于打印或显示代码的传统的条形码是一维图案，其中交替厚度的条编码不同的值。高质量手机摄像头的普遍存在导致了二维QR码的频繁使用，例如，用户可以共享联系信息、支付商品、跟踪库存或从广告检索优惠券过去的研究已经解决了使用相机对现有或新的条形码设计进行鲁棒解码的问题[29，32]。一些设计特别利用了相机的增强功能，超越了简单的激光扫描仪，以各种方式，如将颜色纳入条形码[8]。其他工作提出了一种方法，该方法确定条形码应放置在图像上的位置以及应使用什么颜色。用于提高机器可读性[30]。另一种特殊类型的条形码被专门设计为传输用于相机定位或校准的小标识符和精确的六个自由度取向，例如，ArUco标记[19，38]。Hu等人[22]使用类似于我们的方法的数据增强，训练深度网络以在模拟现实世界条件下定位和识别ArUco标记然而，他们的重点是高度可见的预先存在的标记的鲁棒检测，而不是隐藏在任意自然图像中的消息的鲁棒解码。2.4. 鲁棒的对抗性图像攻击对对象分类CNN的对抗性图像攻击旨在最小化对图像的干扰，以产生不正确的分类。与我们的工作最相关的是物理世界中对抗性示例的演示[4，10，15，25，28，40，41]，其中通过对物理真实扰动（即，仿射图像变形、加性噪声和JPEG压缩）。Jan等人[25]采取不同的方法，明确地训练神经网络来复制成像系统增加的失真，并表明将攻击应用于失真图像会增加成功率。这些结果表明，在图像经过成像管道之后，网络仍然可以受到小扰动的影响。我们提出的任务有一些相似之处;然而，分类目标1的n=210la-贝尔，虽然我们的目标是唯一解码1的2m消息，原始图像StegaStamp残差图2：编码图像的示例残差由编码器网络计算并加回原始图像以产生编码的StegaStamp。这些示例具有100位编码消息，并且对于通过打印和成像流水线发生的图像扰动是鲁棒的。其中m≈100是编码比特的数量此外，对抗性攻击通常不会修改解码器网络，而我们显式地训练解码器进行合作与我们的编码器最大的信息传输。3. 真实世界鲁棒性培训在训练期间，我们在编码器和解码器之间应用图3中概述的一组可区分的图像扰动，以近似由物理显示和成像StegaStamps引起的失真以前合成鲁棒对抗性示例的工作使用了类似的方法来攻击野生分类网络（称为“期望转换”），尽管它们使用了HiDDeN [54]仅使用非空间扰动来增强其隐写流水线以对抗数字扰动。DeepChArUco [22]使用空间和非空间扰动来训练专门用于ChArUco基准标记板的稳健检测器。我们结合了所有这些工作的想法，训练编码器和解码器，它们合作通过物理显示成像管道稳健地传输2120输入透视扭曲（第第3.1节）运动/散焦模糊（秒3.2）色彩处理（第二节）3.3）噪音（秒）第3.4节）JPEG压缩（秒3.5）图3：图像扰动流水线。在训练过程中，我们近似物理显示成像管道的效果，以使我们的模型在现实世界中使用时具有鲁棒性。我们获取编码网络的输出，并在将图像传递到解码网络之前应用这里显示的随机变换（详见第3节）。3.1. 透视扭曲假设针孔相机模型，相同平面表面的任何两个图像可以通过单应性相关我们生成一个随机单应性来模拟与编码图像标记不精确对齐的相机的效果。为了对单应性进行采样，我们随机地在一个范围内均匀地扰动标记的四个角位置固定范围（高达±40像素，即±10%），然后求解将原始角映射到它们的新位置的单应性。阳离子我们双线性重采样原始图像以创建透视扭曲图像。3.2. 运动和散焦模糊模糊可能由相机运动和不准确的自动对焦引起。为了模拟运动模糊，我们对随机角度进行采样，并生成宽度在3到7个像素之间的直线模糊内核。为了模拟散焦，我们使用高斯模糊核，其标准差随机3.4. 噪声由相机系统引入的噪声被充分研究，并且包括光子噪声、暗噪声和散粒噪声[20]。我们假设标准的非光子饥饿成像条件，采用高斯噪声模型（对标准的偏差σ <$U[0，0. 2]）以考虑成像噪声。3.5. JPEG压缩相机图像通常以有损格式（如JPEG）存储。JPEG通过计算图像中每个8×8块的离散余弦变换来压缩图像，并通过四舍五入到近似值来量化得到的系数est integer（在不同的强度为不同的频率）。这种舍入步骤是不可微的，因此我们使用Shin和Song [40]的技巧，用分段函数近似接近零的.x3：|X| 0<的情况。5在1到3个像素之间采样。q（x）=（一）x：|X| ≥ 0。53.3. 颜色处理与全RGB色彩空间相比，打印机和显示器具有有限的色域。相机使用曝光设置、白平衡和颜色校正矩阵修改其输出。我们用一系列随机仿射颜色变换（在整个图像上恒定）来近似这些扰动，如下所示：1. 色调偏移：将随机颜色偏移添加到从[−0]均匀采样的每个RGB通道。1，0。1]中。2. 去饱和：在全RGB图像及其灰度等效物之间随机线性插值。3. 亮度和对比度：仿射直方图重缩放mx+ b，其中m ≠ U [0. 五一5]和b U [−0. 3，0。3]。在这些变换之后，我们将颜色通道裁剪为[0，1]。它几乎处处都有非零导数我们在[50，100]内均匀采样JPEG质量。4. 实现细节4.1. 编码器编码器被训练为将消息嵌入到图像中，同时最小化输入图像和编码图像之间的感知差异。我们使用一个U-Net [39]风格的架构，它接收一个四通道400×400像素的输入（输入图像RGB通道加上一个用于消息的通道），并输出三通道RGB残差图像。输入消息表示为100位二进制字符串，通过全连接层处理以形成50×50×3张量，然后上采样以产生400×400×3张量。我们发现将该预处理应用于消息有助于收敛。2121我们在图2中呈现编码图像的示例。21224.2. 解码器解码器是被训练成从编码图像恢复隐藏消息的网络。空间Transformer网络[24]用于开发针对在捕获和校正编码图像时引入的小视角变化的鲁棒性。变换后的图像通过一系列卷积层和密集层以及sigmoid来产生与消息长度相同的最终输出。使用交叉熵损失来监督解码器网络4.3. 检测器对于实际应用，我们必须在解码之前检测和校正宽视场图像内的StegaS篡改。这是因为解码器网络本身并不被设计成处理大得多的图像内的完全检测。我们微调了现成的语义分割网络BiSeNet [48]，以分割图像中被认为包含StegaStamps的区域。该网络使用嵌入到从DIV2K [1]采样的高分辨率图像中的随机变换的StegaStamps数据集进行训练在测试时，我们将一个四边形拟合到网络的建议区域，然后计算一个单应性，将每个四边形扭曲回400 × 400像素的4.4. 编码器/解码器训练程序训练数据在训练过程中，我们使用来自MIRFLICKR数据集[23]的图像（重新采样到400×400分辨率）与随机采样的二进制消息相结合。批评者作为我们总损失的一部分，我们使用批评者网络其预测消息是否被编码在图像中并且被用作编码器/解码器流水线的感知损失。该网络由一系列卷积层组成，随后是最大池化。为了训练批评者，对输入图像和编码图像进行分类，并将Wasserstein损失[3]用作监督信号。批评者的训练与编码器/解码器的训练交错。损失为了在编码的StegaStamp上强制最小的感知失真，我们使用L2残差正则化LR，LPIPS感知损失[52]LP和批评损失在编码图像和原始图像之间计算LC。我们对消息使用交叉熵损失LM。训练损失是这些损失分量的加权和。L=λR LR+λP LP+λC LC+λM LM（2）我们发现三种损失函数调整在训练网络时特别有助于图4：我们的系统在野外部署的示例我们概述了我们的系统检测和解码的StegaStamps我们的方法在现实世界中工作，表现出鲁棒性改变相机的方向，照明，阴影等。您可以在我们的补充视频中找到1. 当解码器训练到高精度时，这些图像损失权重λR、P、C必须初始地设置为零，之后λR、P、C线性地增加2. 图像扰动强度也必须从零开始透视变形是最敏感的扰动，并以最慢的速率增加。3. 模型学习在图像边缘添加分散注意力的图案我们通过增加边缘处的L2损失的权重和余弦衰减来减轻这种影响。5. 基于真实世界仿真的评估我们测试我们的系统在现实世界的条件和合成近似的显示成像管道。我们证明了我们的系统在野外工作，在不受控制的室内和室外环境中恢复消息。我们评估我们的系统在一个受控的现实世界设置与18个组合的6个不同的显示器/打印机和3个不同的- ent相机。在所有环境中（1890年捕获百分之九十九百分百2123图5：尽管没有显式地训练该方法对遮挡具有鲁棒性，但我们发现我们的解码器可以优雅地处理部分擦除，保持高准确性。图像），我们实现了平均位精度为98。百分之七。我们使用四种不同的训练模型进行真实和合成消融研究，以验证我们的系统对我们在训练期间应用的每种扰动都具有鲁棒性，并且省略这些增强会显着降低性能。5.1. 在野生鲁棒性我们的方法进行了测试，在各种现实环境中捕获的StegaStamps在消费者打印机上打印。图4中示出了具有检测到的四边形和解码精度的捕获帧的示例。当Ste-gaStamp的部分被其他对象覆盖时，我们还展示了令人惊讶的鲁棒性水平（图5）。请参阅我们的补充视频，了解真实世界StegaStamp解码的广泛示例，包括使用BCH纠错码完美恢复56位消息的示例[6]。我们通常发现，如果边界矩形被准确地定位，则解码精度高。然而，检测器有可能在视频帧的子集上错过StegaStamp实际上这不是问题，因为代码只需要恢复一次。我们希望未来的扩展，结合时间信息和自定义检测网络可以进一步提高检测的一致性。5.2. 控制真实世界实验为了证明我们的模型从合成扰动推广到真实的物理显示成像管道，我们进行了一系列测试，其中编码图像被打印或显示，由相机重新捕获，然后解码。我们从ImageNet数据集中随机选择100个唯一的图像[14]（与我们的训练集不相交），并在每个图像中嵌入随机的100位消息我们生成- erate 5个额外的StegaStamps与相同的源图像，但不同的消息，共105个测试图像。我们在有固定照明的暗室里进行实验打印的图像被固定在一个钻机的一致性和捕获的三脚架安装相机。生成的照片被手工裁剪、校正并通过解码器。图像使用消费者打印机（HP表1：使用六种显示方法（三台打印机和三个屏幕）和三台摄像机的组合测试的真实世界解码准确度（正确恢复的位的百分比）我们显示了从ImageNet [14]中随机选择的105张图像的第5，第25和第50次测试和平均值，随机采样100位消息。LaserJet Pro M281fdw）、企业打印机（ HP LaserJetEnterprise CP4025）和商业打印机（Xerox 700i DigitalColor Press）。这些图像还可以数字显示在哑光1080p显示器（Dell ST 2410），光泽高DPI笔记本电脑屏幕（Macbook Pro 15英寸）和OLED手机屏幕（iPhoneX）上。为了对StegaStamps进行成像，我们使用了高清网络摄像头（Logitech C920），手机摄像头（GooglePixel 3）和数码单反相机（Canon 5D Mark II）。所有设备均使用其出厂校准设置。105张图像中的每一张都是在6种媒体和3台相机的所有18种组合中拍摄的结果报告于表1中。我们的方法在显示器/打印机和相机的各种不同组合中具有高度鲁棒性;这些情形中的三分之二产生100%的中值准确度和至少95%的第5百分位准确度的完美解码。我们对所有1890张捕获图像的平均准确率为98。百分之七。使用由手机摄像头+在消费者打印机组合中，我们将我们的方法的变体（在第5.3节中进一步描述）与图6中的Baluja [5]、HiD-DeN [54]和LFM [44]进行比较。我们模型的变体使用相同的架构，但使用不同的增强进行训练;名称无、像素、空间和全部指示在训练期间应用哪些类别的扰动。我们看到Baluja [5]，用最小量的增强噪声（类似于我们的None变体）训练，表现并不比猜测更好[54]第五十四话百分之九十七第五次25次50次平均数企业88% 94% 98% 95.9%消费者90% 98% 99% 98.1%专业97% 99% 100% 99.2%监控94% 98% 99% 98.5%笔记本电脑97% 99% 100% 99.1%手机91% 98% 99% 97.7%企业88% 96% 98% 96.8%消费者95% 99% 100% 99.0%专业97% 99% 100% 99.3%监控98% 99% 100% 99.4%笔记本电脑98% 99% 100% 99.7%手机96% 99% 100% 99.2%企业86% 96% 99% 97.0%消费者97% 99% 100% 99.3%专业98% 99% 100% 99.5%监控99% 100% 100% 99.8%笔记本电脑99% 100% 100% 99.8%手机DSLRWebcam屏幕打印机屏幕打印机丝网印刷机2124机会巴鲁贾[5]HIDDeN [54][44]第四十四话：[44]第四十四话：无像素空间所有真实世界的比较0.4 0.6 0.8 1.0位恢复精度度量50消息长度100 150200PSNR↑29.8828.5026.4721.79SSIM↑0.9300.9050.8760.793LPIPS↓0.1000.1010.1280.184表2：使用不同消息长度训练的模型的图像质量，平均超过500张图像。PSNR和SSIM越高越好。LPIPS [52]是一种学习的感知相似性度量，越低越好。模型（在没有扰动、仅像素扰动和仅空间扰动的情况下训练）。大多数关于学习图像隐写术的工作都集中在隐藏尽可能多的信息，假设没有腐败会图6：第5.3节中描述的我们的方法的变体和竞争方法的真实世界比较，使用表1中的手机相机+消费者打印机管道。我们展示了随机猜测的分布（平均值为0。5由虚线表示），以证明无扰动消融和Baluja [5]的性能并不比偶然性更好HiDDeN [54]使用像素扰动以及随机掩蔽。添加空间扰动对于实现高真实世界性能至关重要。LFM [44]在屏幕上工作得很好，但未能推广到印刷媒体。增强到他们的训练管道中，以增加对扰动的鲁棒性。他们的方法是用一组像素级扰动和一个“裁剪”增强来训练的，这个增强可以掩盖一个随机的图像区域。然而，它缺乏对图像进行空间重采样的增强，我们发现它的准确性介于Pixelwise和Spatial变体之间。LFM [44]专门训练了一个在这个领域（然而，它并不推广到打印机/相机流水线（“打印机”）。有关比较方法的检测详细信息，请参阅补充资料。在我们自己的消融变体中，我们看到单独使用空间扰动的训练比仅使用像素扰动的性能要高得多;然而，Spatial仍然不能可靠地恢复足够的数据以供实际使用。我们提出的方法（所有），结合像素和空间扰动，实现了最精确和准确的结果，由一个大的利润。5.3. 合成消融测试我们在合成实验中测试了使用第3节中图像扰动的不同子集进行训练如何影响解码准确性（图7）。我们评估了我们的基础模型（使用所有扰动进行训练）和三个额外的模型。在解码之前发生（如在我们的我们对1000张图像进行了更详尽的合成消融研究，以分别测试每个训练时间扰动对准确性的影响。图7所示的结果遵循与真实世界比较测试相似的模式。在没有扰动的情况下训练的模型对颜色扭曲和噪声的鲁棒性令人惊讶，但在存在扭曲，模糊或任何级别的JPEG压缩时立即失败。仅使用像素级扰动的训练对这些增强产生高鲁棒性，但仍然使网络容易受到来自扭曲或模糊的任何数量的像素恢复另一方面，仅使用空间扰动的训练也赋予了针对JPEG压缩的增强的鲁棒性（可能是因为它具有与模糊类似的低通滤波效果同样，在训练中，并且逐像素增强产生最佳结果。5.4. 实际消息长度我们的模型可以被训练来存储不同数量的比特。在前面的所有示例中，我们使用的消息长度为100. 图8比较了来自四个单独训练的具有不同消息长度的模型的编码图像较大的消息更难以编码和解码;结果，在恢复精度和视觉相似性之间存在折衷。表2中报告了相关的图像度量。在训练时，图像和消息损失被调整，使得比特精度收敛到至少95%。我们选择100位的消息长度，因为它在图像质量和信息传输之间提供了如果估计至少95%的恢复精度，我们可以使用BCH码对至少56个纠错位进行编码[6]。正如在介绍中所讨论的，这使我们能够将历史上记录的每个图像唯一地映射到相应的StegaStamp。考虑到纠错，仅使用50个总消息比特将大大减少可能的编码超链接的数量到10亿以下由编码150或200比特引起的图像劣化更加可察觉。我们培训干扰2125训练期间施加的扰动(a) 所有扰动（b）无扰动（c）仅像素扰动（d）仅1.00.90.80.70.60.50.0 0.5 1.0 1.52.0扰动强度1.00.90.80.70.60.50.0 0.5 1.0 1.52.0扰动强度1.00.90.80.70.60.50.0 0.5 1.0 1.52.0扰动强度1.00.90.80.70.60.50.0 0.5 1.0 1.5 2.0扰动强度所有扭曲模糊噪波颜色JPEG测试时间扰动图7：合成消融测试显示了使用各种图像扰动组合进行训练对比特恢复鲁棒性的影响为了测试在一系列可能的退化中的鲁棒性，我们将每个扰动的强度参数化，范围从0（最弱）到1（训练期间看到的最大值）到2（最强）。未针对空间扰动训练的模型（b-c）对扭曲和模糊非常敏感，而仅针对空间扰动训练的模型（d）对颜色变换敏感。线条显示平均准确度，阴影区域显示100个随机图像和消息的第25 - 75百分位数详见第5.3节。原始50位100位150位200位图8：训练四个模型来编码不同长度的消息。插图示出了相对于原始图像的残差。感知质量随着更多比特被编码而降低。我们发现，100位的消息长度提供了良好的图像质量，是足够的编码几乎无限数量的不同的超链接使用纠错码。5.5. 限制虽然我们的系统在现实世界中的成功率很高，但距离实现广泛就业还有很多步骤尽管在高频纹理中通常非常微妙，但由编码器网络添加的残差有时在图像的大低频区域中是可感知的未来的工作可以改进我们的架构和损失函数，以生成更微妙的编码。此外，我们发现我们的现成的检测网络是我们的解码性能在现实世界的测试中的瓶颈与编码器/解码器端到端优化的自定义检测架构当前框架还假设StegaStamps将是单个正方形图像以用于检测目的。我们认为，将多个代码无缝地嵌入到单个较大的图像（如海报或广告牌）中可以提供更大的灵活性。6. 结论我们已经提出了一个端到端的深度学习框架，用于将56位纠错超链接编码为任意自然图像。我们的网络通过图像扰动模块进行训练，使它们能够推广到现实世界的显示成像管道。我们展示了强大的解码性能的各种打印机，屏幕和相机的组合在实验环境中。我们还表明，我们的方法足够稳定，可以在野外部署，作为现有条形码的替代品，其侵入性更低，更具美感。7. 致谢我们感谢科林·德文和张柏芝在我们的补充视频和Utkarsh Singhal和Pratul Srinivasan有用的反馈。BM由赫兹奖学金支持，MT由NSFGRFP支持。精度2126引用[1] Eirikur Agustsson和Radu Timofte。Ntire 2017单图像超分辨率挑战：数据集和研究。在CVPR研讨会，2017。5[2] 阿德南·M阿拉塔智能图像使用digimarc2[3] 马丁·阿乔对ky，苏米特·钦塔拉和L e'onBottou。Wasser-stein生成对抗网络。ICML，2017。5[4] Anish Athalye、Logan Engstrom、Andrew Ilyas和KevinKwok。合成强大的对抗性示例。在ICML，2018。3[5] Shumeet Baluja把图像隐藏在普通的视线中：深度隐写术。NeurIPS，2017。二六七[6] Raj Chandra Bose和Dwijendra K Ray-Chaudhuri。关于一类纠错二进制群码。信息与控制，1960年。六、七[7] G. W. 布劳达威使用不可见的图像水印保护公开可用的图像载于ICIP，1997年。2[8] Orhan Bulan，Henryk Blasinski，和Gaurav Sharma.彩色QR码：通过每通道数据编码和干扰消除提高容量。在2011年的彩色和成像会议上。3[9] Abbas Cheddad、Joan Condell、Kevin Curran和Paul McKevitt。数字图像隐写术：当前方法的调查和SignalProcessing，90（3），2010. 2[10] Shang-Tse Chen ， Cory Cornelius ， Jason Martin ， andDuen Horng Polo Chau.变形者：对更快的r-cnn对象检测器的鲁棒物理对抗攻击。在2018年的机器学习和数据库知识发现欧洲联合会议上。3[11] Ingemar Cox，Matthew Miller，Jeffrey Bloom，JessicaFridrich，and Ton Kalker.数字水印与隐写术。摩根·考夫曼，2007年。2[12] Hao Cui，Huanyu Bian，Weiming Zhang，and NenghaiYu. Unseencode：基于图像提取的不可见屏幕条形码。IEEE INFOCOM 2019-IEEE计算机通信会议，第1315-1323页。IEEE，2019。2[13] L. A. Delgado-Guillen，J.J. Garcia-Hernandez和C.托勒斯-维齐尔。基于移动平台的彩色图像数字水印 IEEEMWSCAS，2013年。2[14] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞ImageNet：一个大规模的分层图像数据库。CVPR，2009。6[15] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 Amir Rahmati 、 Chaowei Xiao 、 Atul Prakash 、Tadayoshi Kohno和Dawn Song。对深度学习视觉分类的强大物理世界攻击。在CVPR，2018年。3[16] W.范，S。Agarwal和H.法里德重播攻击：防御，再攻击，再防御. EUSIPCO，2018年。2[17] H.芳，W. Zhang，H. Zhou， H. Cui和N. Yu.屏幕拍摄弹性水印。IEEE TIFS，2019年。2[18] 杰西卡 · 弗里德里奇，托玛的《我的朋友》和《扬·K·od·o·vsk》。静态不可检测的JPEG隐写术：死胡同、挑战和机遇。2007年第九届多媒体安全研讨会论文集。2[19] 先生加里多-胡拉多，拉法埃尔穆恩托奥斯-萨利纳斯，弗朗西斯科马德里-奎瓦斯，和拉斐尔梅迪纳-卡尼尔。使用混合整数线性规划生成基准标记字典。模式识别，2015年。3[20] 塞缪尔·W.哈辛诺夫光子，泊松噪声。在计算机视觉中：参考指南。2014. 4[21] 杰米 ·海耶斯和乔治 · 达内吉斯通过对抗训练生成NeurIPS，2017。2[22] DanyingHu，DanielDeTone，andTomaszMalisiewicz.Deep Charuco：暗查鲁科标记姿态估计。在CVPR，2019年。3[23] Mark J.Huiskes和Michael S.卢mir flickr检索评估。在MIRACM，2008年。5[24] 麦克斯·杰德伯格，凯伦·西蒙尼安，安德鲁·齐瑟曼，还有科雷·卡武库格鲁.空间Transformer网络。InNeurIPS，2015.5[25] 史蒂夫·T K. Jan，Joseph Messou，Yen-Chen Lin，Jia-Bin Huang，and Gang Wang. 连接数字和物理世界：提高对抗性攻击的鲁棒性。在AAAI，2019年。3[26] Kensei Jo，Mohit Gupta，and Shree K.纳亚尔迪斯科：使用滚动快门传感器的显示器-摄像机通信。ACM事务处理图表，2016年。2[27] X. Kang，J. Huang，and W.小曾。基于均匀对数极坐标映射的高效通用打印扫描弹性数据隐藏。IEEE TIFS，2010年。2[28] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.物理世界中的对抗性例子。arXiv预印本arXiv：1607.02533，2016。3[29] 刘悦，杨炬，刘明君。手机二维码识别。中国控制与决策会议。IEEE，2008年。3[30] MyodoEmi，ShigeyukiSakazawa和YasuhiroTakishima。用于在彩色图像中嵌入条形码的方法、装置和计算机程序，2013。美国专利8，550，366。3[31] TakaoNakamura ， AtsushiKatayama ， MasashiYamamuro，and Noboru Sonehara.一种快速的手机图像水印检测方法。IJPRAI，2006年。2[32] Ohbuchi，Hiroshi Hanaizumi和Lim Ah Hock。条码阅读器使用手机中的摄像头设备.在网络世界国际会议上。IEEE，2004年。3[33] 谢尔比·佩雷拉和蒂埃里·潘抗仿射图像水印的鲁棒模板匹配。IEEE Transactions on Image Processing，2000。2[34] 托玛的女儿，托玛的女儿，还有帕特里克·巴斯。使用高维图像模型进行高度不可检测的隐写术。2010年，信息隐藏国际研讨会。2[35] AnuPramila，AnjaKe s kinarkaus，andTapioSepp aenen. 在印刷凸轮过程中的水印鲁棒性载于IASTED SPPRA，2008年。2[36] AnuPramila ， AnjaKeskinarkaus ， andTapioSepp aenen.一种使用数位浮水印及行动电话摄影机之互动式海报.信号，图像和视频处理，2012年。22127[37] AnuPramila ， AnjaKeskinarkaus ， andTapioSepp aenen.增加了print-cam鲁棒水印的捕获角度系统与软件杂志，135：205-215，2018。2[38] FranciscoRomeroRamirez，RafaelMunMuboz-Salinas，andRafael Medina-Carnicer.加快了方形基准标记的检测。图像和视觉计算，2018年。3[39] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络。在MICCAI。Springer International Publishing，2015. 4[40] Richard Shin和Dawn Song抗JPEG对抗图像。NeurIPS机器学习和计算机安全研讨会，2017年。三、四[41] ChawinSitawarin 、 ArjunNitin Bhagoji 、 ArsalanMosenia、Mung Chiang和Prateek Mittal。飞镖：欺骗带有有毒标志的自动驾驶汽车。arXiv 预印本arXiv：1802.06430，2018。3[42] K. 索兰基湾马德豪湾S. Manjunath，S.我是阿拉瑟卡兰，哈利勒“打印和扫描”弹性数据隐藏在图像中。IEEETIFS，2006年。2[43] 唐伟玄、谭顺泉、李斌、黄纪武使用生成对抗网络的伪隐写失真学习IEEE Signal Processing Letters，2017。2[44] Eric Wengrowski和Kristin Dana光场信息与深度摄影隐写术。在CVPR，2019年。二六七[45] Eric Wengrowski和Kristin Dana光场信息与深度摄影隐写术。在IEEE计算机视觉和模式识别会议论文集，第1515-1524页2[46] E. Wengrowski ， W.Yuan ， K.J. Dana ， A. 阿肖克MGruteser和N.曼达亚姆摄像机-显示器通信的最佳辐射定标。InWACV，2016. 2[47] 吴品，杨阳，李小强。Stegnet：具有深度卷积网络的大型图像隐写能力未来互联网，2018年。2[48] Changqian Yu ， Jingbo Wang ， Chao Peng ， ChangxinGao，Gang Yu，and Nong Sang. Bisenet：用于实时语义分割的双边分割网络。在ECCV，2018。5[49] W. Yuan，K.Dana，M.瓦尔加A。阿肖克MGruteser，以及N.曼达亚姆目视光学系统的计算机视觉方法。2011. 2[50] W. Yuan，K. J. Dana，A.阿肖克M Gruteser和N.曼-达亚姆。空间变化的辐射校准相机

下载后可阅读完整内容，剩余1页未读，立即下载