电子商务图片的显著性预测方法及数据集

19 浏览量更新于2023-10-25 收藏 18.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20880电子商务图片上的文本是否吸引注意力：一种新颖的显著性预测数据集和方法0蒋来1*，李一飞1�，李胜喜1†，徐麦1†，雷瑟1，郭一晨1，黄波1，北京航空航天大学电子信息工程学院，中国北京0摘要0电子商务图片在吸引人们的注意力、在线零售和网购中起着核心作用，准确的注意力预测对于顾客和零售商都非常重要，但相关研究尚未开始。本文建立了第一个电子商务图片显著性数据集（SalECI），用于学习预测电子商务图片上的显著性。然后，我们通过突出电子商务图片的独特特征，如非局部性和与文本区域的相关性，提供了专门和全面的分析。相应地，利用非局部和自注意机制的优势，我们提出了一个显著的SWin-Transformer骨干网络，后跟一个具有显著性和文本检测头的多任务学习，提出了一种信息流机制来进一步有益于两个任务。实验结果验证了我们的工作在电子商务场景中的最先进性能。01. 引言0如今，网上零售已经彻底改变了日常生活中的购物习惯，为顾客和零售商提供了显著提高的效率和实践经验。新冠疫情的突然爆发进一步强调了在线购物的重要性和普及性。由于“一图胜千言”，电子商务图片展示了丰富而启发性的内容，在在线购物中成为推广产品的工具，因此在购物活动中起着至关重要的作用，包括介绍产品、辅助视觉搜索、吸引顾客并影响他们最终的决策。由于零售的固有特性，电子商务图片的主要目标是在一瞥之间吸引顾客的注意力；主要有两个方面：1）在购物时吸引顾客关注产品，2）吸引顾客关注突出的图片部分，突出产品的可区分和“必须购买”的特征。0* 两位作者对本研究做出了相等的贡献。†通讯作者：李胜喜（LiShengxi@buaa.edu.cn），徐麦（MaiXu@buaa.edu.cn）0图1. 地面真实性、DeepGace IIE [26]、UNISAL[7]和提出方法的显著性图。如图所示，现有的自然图像方法倾向于过度或低估预测电子商务图片中文本区域的显著性值。0产品。因此，电子商务图片通常是图片和文字的组合，以实现有效吸引和介绍给顾客的目标。因此，电子商务图片的显著性预测对于为顾客提供增强的引导信息和购物体验至关重要。现有的显著性预测工作几乎都集中在自然图像上，从低级手工特征[14,44]或数据驱动的深度神经网络（DNNs）[7, 18, 27,29]的角度来看。然而，由于零售的根本目标，电子商务图片是经过特殊设计的，特别是具有简短但精确的文字。因此，电子商务图片与广泛分析的自然图像基本上是不同的，例如，自然图像是通过美观、记录等目标创建的。因此，现有的方法在预测电子商务图片的显著性方面是不足的。例如，在现有方法中，自然图像中的对象区域是预测显著性最重要的高级线索之一[13,17]，但在电子商务图片中，文本区域可能与对象区域一样甚至不太显著，而这些文本区域突出了产品的关键特征和品牌。图1说明了现有显著性预测方法在电子商务图片上的局限性，其中最近的自然图像方法，即DeepGace IIE[26]和UNISAL[7]，倾向于过度或低估预测电子商务图片中文本区域的显著性值。20890低估了文本区域的显著性值。因此，有必要和重要的是开发一种新的用于电子商务图像的DNN，以解决文本先验问题。与此同时，缺乏电子商务图像数据集也阻碍了应用基于DNN的显著性预测模型。为此，我们提出了一种关于电子商务图像显著性预测的新方法。具体而言，我们建立了第一个电子商务图像眼动数据集，称为SalECI，记录了眼动实验中的注视点。我们进一步分析了所提出的数据集，得到了4个观察结果。根据这些观察结果，我们验证了显著性图的非局部性质。由于显著性明确指出了人们在看电子商务图像时的注意力，我们利用Transformers[40]的非局部和注意机制的优势，提出了一个融合显著性信息以改进学习到的自注意力图的显著Swin-Transformer（SSwin-Transformer）骨干网络。更重要的是，我们的观察结果还指出了显著区域和文本区域之间的一致且强烈的关系。因此，我们提出了通过两个可学习的头部同时预测显著性和检测文本区域，以及通过信息流使两个头部相互交互的方法。实验结果验证了我们方法的最先进性能。我们的主要贡献如下，0•我们建立了第一个SalECI数据集，使得基于数据驱动的架构能够预测电子商务图像的显著性；0•我们对SalECI数据集进行了全面和深入的分析，为电子商务图像上的专业和有洞察力的方法铺平了道路；0•我们提出了一种新颖的多任务学习框架，包括SSWin-Transformer、多个头部和信息流机制，在电子商务场景中实现了最先进的性能。02. 相关工作0显著性预测。传统的显著性预测方法旨在预测像素级的人类注意力，主要依赖于低级手工设计的特征，包括对比度[4]、颜色[14]、亮度[38]和纹理[44]。作为最早的工作之一，Itti等人[14]提出了一种用于图像显著性预测的自底向上方法，通过构建多尺度的颜色、强度和方向特征图。与Itti的方法[14]不同，Guo等人[8]将图像/视频转换为四元数傅里叶域，提取用于显著性预测的时空特征。最近，随着深度学习的快速发展，大规模的眼动数据集[13, 17, 42]和0提出了先进的DNN结构[5, 7, 16,26]，显著性预测的性能得到了显著提升。具体而言，Huang等人[13]进行了基于鼠标的实验，收集了图像上的点击作为注视点的表示，并建立了一个包含20k张图像的显著性数据集。另一方面，已经开发和验证了在显著性预测上有效的DNN架构，例如完全卷积网络[19]、生成对抗网络（GAN）[37]、卷积长短期记忆网络[17]、扩张卷积[18]、复数网络[16]、Transformer[33]等。然而，以上数据集和方法都没有处理电子商务图像的显著性预测问题，而电子商务图像在数字购物中起着重要作用。为此，本文提出了一种全新的数据集和方法，用于电子商务图像的显著性预测。文本检测。传统的文本检测方法主要基于连通组件分析（CCA）[12,36, 45]和滑动窗口[20,41]。例如，Neumann等人[36]首先提取候选组件，然后开发了支持向量机（SVM）来过滤掉非文本候选项。在[20]中，使用不同大小的窗口滑过图像，通过形态学运算对每个窗口进行分类。最近，基于DNN的文本检测器通过将文本检测与目标检测[23, 43, 46, 48]和实例分割[6, 9, 24,32]相关联而得到发展。具体而言，Liao等人[23]将称为SSD[28]的目标检测框架用于捕捉具有不同方向和形状的文本。类似地，Zhang等人[46]使用FPN[25]检测文本候选项，然后进行定位分支逐步细化边界框。此外，EAST[48]直接以端到端的方式检测单词的四边形，而不需要提议和锚点。除了基于检测的方法外，基于分割的方法旨在以像素级别检测文本区域。例如，PixelLink[6]直接从分割图中提取文本边界区域。此外，Long等人[32]根据FCN[31]的分割网络，通过预测几何属性和文本的中心线来检测文本实例。Liao等人[24]通过开发阈值图加速了传统的基于分割的流程。与上述方法不同，Baek等人[1]提出了一种字符级文本检测器，其中预测了字符之间的组件和链接。03. SalECI数据集0为了研究电子商务图片上的人类感知行为，我们建立了新的SalECI数据集，包括972张带有收集的注视点和标注文本边界的电子商务图片。所有图片均来自主流平台，包括淘宝、亚马逊和Wish。图2显示了SalECI中的13个类别及其对应的图片数量。总之，我们的SalECI数据集包括25个受试者的257,302个注视点，以及由3名志愿者标注的10,833个文本边界框。有关数据集建立的详细信息请参见补充材料。SalECI已在https://github.com/leafy-lee/E- commercial-dataset上发布。Observation 1: In e-commerce images, the visual atten-tion is easy to be attracted by the texts, in comparison withsemantic objects.Analysis: According to the previous works [17,42], thevisual attention is more likely to be attracted by semanticobjects. Here, given the ground-truth saliency maps andtext bounding boxes, we further evaluate the correlation be-tween visual attention and texts in SalECI. As for the com-parison, we also apply YOLOv5 [39] to detect the bound-ing boxes of the objects in SalECI. Some examples in ourSalECI are shown in Fig. 3-(a), with text and object regionsin blue and green, respectively. As shown in this figure, thetext regions are more consistent with the visual attention.To verify this, we calculate the fixation densities (per 1, 000piexels) of the text and object regions, by counting the num-ber of fixations falling into the text and object regions, re-spectively. Fig. 3-(b) shows the above fixation densities ofeach category and all images in SalECI. Note that the fixa-tion density of randomly extracted regions is also illustratedin the figure as a baseline. As shown in Fig. 3-(b), the fix-ation density of the text regions is considerably larger thanthat of object regions. For some categories, such as gar-dening, tops, bottoms, and tools, the text regions averagelydraw around 5 times as much attention as the object regions,implying that these categories are more sensitive to the text.The above results indicate that, for e-commerce images, thevisual attention is highly likely to be attracted by the texts.20900图2.我们SalECI数据集的主要类别和子类别。每个主类别中的图片数量也列出。0观察1：在电子商务图片中，与语义对象相比，视觉注意力更容易被文本吸引。分析：根据之前的研究[17,42]，视觉注意力更容易被语义对象吸引。在SalECI中，我们根据地面真值显著性图和文本边界框进一步评估了视觉注意力和文本之间的相关性。我们还使用YOLOv5[39]检测了SalECI中对象的边界框，以进行比较。图3-(a)显示了我们SalECI中的一些示例，其中文本区域和对象区域分别以蓝色和绿色表示。如图所示，文本区域与视觉注意力更一致。为了验证这一点，我们通过计算落入文本区域和对象区域的注视点数量，分别计算了文本区域和对象区域的注视密度（每1000个像素）。图3-(b)显示了SalECI中每个类别和所有图片的注视密度。注意，图中还以基准线的形式显示了随机提取区域的注视密度。如图3-(b)所示，文本区域的注视密度明显大于对象区域的注视密度。对于一些类别，如园艺、上装、下装和工具，文本区域平均吸引的注意力约为对象区域的5倍，这意味着这些类别对文本更敏感。以上结果表明，对于电子商务图片，视觉注意力很可能会被文本吸引。03.1. 数据分析0观察2：尽管电子商务图片中的文本可以显著吸引视觉注意力，但仍然存在显著的文本区域之外的注视点。分析：如第1个观察所介绍的，视觉注意力可以被文本大大吸引。然而，我们可能会问，这是否意味着我们可以直接使用文本检测方法来进行电子商务图片显著性预测？为此，我们进一步计算了文本区域之外的注视点数量，与图片中的所有注视点进行比较。图4-(a)显示了文本区域之外注视点的比例。在这个图中，每个点代表SalECI中的一张电子商务图片，横轴表示每张图片的文本区域。如图4-(a)所示，对于大多数图片，约40%至70%的注视点在文本区域之外。这意味着除了文本之外，视觉注意力还被多个区域吸引，这些区域具有自下而上或自上而下的显著性。类似地，在图4-(b)中，我们计算了没有任何注视点的文本区域的比例。不出所料，我们发现大量文本区域没有吸引任何视觉注意力。此外，如图4所示，SalECI的不同类别中也出现了类似的趋势。以上结果表明，电子商务图片的显著性预测是复杂的，不能简单地通过应用文本检测方法来解决。观察3：在电子商务图片中，视觉注意力在受试者之间是一致的，尤其是在文本区域内的注意力。分析：关于自然图片[13]和视频[17]，受试者之间的视觉注意力存在高度一致性。在SalECI中，我们通过计算单个受试者的注视图与其他受试者的线性相关系数（CC），也称为单对多CC，来衡量视觉一致性。表1列出了整个图像、文本区域和物体区域的CC值。同时，为了评估SalECI数据集中的位置偏差，我们还计算了2个随机选择的电子商务图片的注视图之间的CC。此外，根据[17]的报道，还列出了另外2个眼动数据集LEDOV [17]和Hollywood[34]的单对多CC结果作为基准。如图所示，我们可以得出结论，SalECI数据集中的视觉一致性与其他眼动数据集相似。此外，当仅考虑文本区域内的注视时，视觉一致性会提高。这再次表明，受试者在查看电子商务图片时倾向于关注文本。观察4：电子商务图片中的注视转移通常比中央凹区域大得多，表明视觉注意力倾向于被非局部内容吸引。分析：如图5-(a)所示，电子商务图片的显著区域往往相互分离。这意味着人类的视觉注意力可能更容易被吸引。20910(b) 图3. 观察1的分析。(a)SalECI中的图像与相应的真实显著性地图、文本区域(蓝色矩形)和物体区域(绿色矩形)。(b)文本、物体和随机区域的注视密度。表1.SalECI、LEDOV[17]和Hollywood[34]在一个对多CC方面的视觉一致性。0SalECI SalECI文本 SalECI物体位置偏差 LEDOV[17] Hollywood[34]0CC 0.356 0.482 0.410 0.152 0.403 0.3490图4.观察2的分析。(a)注视点在文本区域之外的比例。(b)没有任何注视点的文本区域的比例。0我们通过计算同一受试者的两个连续注视点之间的视觉角度来评估SalECI中的注视转移。由于我们的眼动实验固定了屏幕的大小和受试者与屏幕之间的距离，我们可以通过三角函数计算视觉角度，如图5-(b)所示。结果如图5-(c)所示，注视转移的视觉角度比例列出。0根据[35]，人类的视觉注意力仅集中在视觉角度小于2度的中央凹区域。然而，如图所示，26.2%、14.9%和10.2%的注视转移比中央凹区域大两倍、三倍和四倍。远距离的注视转移表明，在电子商务图像中，人类的注意力更容易被非局部内容吸引。这可能是因为电子商务图像专门设计为在整个图像中包含语义对象和文本，而不是在图像的一部分中。04. 提出的方法04.1. SSwin-Transformer骨干0根据观察4的分析，显著性信息，即人类的非局部注意力，与Transformer的注意机制密切相关，因此高度有潜力改进从Transformer学到的注意力骨干。在我们的工作中，SSwin-Transformer基于Swin-Transformer构建，后者在各种任务上实现了最先进的性能[30]。更重要的是，我们在每个SwinTransformer块中加入显著性信息来辅助塑造注意力图，如图6所示。具体而言，在每个阶段的最后一个基本层中，我们提出了一个使用显著性地图的注意力损失La，以监督骨干中学到的注意力。显著性地图Sl的大小为hl×wl，对应地被重新调整为与经过补丁合并操作处理的自注意力图的大小相同。然后，对于第l个基本层，注意力损失La按通道方式计算如下，0La = 10h =1 || cor(Sl) − cor(Al,h) || 2 2 (1)0其中Al,h表示来自移位Swin-Transformer块的第h个多头输出的自注意力图20920(a)0(b)0(c)0图5. 观察4的分析。(a)SalECI中的图像和相应的真实显著性地图。(b)计算两个连续注视点上的视觉角度的示意图。(c)以视觉角度为指标的注视转移统计。0图6.我们提出的框架示意图。该框架包括SSwin-Transformer骨干、显著性和文本检测头部，以及一个信息流结构，利用细粒度的输出(即显著性地图和文本掩码)作为反馈，进一步改进所提出的骨干和功能头部的学习。注意，SOR表示区域的得分，AFF表示亲和度得分。0在第l个基本层中。Hl是第l层的多头数。此外，cor(∙)表示通过以下方式计算的非局部相关性。0cor(X) = softmax � vec(X) ∙ vec(X)T �。0其中vec(X)将大小为hl×wl的矩阵X向量化为大小为(hl×wl)×1的向量，softmax(∙)表示softmax操作。所提出的注意力损失的基本思想是根据人类感知引导我们提出的SSwin-Transformer骨干网络学习非局部相关性，同时保持多头自注意力图所能提供的多样性。一方面，这鼓励所提出的SSwin-Transformer集中注意力于人们在观看电子商务图像时一直关注的非局部区域。另一方面，这也对网络施加了全局和统一的先验知识，这在多任务学习中非常重要。因此，骨干网络的输出特征通过全局线索增强了多任务学习，并使得后续的显著性和文本检测头部受益。04.2. 显著性和文本检测头部0我们采用了一个轻量但有效的显著性头部来预测给定SSWwin特征图的显著性图。0Transformer骨干网络。具体而言，首先将特征图馈送到3个密集块[11]中，为了在预测显著性图时提取多尺度信息，之后采用空洞空间金字塔池化（ASPP）[3]，然后使用3个反卷积块恢复显著性图。我们的显著性头部的损失通过Kullback-Leibler（KL）散度KL(∙||∙)计算，计算方式如下所示。0Ls = KL(Sp || Sgt)。0此外，我们的工作中采用了CRAFT[1]的基本结构进行文本检测，能够实现字符级别（而不是单词级别）的文本检测。具体而言，我们首先通过精确使用其官方实现中的相同网络结构和预训练模型生成了字符级别的注释。然后，我们进一步手动调整了电子商务图像中文本覆盖不完整或不准确的注释，然后获得了用于训练文本检测头部的真实标注。我们在图3-(a)中以红色矩形显示了真实的文本注释。在我们的文本检测头部中，由于头部的输入是来自我们的SSWin-Transformer骨干网络的特征图，我们使用反卷积模块并丢弃了...20930特征编码模块与[1]中相同。此外，为了增强不同分辨率下的信息聚合，我们的SSwin-Transformer骨干网络中的5个中间注意力图在多尺度分辨率上被馈送到反卷积模块中，如图6所示。因此，在提出的文本检测头部中，使用4个反卷积模块来输出最终的区域和亲和力得分，并通过均方误差（MSE）评估它们与真实得分的差异。然而，由于广告的固有特性，电子商务图像中的文本主要以简短和精确的形式存在（例如短语和标志），导致文本区域和亲和力得分图相对稀疏。因此，直接将均方误差作为文本头部损失可能会导致负预测的压倒性，即几乎在所有地方输出零值。为了解决这个样本不平衡的问题，我们开发了一种平衡的均方误差损失（BMSE）来缓解网络简单输出0的训练问题。具体而言，在计算MSE时，我们随机选择Npos个正样本和Nneg个负样本，并计算平衡的MSE如下所示。0BMSE(X, Y) =0�(i,j)∈P∪N ||X(i,j) − Y(i,j)||220Npos + Nneg，(4)0其中P和N表示正样本和负样本的索引。注意，X（i，j）表示矩阵X给定位置（i，j）。在平衡的MSE上，我们在训练中为文本检测头部采用以下损失Lt0Lt = BMSE(Tpr, Tgtr) + BMSE(Tpa, Tgta)，(5)0其中Tpr和Tgtr是区域（SORs）的预测和真实得分，而Tpa和Tgta表示预测和真实的亲和力得分（AFFs）。04.3. 信息流0正如观察结果1和2所示，在电子商务图像中，尽管没有完全吸引人的注视点，但文本区域始终吸引视觉注意力。因此，文本区域的检测有助于调整显著性预测的准确性。相反，准确的显著性预测也有助于精确检测文本区域，因为显著性信息几乎包括电子商务图像中的所有文本区域。因此，我们将从显著性头部输出的信息流向文本检测头部的输入，并将从文本检测头部输出的信息流向显著性头部的输入。这种交互式信息流能够改善显著性预测和文本检测的学习。具体而言，初始预测由显著性头部进行，以改进文本头部。现在，显著性头部的前向过程变为0Sp = SalHead � f(�Tpr + �Tpa02) ⊙ F�，(6)0其中SalHead(∙)表示显著性头部，�Tpr和�Tpa表示调整大小的预测区域和亲和力得分，使它们具有与特征图F相同的大小，⊙表示逐元素乘积。更重要的是，f(∙)是一个逐元素缩放函数，在我们的工作中设置为f(x) = ρ∙(x − 0.5) + 1，其中0 ≤x ≤1，ρ是一个缩放因子。通过这种方式，与输出为零的背景区域相比，具有正值的检测到的文本区域可以适当增加相应位置的重要性，从而通过这些额外信息进一步改善显著性预测。然后，文本头部的预测用于改进显著性头部，完成信息流的交互。给定调整大小的显著性输出�Sp，文本检测头部的处理过程如下0Tpr，Tpa = TextHead � f(�Sp) ⊙ F�，(7)0因此，在我们的SSWin-Transformer骨干网络之后，当转发（6）的显著性头部时，我们首先通过全为1的矩阵初始化文本头部输出，并获得粗略预测Sp，然后将其输入（7）以获得文本检测Tpr和Tpa。然后，通过再次转发（6）获得细粒度的显著性预测，根据获得的文本检测Tpr和Tpa。我们可能需要指出的是，尽管迭代此过程可能获得进一步增强的预测，但我们经验上发现增益很小，而计算复杂度较高。为了计算效率的便利，我们每个头部只流动一次信息。最后，我们的成本由以下公式给出0L = λaLa + λsLs + λtLt，(8)0其中λa，λs和λt用于调整损失的比例。05. 实验05.1. 实现细节0在我们的实验中，SalECI被随机分为训练集和测试集，分别包含871张和101张图像。为了稳定训练，SSwin-transformer中使用了批归一化、泄漏ReLU和GeLU[10]作为归一化和激活函数。输入和输出图像的分辨率设置为896×896，来自SSwin-transformer的嵌入特征的通道数为96。缩放因子ρ和损失权重{λa，λs，λt}设置为0.2和{1，1，3}。在训练过程中，基于随机梯度下降和Adam优化器对提出的方法进行优化。此外，初始学习率为5×10-7，并且在前20个时期进行了温和的余弦学习计划。整个训练过程在RTX 3090TiGPU上进行，耗时约1.5小时，共进行50个时期。05.2. 对SalECI数据集的评估0在本节中，我们评估了我们的方法在电子商务图像显著性预测上的性能，Figure 7. Qualitative results of our and 11 other compared methods over 8 randomly selected e-commerce images in SalECI. From theleft to right are: input images, the saliency maps of ground-truth, ours, BMS [47], SalGAN [37], SALICON [13], SAM-ResNet [5],SAM-VGG [5], DeepGaze I [26], DeepGaze IIE [26], UNISAL [7], MSI [18], EML-Net [15], and GazeGAN [2].BMS [47]0.411±0.1731.108±0.2910.768±0.0791.025±0.5070.395±0.0900.726±0.080SalGAN [37]0.552±0.1740.873±0.3110.826±0.0691.449±0.5740.496±0.1000.766±0.082SALICON [13]0.507±0.1490.967±0.2960.805±0.0731.334±0.5070.461±0.0910.767±0.077SAM-ResNet [5]0.535±0.1810.855±0.3360.832±0.0671.452±0.6320.500±0.1030.766±0.084SAM-VGG [5]0.551±0.1780.844±0.3420.833±0.0661.515±0.6400.512±0.1040.771±0.078DeepGaze I [26]0.407±0.1581.250±0.2250.760±0.0930.969±0.4040.326±0.0520.741±0.092DeepGaze IIE [26]0.561±0.1240.995±0.2150.842±0.0551.327±0.3180.399±0.0650.811± 0.058UNISAL [7]0.605±0.1480.768±0.2620.845± 0.0561.574±0.5220.514±0.0940.777±0.075MSI [18]0.603±0.1730.804±0.3100.834±0.0661.555±0.5540.514±0.1040.771±0.086EML-Net [15]0.597±0.1540.788±0.3280.841±0.0631.595±0.5610.534±0.1010.780±0.080GazeGAN [2]0.522±0.1940.987±0.4530.797±0.0901.321±0.5750.481±0.1170.706±0.1145.3. Ablation Study20940表2. 我们和其他11种方法在SalECI上显著性预测准确性的平均值和标准差。0方法 CC KL AUC NSS SIM sAUC0SSwin transformer(我们的方法) 0.687 ± 0.175 0.652 ± 0.478 0.868 ± 0.072 1.701 ± 0.497 0.606 ± 0.101 0.783 ± 0.0640与其他11种最先进的显著性预测方法进行比较，即BMS [ 47]，SalGAN [ 37 ]，SALICON [ 13 ]，SAM-ResNet [ 5 ]，SAM-VGG [5 ]，DeepGaze I [ 26 ]，DeepGaze IIE [ 26 ]，UNISAL [ 7 ]，MSI [18 ]，EML-Net [ 15 ]和GazeGAN [ 2]。请注意，除了BMS之外，所有比较的方法都是基于DNN的。具体来说，除了BMS（非基于学习的）和DeepGaze（没有发布的训练代码）之外，所有比较的方法都是在与我们类似的实验设置下进行微调的SalECI。然后，应用6个指标来衡量显著性预测的性能：CC，KL散度，接收器操作特性曲线下的面积（AUC），归一化扫描路径显著性（NSS），相似性（SIM），混洗AUC（sAUC）。请注意，CC，AUC，NSS，SIM或sAUC的值越大，KL的值越小，表示显著性预测越准确。如表2所示，我们的方法在所有指标上都显著优于其他比较方法。与第二好的方法UNISAL相比，我们的方法在CC，KL，AUC，NSS和SIM方面分别取得了0.082，0.116，0.023，0.127和0.072的改进。除了定量结果外，图7显示了我们的方法和其他11种方法在SalECI中随机选择的8个测试图像上的定性结果。从图中可以看出，我们的方法能够很好地定位显著区域，使预测的显著性地图与真实情况更接近。特别是从该图的前两行可以看出，与其他方法相比，我们的方法能够正确检测到吸引视觉注意力的文本区域。这验证了我们方法中多任务学习框架的有效性。0与第二好的方法UNISAL相比，我们的方法在CC，KL，AUC，NSS和SIM方面分别取得了0.082，0.116，0.023，0.127和0.072的改进。除了定量结果外，图7显示了我们的方法和其他11种方法在SalECI中随机选择的8个测试图像上的定性结果。从图中可以看出，我们的方法能够很好地定位显著区域，使预测的显著性地图与真实情况更接近。特别是从该图的前两行可以看出，与其他方法相比，我们的方法能够正确检测到吸引视觉注意力的文本区域。这验证了我们方法中多任务学习框架的有效性。0在这里，我们进一步进行消融实验，分析我们提出的每个组件对结果的贡献。(a) HM-16.0: 20.90dB(b) UNISAL [7]: 26.19dB20950(c) MSI [18]: 26.31 dB0(d) 我们的方法: 28.00 dB0图8. 原始HM-16.0和由UNISAL [7]、MSI [18]和我们的方法预测的显著性输入感知编解码器[21]的主观结果和EW-PSNR。0表3. 基于CC、KL、AUC和NSS的提出方法的消融研究。0模块 CC KL AUC NSS0A + B 0.629 0.847 0.833 1.537 A + B + C 0.670 0.7590.848 1.662 A + B + D 0.633 0.780 0.843 1.603 A + B +C + D 0.678 0.703 0.854 1.690 A + B + D + E 0.6610.677 0.863 1.709 A + B + C + D + E 0.687 0.652 0.8681.7010模块符号：A：SSwin-Transformer；B：显著性头；C：注意力损失；D：文本头；E：信息流0方法。每个消融模型在相同的实验设置下进行训练和测试。因此，每个消融模型的CC、KL、AUC和NSS值列在表3中。请注意，SSwin-trnasformer和显著性头的基本组件不能被消融，否则无法访问显著性图。从这个表中可以看出，对于不同的消融模型，多尺度注意力损失能够稳定地带来改进。例如，与仅具有SSwin-trnasformer和显著性头的模型相比，注意力损失能够进一步提高显著性预测的性能，分别提高了0.041的CC、0.088的KL、0.015的AUC和0.125的NSS。这表明Transformer中的非局部注意力可以从真实人类注意力的监督中受益。此外，通过添加文本头或开发的信息流也可以实现类似的改进。这再次验证了本工作的一个主要动机，即电子商务图像中显著区域和文本区域之间存在着很强的相关性。05.4. 在视频压缩中的应用0在本节中，我们进一步展示了在压缩电子商务图像时，对电子商务图像显著性预测的改进能够带来实际的收益。具体而言，我们按照[21]的工作对图像进行压缩，以实现最先进的高效视频编码(HEVC)标准的目标，旨在提高压缩图像的感知质量。0视频编码(HEVC)标准，旨在提高压缩图像的感知质量。我们在官方平台HM-16.0上实现了感知编解码器[21]，并通过眼动跟踪加权PSNR(EW-PSNR)评估了感知质量，该指标与主观质量有很强的相关性[22]。主观结果和EW-PSNR如图8所示，补充材料中还有更多结果。从该图中可以明显看出，对于电子商务图像，我们的方法能够更准确地预测显著性，实现最佳的主观质量，产品和品牌的细节清晰可见。06. 结论本文首次尝试对电子商务图像进行显著性预测。我们建立了第一个眼动跟踪的电子商务图像数据集SalECI，用于训练电子商务图像显著性预测的深度神经网络。基于新建的数据集，我们进行了深入的数据分析，得出了关于电子商务图像的4个重要观察结果。在这些观察结果的启发下，我们提出了一种新的多任务学习框架，用于电子商务图像显著性预测，该框架由开发的SSWin-Transformer、显著性头、文本头和信息流机制组成。实验结果表明，我们的方法在图像显著性预测方面显著优于现有的方法。0致谢本工作得到了国家自然科学基金委员会(NSFC)的支持，项目编号为61922009、61876013、62050175，北京市自然科学基金委员会的支持，项目编号为JQ20020，以及阿里巴巴创新研究的支持。0参考文献0[1] Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun,and Hwalsuk Lee. Character region awareness for text detection.In Proceedings of the IEEE/CVF Conference on Com-20960计算机视觉和模式识别 , 页9365–9374, 2019年. 2 , 5 , 60[2] Z. Che, A. Borji, G. Zhai, X. Min, G. Guo, and P. L. Callet.注视受图像变换的影响吗？数据集和模型. 2019年. 70[3] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam.使用孔洞可分离卷积的编码器-解码器进行语义图像分割. 在欧洲计算机视觉会议(ECCV)论文集中, 页801–818, 2018年. 50[4] Ming-Ming Cheng, Niloy J Mitra, Xiaolei Huang, Philip HSTorr, and Shi-Min Hu. 基于全局对比度的显著区域检测.IEEE模式分析与机器智能交易 , 37(3):569–582, 2015年. 20[5] Marcella Cornia, Lorenzo Baraldi, Giuseppe Serra, andRita Cucchiara. SAM: 推动显著性预测模型的极限. 在IEEE计算机视觉和模式识别会议研讨会论文集中, 页1890–1892,2018年. 2 , 70[6] Dan Deng, Haifeng Liu, Xuelong Li, and Deng Cai.基于实例分割的场景文本检测. 在 AAAI人工智能会议论文集中,卷32, 2018年. 20[7] Richard Droste, Jianbo Jiao, and J Ali

下载后可阅读完整内容，剩余1页未读，立即下载