从产品图像中提取尺寸属性的D-Extract方法

115 浏览量更新于2023-10-16 收藏 2.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3641≈≈D-Extract：从产品图像中提取尺寸属性Pushpendu GhoshAmazongpushpen@amazon.comNancyWang亚马逊wangzxi@amazon.com亚马逊promy@amazon.com摘要产品维度是使客户做出更好购买决策的关键信息。电子商务网站提取维度属性，使用户能够根据自己的需求对搜索结果进行过滤.现有的方法从文本数据如标题和产品描述中提取维度属性。然而，这种文本信息往往存在于一个模糊的，混乱的结构。相比之下，图像可用于提取可靠且一致的尺寸信息。基于这种动机，我们提出了两种新的结构来从产品图像中提取尺寸信息。第一种即单盒分类网络被设计为对图像中的每个文本标记进行分类，一次一个，而第二种架构即多盒分类网络使用Transformer网络同时对所有检测到的文本标记进行分类。为了获得更好的性能，所提出的架构还与来自产品类别的统计推断相融合，这进一步将单箱分类网络的F1分数提高了3。78%，多箱分类网络为0。9%。我们使用距离监督技术来创建用于预训练目的的大规模自动化数据集，并注意到当模型在微调之前在大数据上进行预训练时有相当大的改进。该模型达到了理想的精度为91。54%，89。75%的召回率，其他国家的最先进的方法，由1994年。76%在F1-得分1。1. 介绍电子商务网站中的产品详细信息页面由标题、产品描述、评论和产品图片等形式的信息组成这些网站不断创新和即兴可扩展的方法来使用卖方上传的详细信息和提取结构化信息，如品牌，颜色，尺寸等，以下称为产品属性。这些1数据：https://github.com/amazon-science/dimension-extraction-dataset图1：具有维度属性的产品图像示例。根据既定定义（第2节），桌子产品属性被用作搜索排名中的信号、用于精炼搜索结果的过滤器、产品的比较、寻找产品替代品等。质量低劣的产品属性，如缺失或不一致的值，可能会导致客户混淆，导致销售损失和这些网站的回报增加。特别是对于家居和家具产品，尺寸信息是客户最具决定性的属性之一单独通过每一个产品，找到一个产品，满足他们的要求变得非常繁琐和耗时。只有在目录中高覆盖率的准确维属性，才能实现基于维的此外，这些提取的维度可以在产品详细信息页面中突出显示，以增强信息可见性。从而，灌输保证，满意度和convinc- ing客户购买完美的大小的产品，为他们的空间。适当尺寸的产品的增加的可互换性以及充分知情的购买决策，从而导致增强的购物体验。提取维度属性的通常输入源是非结构化文本，其可靠性是有问题的，因为由销售者添加的这种文本信息受制于个性，因此通常不是标准化和确定的。例如，一些卖家遵循以下顺序：宽×深/长×高;而一些卖家-3642DD±12N将其设置为：长度×宽度/宽度×高度，这将创建所有产品类别。设Ip∈Ip，是图像混淆了什么是长度或宽度。如图1所示，另一方面，产品图像可以用于以标准化的方式提取更多可靠的信息。因此，为了使目录更加一致，完整和正确，我们提出了一个端到端的系统来提取产品图像的尺寸属性。里面有维度信息。当产品的功能面在前视图中时，我们将长度定义为前后测量值，将宽度定义为左右测量值，将高度定义为上下测量值，如图1所示。任务是提取维度属性，如所有乘积p ∈ P的长、宽和高|n（I p）n =0。1.1. 相关作品在过去的十年里，我们见证了无数的文学作品，ture[5][13]旨在使用经典机器学习从文本数据中提取属性。最近的研究，如OpenTag [19]应用Bidirectional-LSTM，然后是条件随机场;类似地，LaTeX-Numeric[10]通过使用BiLSTM-CNN-CRF模型[9]解决NER问题来从文本数据中提取数字属性。随着计算机视觉技术的进步，有一些典型的作品使用产品图像主要从基于时尚的产品中提取属性值。Baloian等人[2]使用kNN分类器在从预训练Resnet架构的中间层提取的特征上检测产品图像的颜色和纹理Adhikari等人[1]Parekhet al.[11]还分别使用Resnet-34和EfficientNet-B 0等图像分类器从产品图像中提取风格、场合和模式属性。基于类似的理由，Zhouet al. [20]使用产品图像部分的特征来改进推荐。这些作品突出了可以从产品图像中提取由于信息同时存在于图像和文本数据中，近年来出现了更多的多模态信息抽取方法Zhu等[21]通过将产品描述中的每个单词标记为属性值，但包含使用跨模态注意力的ResNet图像特征，从根本上解决NER问题。受视觉问答的启发， PAM[8] 是一个复杂的多模态Transformer架构，用于从产品文本和图像中提取它应用OCR（光学字符识别）从图像中提取提出了一种简单有效的基于图像的尺寸属性提取方法，该方法只利用图像和OCR结果;与PAM不同，PAM也使用非结构化文本，如标题。据我们所知，该模型是第一个从产品图像中提取尺寸属性，我们表现出非常高的精度和召回这样做。2. 问题定义电子商务网站中的产品p ∈ P通过一组多个图像Ip={I p，I p，.， I p}且属于积范畴c ∈ C，其中C是3. 方法在本文中，我们提出了一个端到端的系统来检测产品的尺寸属性从其图像。该系统包括一个过滤分类器，它通过过滤掉没有维度属性的图像来提高系统的效率; OCR引擎，用于从所述图像提取文本;解析器，用于解析来自OCR检测到的单词的测量值，以及最后的模型（边界框分类器），用于将OCR文本分类为维度属性。3.1. 过滤器分类器：无尺寸信息的图像过滤由于一个产品可能有多个图像，并非所有图像都有尺寸描述。因此，在所有图像上应用提取算法是非常低效和不必要的。为了降低OCR导致的成本，我们训练了一个MobileNetV 3-L架构，如果输入图像中包含维度信息，则预测二进制输出。它被输入了一个高分辨率的输入图像（600像素），这样它就不会丢失图像中的微小文本和细维度轴/线，这些都是对维度图像进行分类的非常重要的特征。图2：过滤器分类器过滤掉产品的无量纲图像。3.2. OCR引擎：从图像我们部署了一个OCR引擎来检测产品图像中的文本。 OCR引擎能够检测单词，图像在水平轴的90度给定一个带有文本的图像，OCR引擎返回检测到的单词及其边界框的坐标。其次，我们找到了彼此相邻且保持传递性的边界盒;通过计算边界框的并集并以适当的顺序连接单词来合并它们。比如我们3643∈×联系我们∈{N||D--N≈≈≡≡α将检测到“20”、“½”和“inch”的附近边界框的组合并到具有值“20 ½ inch”的一个边界框中。最后，为了简单起见，我们只考虑它们的质心坐标作为包围盒的位置坐标。3.3. 解析器：从文本标记中提取测量值我们对OCR标记进行后处理，对它们进行标记化，检测错误并通过用有效的词汇标记替换错误标记来纠正错误[7]。例如，将检测到的“50 inoh”校正为“50inch”。接下来，我们使用一个基于正则表达式的解析器来提取一个数值及其测量单位（），它对应于长度实体，如厘米，英寸等。OCR有时无法检测到与边界框中的文本相对应的文本，例如，对应于英寸的双引号字符（为了解决这种遗漏的情况，我们推导出最可能的概率-(a) 产品类别：床（b）产品类别：沙发图3：z<$α相对于测量值v的曲线图属性α长度、宽度、高度和每个产品类别cC.我们认为这三个n（C）分布作为元数据。接下来，对于每个边界框，给定产品类别c和检测到的测量值v，我们计算z<$α，α长度、宽度、高度使用公式1和公式2。在图像中检测到其他OCR标记，并将其分配给所讨论的边界框，前提是测量值不会变成离群值。中的边界框z（v，c）=ln（v）−µ（c，α）σ（c，α）（一）解析器没有检测到任何测量值的值被忽略。3.4. 边界框分类器：将边界框分类为长度、宽度、高度或无z<$α=e−|zα（v，c）|（二）如图3所示，值得注意的是，z<$α捕获了v被认为是α属性的可能性。如果v是一个离群值，（c，α），zα很高，因此z<$α（v，c）的大小很小，但是当v对于一个乘积p，其图像Ip具有维数接近N的峰值（c，α）. 例如，一项措施-信息，该模型到目前为止检测到k个边界框，bb1，bb2，.，BBK其中每个边界框bbi由边界框的像素坐标表示：（x min，x max，y min，y max），并且对应于测量值：以英寸为单位。在本节中，我们的目标是将每个边界框分类为Length、Width、Height或无（不属于任何LWH属性）。3.4.1产品类别维度属性高度依赖于它们所属的产品类别。例如，床垫的长度通常在70英寸至90英寸之间，而它们的高度通常从不超过10英寸。因此，产品类别以及在边界框内检测到的测量值对真实属性具有相当高的影响。为了整合这些产品类别信息，一种方法是为每个产品类别训练不同的模型，但这会导致模型激增。相反，我们设计了一种新的技术来将产品类别信息提供给我们的模型。首先，我们从目录中收集所有可能的长度、宽度和高度值（以英寸为单位），找到它们的对数值，并拟合一个正态分布，（c，α）与平均值μ（c，α）和标准差σ（c，α），对应于每个床产品类别中35英寸的分段值，结果为（z<$L，z<$W ， z<$H）（0 。 00039 ， 0 。 25984 ， 0 。86975），由于z′L相当小，该模型可以很容易地排除35英寸是床的长度的可能性，并增加更多的重量，它是一个高度的几率。类似地，如果从床产品类别中的图像检测到v = 10 英寸，则值（ z<$L ，z<$W ， z<$H）（0。 00000 ， 0。 00423 ， 0。07548），可以很容易地表明边界框与任何属性都不关联，因此可能会被分类为“无”。这些值有助于模型理解v是否代表类别的α属性的离群值。3.4.2单箱分类网络文本标记相对于图像的位置是决定与边界框相关联的属性的重要特征例如，高度信息通常存在于图像中的垂直线或箭头旁边。因此，我们打算使用坐标的质心随着图像作为分类的输入。给定一个边界盒bbi（xi，yi，vi），我们分别使用等式3、4和5来构造3通道输入。动机是帮助模型了解各种线路方向的重要性，3644≤ ≤ ≤≤| |×∈图4：单盒分类网络的架构。图像及其与边界框的接近度。这种特征生成技术使模型能够更多地关注边界框附近的图像特征。f1（x，y）= 0. 299× IR（x，y）+0.587×IG（x，y）+0。114×IB（x，y）（三）(a) 通道1（b）通道2（c）通道3（d）堆叠图5：使用原始的f2（x，y）=|x−xi|（四）f3（x，y）=|y−yi|（五）其中x和y分别对应于由图像的宽度和高度归一化的水平和垂直像素坐标，使得0x1和0y1.一、 f1（x，y）定义RGB图像在像素（x，y）处的灰度转换，而f2（x，y）和f3（x，y）对像素（x，y）与边界框的水平和垂直距离进行编码。在这个用例中，图像的颜色此外，这种特定的输入创建选择创建3通道输入，从而使我们能够使用图像生成权重来初始化我们的模型，以加快模型收敛。架构：输入图像被编码为如上所述的3通道特征，然后通过图像分类器（EfficientNet-B3），其输出大小为（ed，1）的嵌入e。我们使用3.4.1中定义的大小为（1，4）的z<$=[z<$L，z<$W，z<$H ，1]来计算e和z<$的乘积，即， ez<$= （ z<$Le ， z<$We ，z<$He，e）. 生成的大小为（e d，4）的向量被展平，然后是一个dropout层和一个带有α +1个节点的稠密层，每个节点对应于属性（长度，宽度，高度）和None类别。假设是，当测量值v与z′αe高度相关时，RGB图像和边界框的坐标。堆叠图像中的红色突出显示查询边界框附近的像素乘积的α属性。ez的最后一列是e，它就像是图像嵌入的快捷连接。这使得模型对离群产品具有鲁棒性，如儿童椅（比普通椅子小）或双层床（比普通床高），即使ez<$的前三列近似为零，模型也可以使用图像嵌入e直接预测属性。3.4.3多箱分类网络体系结构：作者：Dosovitskiy et al. [4]，输入图像IRH×W×C被分割成大小为P P像素的补丁序列，导致N=HW/P2补丁数量使用可训练的线性投影将这些贴片平坦化并映射到D从图像块的位置导出的位置嵌入被添加到块嵌入以保留位置信息。我们使用Dosovitskiy等人所做的标准可学习的1D位置嵌入。[4]的文件。同时，在由bbi=（xi，yi）表示的图像中检测到的每个边界框通过将3645≈≈≈≈≈≈∈≈≈≈∀ ∈图6：多盒分类网络xi和yi的嵌入，每个嵌入具有维度D/2。随后，将N个贴片嵌入以及 k 个边界框嵌入传递到多层双向Transformer网络。边界框的输出嵌入随后与z<$i相乘，其中z<$i是v i被视为3.4.1中讨论的属性之一的统计似然性。结果向量后面是一个dropout层，最后与一个稠密层连接，|α|+1个节点。培训前任务：为了改进Transformer学习过程，我们遵循两个预训练任务。1. 图像分类任务：训练Transformer网络对输入图像进行分类并预测其所属的产品类别。如图6所示，额外可学习占位符的嵌入这增加了模型使用图像进行产品分类的知识，并帮助它概括多个产品类别的任何任务。2. 文本检测任务：为了更好地融合图像块与边界框位置坐标，我们将随机坐标（其中图像中不存在文本）传递给随机选择（p=0）。5）边界框占位符，其余的具有OCR引擎检测到文本的正确位置坐标。最后，将边界框的输出嵌入传递到具有S形激活层的另一个MLP网络，并使用二进制交叉熵损失进行训练，以分类对应输入坐标处的图像片段是否具有文本。4. 实验和结果4.1. 数据集我们创建了两个数据集，一个用于训练图像过滤分类器，另一个用于训练边界框分类器，我们考虑了68个类别的产品。为了避免不正确和遗漏的注释，从目录中删除了异常值，我们只考虑填充了所有尺寸属性的产品。1. 为了训练过滤器分类器，我们考虑了60万件产品，4.第一章5M图像，并应用OCR和解析器来检测图像内具有尺寸信息的文本amazon.co.uk四个人中。5M图像，仅从标记为1的280k图像中检测测量值。假设剩下的图像没有维度信息，我们对300k个图像进行采样，并将它们标记为0。2. BBC训练：为了获得用于预训练边界框分类器的大规模自动训练数据，以及来自ama-www.example.com的600k产品zon.co.uk，我们还考虑了5。1M产品从各种其他市场，其中有40M图像。接下来，我们使用FC训练训练的过滤器分类器过滤掉没有尺寸描述的图像，最终得到2。400万张图片。我们将OCR应用于每个图像I I D以接收iv ek边界boxesbbi，I，并使用解析器i 1，2. K. 接下来，我们使用等式6确定相对误差δ α，i，I，其中v α是真实测量值-3646≤≈≈产品的α属性在目录中的项值效率（14x）。由现有技术图像分类器支持的滤波器分类器在82处工作。21%的精确度和98. 在Dataset-1的测试集中，召回率为06%。为了了解影响δα，i，I 为|vi，I−vα|vα（六）本文通过对过滤分类器的设置对整个系统如表1所示，跳过文件-如果minα∈L，W，Hδα，i，I 10−3，我们将bbi，I标记为argminδα，i，I，α∈L，W，Hter分类器提高了召回率，但也降低了预精确度，作为从非纯的不否则，我们将bbi，I标记为None。最后，通过一些后处理和基本的离群值去除，我们使用RISK 4创建了一个数据集。4M个边界框对应于图1。3M图像。3. BBC GDS：为了用高质量的数据来微调和评估模型，我们为每种产品类型手动注释了200张尺寸图像，并将150张用于训练（BBC GDS TRAIN），50张用于测试（BBC GDS TEST）。该数据集已在线发布2。4.2. 培训和实施详情单盒分类网络：理想情况下，单盒分类网络可以使用任何图像分类器构建。在我们的实验中，我们选择了EfficientNet-B3，因为它的高性能和效率[17]。此外，我们测试了各种最先进的图像分类器，并实证发现EfficientNet-B3在计算和性能方面都是最佳的整个架构使用Adam优化器进行训练，步长衰减学习率从10−3到10−5不等。多框分类网络：如子章节3.4.3中所讨论的，多框分类器网络需要多层双向Transformer网络来共享图像特征和边界框位置特征之间的信息. 多盒分类网络的Transformer编码器网络有12层，输入图像块大小为16，隐藏大小为768，有12个自注意头。该网络使用Adam和权重衰减优化器（AdamW）进行训练，步长衰减学习率从10−3到10−5不等，β1=0。9和β2= 0。9994.3. 模型性能4.3.1过滤器分类器该模型对优化萃取过程具有重要作用。高质量的OCR引擎每幅图像消耗100ms，并产生大量的计算成本。此外，由于大多数图像（97%）不具有任何尺寸属性，因此将提取过程应用于产品的所有图像是无效的并且不可扩展。为了解决这个缺点，过滤器分类器来帮助我们，它处理一个图像只需1.44毫秒（在1TeslaV100上），使处理过程高度2https://github.com/amazon-science/dimension-extraction-dataset网站图7显示的图像尺寸增加。设置精度召回F1得分已跳过筛选分类器0.91030.90100.9056应用过滤分类器0.91540.89750.9064表1：不应用过滤器分类器的效果，即，使用每一个图像进行属性提取。(a) 产品图片（b）图7：一个示例维度图像，带有维度文本，但没有可视映射或维度跨度。这些类型的图像构成了过滤器分类器的假阴性的大部分4.3.2与基准模型/系统的为了检查所提出的模型的有效性和通过融合统计推断所做的改进，我们比较了两种类型的边界框分类器与S.I（建议的架构）和没有S.I，以及各种其他最先进的方法。1. 我们尝试了基于CV的算法方法，包括，使用Hough变换检测线，计算最接近包含尺寸值的边界框的线的角度，最后使用一组硬编码的规则，逻辑和检查每个产品类型，我们完成了提取。2. LayoutLM[18]是使用OCR检测到的文本和布局信息从扫描文档中提取信息的最新模型3647BLoRRA VQA[14][15]，使用BDeepLab V3+[3]，使用B训练0.9262 0.8006 0.8588 20.8 12MYOLOv3[12]，使用B训练0.8974 0.8045 0.8484 156.4 62 MYOLOv5[6]，使用B训练0.8792 0.7971 0.8361 49.1 21M无S.I.的单箱分类网络1.8 12个月无S.I.的多箱分类网络。表2：建议的架构与基准模型的比较。注1：使用训练意味着模型首先使用BBC GDS TRAIN进行预训练，然后使用BBC GDS TRAIN进行微调3. Pythia v0.3 + LoRRA[14][15]是一个VQA模型，它使用图像特征和OCR令牌来回答自然语言问题。为了解决我们的用例，我们针对每个属性提出三个问题，并限制模型严格基于OCR令牌生成答案。使用我们的数据集对预训练的LoRRA（在TextVQA上）进行了微调。4. YOLOv3[12]和YOLOv5[6]用于检测具有尺寸值的文本周围的边界框，并将其分类为属性。最后，使用YOLO边界框和OCR边界框之间的IOU，我们用相交的OCR边界框内的测量值标记由YOLO预测的属性5. DeepLabV3+[3]是一个语义分割模型，用于将图像中的每个像素分类为属性之一。稍后，我们计算OCR边界框内每个像素的预测值softmax的平均值，并使用它来预测与框相关联的属性三维图像在目录是相当复杂和多样的。因此，算法方法产生中等精度，但滞后于实现高召回。这清楚地表明，属性分类任务需要一种深入的方法来分析和探索深度学习方法。为了将边界框分类为属性，其附近的图像特征非常有影响力，尽管LayoutLM考虑了边界框的坐标，但它缺乏框的邻域视觉特征的上下文因此，我们推断，LayoutLM可能是一个理想的模型，文本繁重的输入，但它不能执行的使用情况下，图像特征是至关重要的。LoRRA VQA旨在回答自然语言问题，并且通常对问题的提问方式具有鲁棒性，但它在维度提取方面未能优于所提出的YoloV 3、YoloV 5和DeepLabV 3+，虽然效率很高，因为它只处理一次图像;但它将简单的分类任务转换为同时进行文本定位和分类的更复杂的问题，因此导致更少的重新调用。另一方面，这两个建议的架构，利用OCR模型精度召回F1得分GFLOPS参数基于CV的算法0.80920.30880.4470--LayoutLM[18]，使用B0.56240.89070.33030.82190.41620.854919.288.1113M-仅使用BBC GDS TRAIN进行培训0.87160.82300.8466使用B0.8925进行培训0.84590.8686S.I.单箱分类网络仅使用BBC GDS TRAIN进行培训0.90610.83020.86651.812M使用B0.91540.89750.906417.686M仅使用BBC GDS TRAIN0.8211进行培训0.75680.7876使用B0.8468训练0.80110.8233使用B训练，图像分类预训练后0.84170.82550.8335使用B训练，文本检测预训练后0.87680.84360.8599在两个预训练任务之后，使用B进行训练0.87660.85070.8635基于S.I.的多箱分类网络。仅使用BBC GDS TRAIN进行培训0.80760.77410.775817.686M使用B0.8708进行培训0.79270.8299使用B训练，图像分类预训练后0.85410.83200.8429使用B训练，文本检测预训练后0.90100.84190.8704在两个预训练任务之后，使用B进行训练0.89370.85160.87213648≈D≈≈(a) 输入图像（b）SmoothGrad：长度（c）SmoothGrad：宽度（d）SmoothGrad：高度（e）模型推断图8：图像分类器的梯度和推断的可视化。列a显示了几个具有尺寸信息的示例性产品图像;列b，c，d分别针对三个检测到的属性使用SmoothGrad [16]绘制了输入图像的显着性图;列e揭示了D-提取的推论。表2显示了统计推断与架构的融合增强了模型的性能，特别是对于我们观察到的单箱分类网络。F1评分改善78%。所提出的单箱分类网络与统计推断具有最高的F1得分为0.9064，因此是迄今为止证明的从图像中提取尺寸而在效率方面，多盒分类网络被认为适合于包含多维相关文本的图像与Yolo和DeepLabV3+等只处理一次图像的所有基准模型相比，它具有最高的F1分数5. 讨论具有S.I.的单分类器模型下文中称为- 提取物，达到95。对于Height属性，在85%的召回率下有65%的准确率，而对于91. 01%，91。长度和宽度属性分别为53%的精确度和85%的召回率。长度和宽度的混淆仍然存在，但它在长度和宽度属性上的精度超过90%30%的错误率文本提取方法。进一步分析错误，我们发现在具有模糊的正面和侧面视图定义的产品类型（如保险箱、存储盒等）中，长度和宽度属性的F1分数较低。使得这些属性难以区分，即使是人类。此外，它被发现，尺寸误差互换的长度和宽度为这些类型的产品导致较少的客户返回，因为它们可以被放置在任何方向。深入研究图像分类器SmoothGrad [16]. 显着性图是一个热图，其中白色区域对应于对模型最终决策具有较高影响的区域。图8表明，图像分类器熟练地学习实际产品的重要边界边缘，检测对应于每个属性的细尺寸线，并使用它们进行合理的推断此外，值得注意的是，图像分类器理解实际产品的各种取向，并且还考虑单个图像可能具有产品的多个视图的可能性（图8的第一示例）。图8中的第二个例子（桌子）是一个看似困难的任务，在图像内部有22个维度值，但模型能够检测到最相关的维度线并准确地标记它们。6. 结论和未来工作简而言之，我们提出了一种高度准确但有效的端到端管道，使电子商务网站能够使用OCR引擎、基于正则表达式的解析器和图像分类器以及产品类别特定维度先验从产品图像中提取我们的实验结果表明，该模型的F1值分别为0.8889，0.8958和0.9344的长度，宽度和高度属性，并优于其他国家的最先进的架构4。76%的F1得分。未来的目标是将模型扩展到更多的产品类别，属性类型，如座椅高度，直径等。并包括具有复杂布局（如表格和图表）的视觉推理。3649引用[1] Sandeep Singh Adhikari 、 Sukhneer Singh 、 AnoopRajagopal和Aruna Rajan。渐进式时尚属性提取。arXiv预印本arXiv：1907.00157，2019。[2] Andres Baloian ， Nils Murrugarra-Llerena 和 Jose MSaavedra。通过残差卷积网络的隐藏层可伸缩的视觉属性提取。arXiv预印本arXiv：2104.00161，2021。[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[4] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[5] Rayid Ghani ， Katharina Probst ， Yan Liu ， MarkoKrema，and Andrew Fano.文本挖掘用于产品属性提取。ACM SIGKDD Explorations Newsletter，8（1）：41[6] GlennJocher ， AlexStoken ， JirkaBorhenc ，NanoCode012 ， ChristopherSTAN ， Liu Changyu ，Laughing，tkianai，Adam Hogan，lorenzomammana，yxNONG ， AlexWang1900 ， Lau- rentiu Diaconu ，Marc ， wanghaoyang0106 ， ml5ah ， Doug ， FranciscoIngham，Frederik，Guilhen，Hatoya，Jake Poznan-ski，Jiacong Fang，Lijun Yu，changyu98，Mingyu Wang，Na- man Gupta ， Osama Akhtar ， PetrDvoracek ， andPrashant Rai.超催化剂/yolov 5：v3.1 -错误修复和性能改进，10月2020年。[7] 伊多·基索斯和纳丘姆·德肖维茨使用字符校正和基于特征的词分类的Ocr错误校正。2016年第12届IAPR文件分析系统研讨会（DAS），第198-203页。IEEE，2016.[8] Rongmei Lin，Xiang He，Jie Feng，Nasser Zalmout，Yan Liang ， Li Xiong ， and Xin Luna Dong. Pam ：Understanding product images in cross product categoryattribute extraction.arXiv 预印本 arXiv ： 2106.04630 ，2021。[9] 马雪哲和爱德华·霍维。通过双向lstm-cnns-crf实现端到端序列标记。arXiv预印本arXiv：1603.01354，2016。[10] Kartik Mehta，Ioana Oprea，和Nikhil Rasiwasia.乳胶数字：电子商务数字属性的与数据无关的文本属性提取。arXiv预印本arXiv：2104.09576，2021。[11] Viral Parekh ， Karimulla Shaik ， Soma Biswas ， andMuthusamy Chelliah.从时装中提取精细的视觉属性。在IEEE/CVF计算机视觉和模式识别会议论文集，第3973-3977页[12] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3：一个渐进的改进。arXiv预印本arXiv：1804.02767，2018。[13] 新里敬二关根聪产品描述中属性及其值的无监督提取。第六届自然语言处理国际联合会议论文集，第1339-1347页，2013年[14] Amanpreet Singh ，Vivek Natarajan ，Yu Jiang ，XinleiChen，Meet Shah，Marcus Rohrbach，Dhruv Batra，andDevi Parikh.视觉语言研究平台。在SysML研讨会，NeurIPS，2018年，2018年。[15] Amanpreet Singh ， Vivek Natarajan ， Meet Shah ， YuJiang ， Xinlei Chen ， Dhruv Batra ， Devi Parikh ， andMarcus Rohrbach.面向可以阅读的vqa模型。在IEEE计算机视觉和模式识别会议上，2019年。[16] Danie lSmilkov，NikhilThorat，BeenKim，FernandaVie´gas，and Martin Wattenberg.Smoothgrad：通过添加噪波来去除噪波。arXiv预印本arXiv：1706.03825，2017。[17] Mingxing Tan and Quoc Le.效率网：重新思考卷积神经网络的模型缩放。国际机器学习，第6105PMLR，2019年。[18] Yiheng Xu，Minghao Li，Lei Cui，Shaohan Huang，Furu Wei，and Ming Zhou.Layoutlm：用于文档图像理解的文本和布局的预训练。第26届ACM SIGKDD知识发现数据挖掘国际会议集，第1192-1200页，2020年[19] Guineng Zheng ， Subhabrata Mukherjee ， Xin LunaDong，and Feifei Li.Opentag：开放从产品配置文件中提取属性值第24届ACM SIGKDD知识发现数据挖掘国际会议论文集，第1049-1058页，2018年[20] Wei Zhou ， PY Mok ， Yanghong Zhou ， YangpingZhou，Jialie Shen，Qiang Qu，and KP Chau.通过跨媒体信息检索的时尚广告。视觉传达和图像表示杂志，61：112[21] 朱天罡，王跃，李浩然，吴友正，何晓东，周博文电子商务产品多模态联合属性 arXiv 预印本 arXiv ：2009.07162，2020。

下载后可阅读完整内容，剩余1页未读，立即下载