没有合适的资源?快使用搜索试试~ 我知道了~
1Fast-AT:使用深度神经网络赛义德A.Esmaeili Bharat Singh马里兰大学戴维斯分校{sesmaeil@umd.edu,bharat@cs.umd.edu,lsd@umiacs.umd.edu}摘要Fast-AT是一个基于深度神经网络的缩略图自动生成系统。它是一个完全卷积的深度神经网络,可以为不同大小和长宽比的缩略图学习特定的过滤器在推理过程中,根据目标缩略图的尺寸选择适当的过滤器。与大多数以前的工作,快速AT不利用显着性,但直接解决此外,它消除了对显著图进行区域搜索的需要。该模型可以推广到不同大小的缩略图,包括具有极端宽高比的缩略图,并且可以实时生成缩略图。收集了超过70,000个缩略图注释的数据集来训练Fast-AT。与现有技术相比,我们显示出有竞争力的结果。1. 介绍缩略图用于方便图像集合的浏览,经济地利用显示空间,并减少传输时间。缩略图图像是原始图像的较小版本,旨在有效地描绘原始图像(图1)。诸如Facebook、Twitter、Pinterest等社交媒体网站具有来自多个用户账户的内容,这些内容需要在固定分辨率的显示器上显示Facebook上的一个普通网页因此,确保每个缩略图显示原始图像中存在的最有用的信息非常重要。由于显示在网页上的图像在大小和纵横比上变化很大,因此任何缩略图生成算法都必须能够在一定范围的尺度和纵横比上生成缩略图。用于创建缩略图的标准操作是裁剪和缩放。由于缩略图是普遍存在的,并且缩略图的手动生成是耗时的,因此对缩略图的自动生成进行了大量的研究。大多数方法[20,3,2]利用显着图来识别图像中可以作为创建缩略图的良好作物的这导致图1. 缩略图问题的插图。原始图像显示在左侧,不同宽高比的缩略图显示在右侧。两步解决方案,其中首先计算显著性,然后求解优化问题以找到最佳裁剪。而最近的一种方法直接解决了这个问题此外,该实现需要60秒来产生单个缩略图。我们提出了Fast-AT,这是一种基于深度学习的缩略图生成方法,可以在端到端学习框架中直接解决这个问题我们的工作包括以下贡献:Fast-AT基于对象检测框架,该框架考虑目标缩略图的尺寸以生成裁剪。由于它使用前馈网络生成缩略图,因此它可以在GPU上每秒处理9张图像。通过矢量量化的宽高比,Fast-AT在训练过程中学习不同在推断期间,根据目标缩略图的尺寸选择适当的过滤器。通过Amazon Mechanical Turk在28,064张图像上创建了70,048个缩略图注释。注释的缩略图数据集将与本文一起发布。2. 相关工作由于缩略图创建涉及到减小图像大小,因此重新定位方法[17],如接缝雕刻和4622···4623×××可以使用非均匀翘曲。然而,由于大多数缩略图明显小于原始图像,因此这些方法产生经常明显的伪影因此,大多数缩略图生成方法使用裁剪和缩放的组合。通常,自动缩略图生成器利用显着图作为要裁剪的图像中重要区域的指示符[20,3,21,2]。然后执行区域搜索以找到具有高于特定阈值的总显著性的图像的最小区域区域搜索的蛮力方法在计算上是昂贵的,因此已经研究了近似方法,例如贪婪搜索[20],将搜索空间限制为一组固定大小的矩形[19],以及显着图的二进制化[3]。最近,已经报道了一种在线性时间内进行区域搜索的算法[2]。然而,显著性可以忽略场景的语义许多方法通过一种简化的方法来解决这个缺点,例如选择包含所有检测到的面部的裁剪[20]或使用取决于显着性和图像类别的算法Sun等人。[21]通过考虑缩略图比例并保持对象完整性来改进显着图通过使用对比敏感度函数[14]和客观性度量[1]计算尺度和对象感知显著性图;然后进行贪婪搜索以找到最佳区域,类似于[20]。然而,该方法不对所选区域施加宽高比限制,并且最终缩略图图像可以包含看起来明显变形的对象此外,尽管[2]介绍了一种产生具有受限纵横比的区域的算法,但它提到该问题对于给定的整体显著性阈值可能是不可行的其他一些方法试图裁剪图像中最具美感的部分[23,15]。Huang等人是第一个直接解决这个问题的人[9]。收集了图像及其手动生成的缩略图的数据集。然而,只有一个拇指指甲大小的160 120被认为是。该解决方案还涉及对大量候选作物进行评分,然后选择得分最高的作物。执行- 尽管未优化的CPU代码-需要60秒来生成单个图像的缩略图。此外,解决方案[9]基于手工制作的特征和SVM,与最近的基于深度学习的方法相比,它们的性能通常较差。深度卷积神经网络在高级视觉任务上取得了令人印象深刻的结果,例如图像分类[11,18,8],对象检测[7,16,4]和语义分割[12]。这些架构不仅带来了更好的结果,而且还带来了可以实时部署的系统[16]。我们提出了一个基于完全卷积深度神经网络的解决方案,学习端到端。我们考虑到不同的拇指指甲大小从32 32到200 200像素。在测试时,该网络可以以每幅图像105毫秒的速度生成缩略图,并在现有基线上显示出显着的改进3. 数据收集我们开始使用Amazon Mechanical Turk(AMT)对[13]的照片质量数据集的图像进行注释该集合包括高质量和低质量的图像,并跨越了许多类别,如人类,动物和景观。目标缩略图大小分为三组-缩略图在32到64,64到128和100到200之间,高度和宽度都是如此。这导致纵横比范围从0.5到2。每个图像注释三次,每组具有不同的目标缩略图尺寸。注释是通过一个界面完成的,该界面在原始图像上绘制一个边界框,其长宽比等于缩略图的长宽比;用户只能放大或缩小框并改变其位置。此边界框表示选定的裁剪。它被缩小到缩略图大小,并同时显示给用户。将边界框(裁剪)限制为具有与缩略图的纵横比相等的为了使界面更实用,图像被缩小,使得高度不超过650,宽度不超过800。机械土耳其工人被展示了好的和坏的缩略图的例子。这些示例旨在说明,好的缩略图可以捕获大量内容,同时易于识别。在数据集被收集之后,缩略图图像被手动扫过并且不良注释被排除;这导致在28,064个图像上总共有70,048个注释,每个图像最多有3个注释。4. 目标缩略图大小重要吗自动缩略图生成系统接收两个输入:图像和目标缩略图。因此,我们研究目标缩略图和生成的作物之间的依赖性。很明显,生成的裁剪应该具有与目标缩略图的纵横比相等的纵横比。选择不同宽高比的裁剪可能会在将裁剪缩小到缩略图大小时导致明显的变形,如图2所示。值得注意的是,尽管选择与缩略图不同的纵横比的裁剪时可能会导致变形,但在某些工作中已被忽略[20,21]。直观地,预期较小的输入缩略图尺寸通常将需要较小的裁剪。较大的作物在按比例缩小后将不太容易辨认。为了研究这一点,我们比较了anno的平均面积,4624××图2. 上面的缩略图是使用[21]中的代码生成的,该代码与缩略图长宽比无关。对象在缩略图中看起来明显变形,其中纵横比的变化很明显。在注释的数据集中,指定的裁剪与缩略图大小。然而,我们没有观察到两者之间的任何相关性,如图3所示。因此,我们得出结论,为了产生最佳裁剪,不需要考虑缩略图大小,但纵横比对该数据集很重要。在我们的实验中,我们仍然考虑一个同时考虑纵横比和缩略图大小的模型。5. 方法缩略图是通过在图像中选择要裁剪的区域(边界框),然后将边界框缩小到缩略图大小来创建的。我们提出了一个解决这个问题的方案,采用深度卷积神经网络,学习最佳边界框来生成缩略图。由于我们将问题表述为边界框预测问题,因此它与对象检测密切相关。然而,与对象检测不同,最终预测将不包括具有跨不同类别的离散概率分布的边界框,而是涉及两个类别:一个代表图像,另一个不是。早期用于对象检测的深度学习方法使用了像[22]这样耗时的建议方法。使用区域建议网络(RPN)[16]可以学习生成pro-bands,从而大大减少了计算时间。最近提出的R-FCN [4]通过引入由类别特定的位置敏感滤波器组成的新卷积层,减少了通过两个完全连接的层向前传播池化建议特征的计算开销。具体来说,如果有C类检测,那么这个新的卷积层将生成k2(C+1)的特征图。k2个位置敏感的得分图对应于k k个均匀划分的单元格。那些k2特征图与图3. 上图显示了给定缩略图大小的平均裁剪区域。裁剪面积按最大值标准化。对于较小的缩略图尺寸,平均裁剪区域通常不会更小,并且不会显著变化。空间网格中的不同相对位置,例如(左上,...,(左下角)每个班级。 k=3,对应于a每类3个空间网格和9个位置敏感滤波器。每一个类(包括背景),将有k2fea-真实的地图与之相关而不是通过两个完全连接的层向前传播,位置敏感池,然后得分平均执行。这将生成一个(C+1)-d向量,在该向量上应用softmax函数以获得跨类别的响应。缩略图生成的架构应该是完全卷积的,因为包括完全连接的层需要固定的输入大小。如果图像的宽高比与固定输入尺寸之间存在不匹配,则除了缩放之外,还必须对图像进行裁剪。因为缩略图裁剪(边界框)可能触及图像的边界或者甚至延伸到整个图像,所以裁剪图像的区域的预处理步骤可能导致次优预测,因为图像的一部分已经被移除。因此,与用于ImageNet本地化挑战[5]的[18]类似的架构(简单地用4-D边界预测替换类分数)不能使用,因为最后是完全连接的层。另一个观察是,与对象检测不同,缩略图生成网络接收两个输入:图像和缩略图宽高比。RPN和R-FCN都引入了特定于任务的过滤器。在RPN的情况下,通过修改训练策略来实现专门预测特定规模的建议的过滤器组。在R-FCN的情况下,位置敏感过滤器通过位置敏感池机制进行专门化。以类似的方式,纳,我们修改R-FCN的缩略图创建通过引入一组纵横比特定的滤波器组。在[0. 5,2],其表示以恒定面增长的纵横比4625≥tor(一个几何序列),即它的形式S=1 121A1011(A+1){2 c,2 c,. . . ,2 c}。注意2c=2和2c=2,从而得到c=A+Δ14。最后一个卷积中的滤波器组将R-FCN中的两个基本层修改为A对,每对具有总共k2个滤波器。每一对都与集合S中的单个元素相关联。与R-FCN类似,在该对上执行位置敏感池化,然后进行平均,并且这两个值用于产生代表性的softmax预测。在训练时,当接收到图像缩略图大小对时,图像通过卷积层向前传播计算缩略图的长宽比,并从S中选择具有最大值的元素,S是与训练中的元素因子相关联的对,而其他元素因子则被忽略。对于这一对,接收提案,并且类似于对象检测,基于提案与地面事实的交集(IoU)将正标签和负标签分配给提案。具体而言,如果IoU0的情况。5、消极的,否则。 A方面训练比率特定回归器,每个元素一个,这些类似于类特定的回归。对于给定的建议,我们使用以下损失:ΣA图4. Fast-AT架构和训练策略的图示。基于缩略图宽高比来决定适当的过滤器框和预测框不显著,如图5(b)所示。我们的Fast-AT实现基于Resnet-101 [8],学习率为0.001,动量为0.9,权重为100。L(s,t)=∗ ∗l L(s,s)+λ[s=1<$l]L使用近似联合训练的0.0005的最小值[16]。我我我i=1CLS我i reg(ti,t)5.1. R FCN单独工作吗?,其中li是ignore=0或factor-in=1,即如果i = argmin,则为1|1 ci− thumbnail aspectratio|我们考虑的基线之一是R-FCN-没有任何修改。实际上,它正在执行对象检测Ii=I20否则两个班级之间。我们发现,R-FCN单独生成边界框,具有良好的表示的原始,si是由第i对预测的代表性得分,scls是地面实况标签,并且Lcls是交叉熵损失。λ是回归损失的权重,我们设置为1。除了最接近的纵横比之外,所有的回归损失都是0。对于与最接近的纵横比相对应的滤波器,Lreg是如[6]中定义的平滑L1损失,ti是由第i个回归器进行的边界框预测,并且ti是真实边界框。这两个预测都是参数化的,如[6]。图4说明了该架构。由于每个回归量负责一系列输入缩略图大小,因此在测试时由任何回归量做出的预测可以具有与目标缩略图纵横比不同的纵横比因此,输出边界框必须被校正为具有等于缩略图的宽高比的宽高比,以消除在按比例缩小时任何可能的变形。我们采用了一种简单的方法,其中一个新的边界框的纵横比等于目标缩略图被放置在预测框的中心,并扩大,直到它接触的边界。由于预测框已经具有接近缩略图的纵横比的纵横比,因此校正最终图像。但是,由于该架构对于输入缩略图尺寸是不可知的,因此生成的缩略图质量较低,如图5(a)所示。如果我们对生成的框应用相同的rec- tification,以消除变形影响,则图像的重要部分不会保留,与图中所示的模型结果相反。5(b)。这是因为目标缩略图宽高比和预测框宽高比之间的显著不匹配。消除整流步骤将导致变形的结果,类似于图2所示。6. 实验在比较模型时,我们使用以下指标:offset:地面实况边界框的中心与预测边界框之间的距离。• 重新缩放因子(重新缩放):定义为max(sg/sp,sp/sg)其中sg和sp是用于基本事实和预测框的重新缩放因子分别[9]的文件。·4626×图5. R-FCN和Fast-AT预测测试集图像。(a):原始图像以蓝色显示R-FCN预测,校正框以红色显示,生成的缩略图在下面。请注意生成的缩略图如何丢失原始图像的重要部分。(b):原始图像以蓝色显示Fast-AT预测,校正框以红色显示,生成的缩略图在下方。校正不会在Fast-AT预测的框中引入显著变化。模型偏移重新缩放IOU失配R-FCN56.21.1920.640.102Fast-AT(AR)55.01.1490.680.010Fast-AT(AR+TS)55.41.1540.680.012Fast-AT(AR,放大350)53.11.1560.690.024表1. 使用不同的模型计算的时间。R-FCN、具有宽高比映射(AR)的Fast-AT、具有宽高比和缩略图大小映射(AR+TS)的Fast-AT以及具有放大到350的宽高比映射的Fast-AT。IoU:预测框和地面事实之间的交集纵横比失配(mismatch):预测框的宽高比与缩略图的宽高比之间的差的平方。由28,064张图像中的70,048个注释组成的总数据集被分为24,154张图像,用于训练63043个注释(占总注释的90%),3,910张图像用于测试7,005个注释(占总注释的训练集和测试集不共享任何图像。不同模型之间的比较结果如表1所示。我们使用的第一个模型是没有修改的R-FCN该体系结构对缩略图维数不可知,类的数量减少到两个,并对体系结构进行了相应的修改。我们看到,R-FCN单独具有良好的性能,除了纵横比不匹配的所有met-rics。这些度量中的高值表明,校正边界框将导致预测框中的显著变化。接下来我们考虑我们提出的模型,其中我们基于长宽比进行映射,具有5个分区(A=5)。我们看到了显著的改善在指标中-平均IoU增加了4%,偏移和重新缩放因子降低了。纵横比不匹配也已显著减少。我们也将划分扩展到缩略图大小。 在这种情况下,我们将输入缩略图空间分为三个分支:小缩略图(32-64)、中缩略图(64-100)和大缩略图(100-200)。如在第一模型中,基于纵横比进一步划分每个分支这导致总共5 3=15个回归器和15对2k2滤波器。这并没有导致对只有长宽比划分的模型的改进。与对象检测边界框不同,缩略图的预测边界框可以包围多个对象,并且可以扩展到整个图像。因此,虽然具有小感受野的网络可以预测用于对象检测的准确的边界框,但其对拇指指甲作物的预测可能不准确。对于对象检测,更快的RCNN [16]通过放大图像有效地降低了网络的感受野,使得最小维度为600。这一步也在R-FCN中实现。我们将Fast-AT中的图像尺寸(最小高度/宽度)从600减小到350,以研究接收场的影响我们观察到偏移量略有改善··4627×和IoU,如表1所示。改进并不大,因为我们使用Resnet-101 [8],它已经具有很大的感受野。Fast-AT如果这些较浅的模型的感受野得到扩展,则它们可能我们进一步比较了Fast-AT与纵横比划分和Fast-AT与纵横比和缩略图划分在一个小尺寸的缩略图;低于6464.我们没有看到任何显著的改善(表2)。这进一步证实了我们最初的结论,即它是缩略图方面比例,而不是缩略图大小,这很重要。表2. 在小于64 ×64的小缩略图尺寸下,具有宽高比映射( AR ) 的 Fast-AT 与 具 有 宽 高 比 和 缩 略 图 尺 寸 映 射(AR+TS)的Fast-AT之间的性能比较。我们还测量了极端长宽比下的指标即纵横比低于0.7且高于1.8;结果示于表3中。我们观察到R-FCN的显著下降图像和缩略图之间的宽高比不匹配是显著的,可能不存在解决方案。在这种情况下,我们应用的方法没有纵横比的限制。我们以0.7的显着性阈值运行此方法。[2]的文件。美学裁剪:这种方法试图产生具有最佳美学质量的作物[23]。视觉代表性和前景再现性(VRFR):这种方法在客观上与我们的方法非常相似。然而,它只能生成160× 120的固定大小的缩略图 [9]。由于美学方法和VRFR的代码尚未发布,因此我们的比较仅限于对200张图像及其生成缩略图的公开数据集的用户研究[9]。7.1. 度量为了比较不同的方法,我们使用实验部分中使用的相同的方法。此外,我们使用命中率hr和背景率br[9],它们被定义为:性能- IoU下降约6%,失配几乎翻倍。与此同时,Fast-AT仍然表现良好。h=|格洛普||g|BR为|p|−|格洛普||G|这表明Fast-AT可以处理广泛的缩略图改变纵横比。表3.R-FCN、具有宽高比映射(AR)的Fast-AT和具有宽高比和缩略图映射(AR+TS)的Fast-AT在宽高比极值(高于1.8和低于 0.7)下的性能比较7. 评价我们比较我们的方法与其他方法,通过度量评估,视觉效果,并通过用户研究。我们比较了4种方法:标度和对象感知显著性(SOAT):在该方法中,计算尺度和对象感知显著性,并使用贪婪算法在生成的显著性图上进行区域搜索[21]。高效种植:该方法在线性时间内生成显著图并进行区域搜索。不像以前的方法,搜索可以限制在一个特定的长宽比的区域.然而当其中g是地面真值框,p是预测框。这些指标是在一个注释测试集上计算的,该测试集由3,910个图像上的7,005个注释组成,并进行平均。表4显示了不同方法的性能。请注意,偏移量高于[9]中报告的偏移量。与[9]中使用的MIRFLICKR-25000数据集[10]不同,我们使用的数据集具有尺寸变化较大的图像,一些图像质量较低,并且它包括许多具有多个对象的图像。此外,我们的缩略图有一个纵横比,从0.5到2不等。这使得数据集明显更具挑战性,并解释了与[9]中报告的结果相比偏移值我们发现,我们的方法在偏移量,重新缩放因子和IoU方面表现最好。我们注意到,有效的裁剪具有非零的纵横比不匹配,这表明当施加纵横比限制时,存在问题不可避免的示例。这是预期的缩略图宽高比在我们的数据集的广泛变化不出所料,与目标纵横比无关的SOAT具有最高的纵横比失配。命中率表示由边界框捕获的地面实况的百分比,背景率表示位于地面实况之外的边界框区域的百分比。最佳方法应该接近地面实况,因此应该具有大的命中率和小的背景比率。我们发现,不同的方法在命中和···R·模型偏移重新缩放IOU失配Fast-AT(AR)Fast-AT(AR+TS)55.955.01.1491.1530.670.680.0110.012模型偏移重新缩放IOU失配R-FCN57.51.3480.580.200Fast-AT(AR)49.81.180.680.013Fast-AT(AR+TS)50.71.1830.680.0144628图6. 图像及其生成的缩略图:原始图像在左侧,在其右侧,我们显示缩略图:顶部是SOAT,中间是高效裁剪,底部是Fast-AT。方法偏移再缩放因子IOU纵横比失配hrBrSOAT [21]80.51.3780.520.20468.7%41.6%高效种植[2]88.31.3290.520.17664.4%百分之三十四点三Fast-AT(宽高比)55.01.1480.680.01083.7%37.1%表4.对不同缩略图生成方法进行了背景比与[9]中报道的结果相似。即,基于显著性的方法集中于具有大显著性的相对小的区域这导致小的作物,这解释了命中率和背景比率的低值。相比之下,我们的方法以大的命中率和低的背景比率而闻名。这表明它与预测的地面实况框非常匹配。7.2. 视觉结果我们在图6中显示了与其他基线相比的定性结果。基于显著性的方法成功地保留了重要内容;然而,在一些示例中,它们的最终缩略图可能具有明显的变形。这可以在SOAT的许多示例中以及在高效裁剪的一些示例中看到。此外,这些方法忽略了场景的语义,并且可能忽略图像的重要部分。这可以在针对SOAT的第三和第四示例以及针对高效裁剪的第一和第二示例中同时,从实例中可以看出,Fast-AT在每种情况下都它会显示场景的内容,并预测紧紧包围图像中最具代表性部分的缩略图7.3. 用户研究我们进行了一项用户研究,向用户展示原始图像和生成的缩略图。他们被要求在SOAT、高效种植和快速AT中选择最佳缩略图。从测试集中随机挑选了总共372个图像。30名mechanical turk用户参与了投票,没有用户被允许对超过30张图片进行投票。我们已将本研究的结果纳入表5。Fast-AT明显优于其他两种方法。SOAT [21]高效种植[2]Fast-AT88人(23.7%)86人(23.1%)198人(53.2%)表5.每种方法的投票数我们使用[21,9,23]的结果对[9]发布的200张图像进行了另一项研究。再-结果示于表6中。尽管VRFR[9]需要60秒的图像,并且仅适用于一种缩略图尺寸(160 x120),但Fast-AT在执行的用户研究中表现略好SOAT [21]美学[23]VRFR [9]FastAT34人92(23%)135人139人4629(8.5%)(33.7%)(34.7%)表6.每种方法的投票数46308. 失败案例和多重预测我们还调查了Fast-AT的失败案例我们在测试集中寻找预测的IoU低于0.1的例子图7(a)示出了一些示例。地面实况框为绿色,预测为蓝色。我们看到,尽管预测与地面实况非常不同,但在某些情况下,它仍然预测捕获原始图像中代表性区域的作物。此外,对于其中一些故障情况,我们采用第二或第三高置信度的预测。图7(b)示出了第二或第三预测接近地面实况的示例。这表明,如果要部署该系统,如果系统输出一小部分顶级预测,而不是一个,用户可能会受益。这些预测可以被视为用户从中挑选最佳解决方案的候选集我们还看到,如果也使用第二预测,一些指标的性能有显著的改善第三个预测没有导致显著的改善,如表7所示。图7. Fast-AT的故障案例:(a):预测可以具有与地面实况的低IoU,但仍然捕获代表性区域。(b):我们表明,第二或第三最有信心的预测接近地面真相。模型偏移重新缩放IOU失配前155.01.1490.6770.010顶部250.41.1520.6930.011前350.31.1520.6930.011表7. 使用前1、2和3个预测的Fast-AT性能。通过使用前2个预测,偏移量和IoU得到显著改善,其他指标没有显著变化。使用第三个预测不会导致显著改善。另一个有趣的情况是,图像的代表部分和缩略图的宽高比之间存在显著的由于显著的长宽比不匹配,裁剪无法捕获所有图像的代表部分。我们表明,我们的算法是能够产生多个作物,覆盖不同的代表性部分的图像。图8示出了一些示例。在前三张图片中(从左起),感兴趣的区域是水平分布的,但是缩略图的宽高对于最右边的图像,情况正好相反。第一行显示具有最高置信度的边界框预测,第二行显示具有第二高置信度的边界框预测我们看到,这些预测涵盖了图像的不同代表部分。图8.在上面的图像中,图像中感兴趣的区域和缩略图的宽高比之间存在显著的宽高比置信度最高的预测显示在第一行,置信度第二高的预测显示在第二行。该预测在覆盖图像中的不同代表性区域方面是有效的9. 结论我们提出了一个解决方案,自动缩略图生成问题,不依赖于显着性或显着性的考虑,而是直接攻击的问题收集了由28,064张图像上的70,048个注释组成的大型数据集。设计用于实时生成拇指指甲的CNN使用此集合进行训练度量和定性评价显示出优于现有方法的性能。此外,一项用户研究表明,我们的方法优于其他基线。10. 确认我们感谢我们实验室的研究生,他们注释了收集来检查这种方法可行性的初始数据集。我们也感谢匿名评论者为改进本文提供了宝贵的反馈。引用[1] B. Alexe,T.Deselaers和V.法拉利测量图像窗口的目标性 IEEE Transactions on Pattern Analysis and MachineIntelligence,34(11):2189-2202,2012. 2[2] J.Chen,G. Bai,S. Liang和Z.李自动图像裁剪:计算复杂性研究。法律程序4631IEEE计算机视觉和模式识别会议,第507-515页,2016年。一、二、六、七[3] G.乔卡角库萨诺湾Gasparini和R. Schettini自适应图像裁剪 的 小 型 显 示 器 . IEEE Transactions on ConsumerElectronics,53(4):1622-1627,2007。一、二[4] J.戴,Y. Li,K. He和J. Sun. R-fcn:通过基于区域的全卷 积 网 络 的 目 标 检 测 。 arXiv 预 印 本 arXiv :1605.06409,2016. 二、三[5] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。 在计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议,第248-255页。IEEE,2009年。3[6] R.娘娘腔。快速R-CNN。IEEE国际计算机视觉会议,第1440-1448页,2015年4[7] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集,第580-587页2[8] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。二、四、六[9] J. Huang,H.陈湾,澳-地Wang和S.是林书基于视觉代表性和前景可识别性的缩略图自动生成. IEEE国际计算机视觉会议论文集,第253-261页,2015年一二四六七[10] M. J. Huiskes 和 M. S. 卢 米 尔 Flickr 检 索 评 估 。 在MIRACM,2008年。6[11] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展,第1097-1105页,2012年。2[12] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络 。在 IEEE计算 机视 觉和模 式识 别会议 论文 集(Proceedings of the IEEEConference on Computer Visionand PatternRecognition),第3431-3440页,2015年。2[13] W. Luo,X.Wang和X.唐基于内容的照片质量评估。2011年国际计算机视觉会议,第2206-2213页。IEEE,2011年。2[14] Mannos和D.萨克瑞森图像编码的视觉保真度标准的影响 。 IEEE Transactions on Information Theory , 20(4):525-536,1974. 2[15] M. Nishiyama,T. Okabe,Y.佐藤和我。佐藤基于感觉的照片裁剪。第17届ACM国际多媒体会议论文集,第669-672页ACM,2009年。2[16] S. Ren,K.赫利河Girshick和J.太阳Faster r-cnn:Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展,第91-99页,2015年。二三四五[17] M. Rubinstein,D.古铁雷斯岛Sorkine和A.沙米尔图像重定 向 的 比 较 研 究 在 ACM transactions on graphics(TOG),第29卷,第160页中。ACM,2010年。1[18] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。二、三、六[19] F. 斯坦蒂福德基于注意力的自动图像裁剪。在计算注意力和应用的工作坊,ICVS,第1卷。Citeseer,2007. 2[20] B. Suh,H.林湾,澳-地B. Bederson和D. W.雅各布斯自动缩略图裁剪及其有效性。第16届ACM用户界面软件和技术年会论文集,第95-104页。ACM,2003年。一、二[21] J. Sun和H.凌比例和对象感知图像缩略图。国际计算机视觉杂志,104(2):135 二三六七[22] J. R. Uijlings,K. E. van de Sande,T. Gevers和A. W.史默德斯对象识别的选择性搜索。国际计算机视觉杂志,104(2):154-171,2013。3[23] J.Yan,S. Lin,S. Bing Kang和X.唐学习自动图像裁剪的 变 化 。 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Appraisition , 第 971-978页,2013年。二六七[24] M. D. Zeiler和R.费格斯。可视化和理解卷积网络。在欧洲计算机视觉会议上,第818-833页。Springer,2014. 6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功