个性化图像美学数据库PARA的属性丰富性及其对主观评价的影响

76 浏览量更新于2023-10-25 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19861具有丰富属性的Yuzhe Yang1<$，Liwu Xu1<$，Leida Li2，Nan Qie1，Yaqian Li1，Peng Zhang1，Yandong Guo1*1OPPO研究院2西安电子科技大学ippllewis@gmail.com，{xuliwu，qienan，liyaqian，zhangpeng6} @oppo.com，ldli@xidian.edu.cn，yandong. live.com摘要个性化图像美学评价（PIAA）由于其高度主观性而具有挑战性。人们的审美趣味取决于多种因素，包括形象特征和题材特征。现有的PIAA数据库在注释多样性方面存在局限性，尤其是在主题方面，已不能满足PIAA研究日益增长的需求。为了解决这一难题，我们对个性化图像美学进行了迄今为止最全面的主观研究，并引入了一个新的具有丰富属性的个性化图像美学数据库（PARA），该数据库由438个主题的31，220幅图像组成。PARA具有丰富的注释，包括9个面向图像的客观属性和4个面向人的主观属性。此外，还提供了去敏感化的主题信息，例如个性特征，以支持PIAA和用户画像的研究。对注释数据进行了全面的分析，统计研究表明，提出的主观属性可以反映审美偏好。我们还提出了一个条件PIAA模型，利用主题信息作为条件先验。实验结果表明，条件PIAA模型的效果优于控制组，这也是首次尝试展示图像美学与主体人物如何相互作用，产生复杂的个性化图像美学品味。我们相信该数据库和相关分析将有助于进行下一代PIAA研究。PARA的项目页面可以在https ： datasets.institutecv.com/#/data-sets上找到。1. 介绍图像美学评价（IAA）旨在通过计算来评估照片的美学。由于审美偏好的高度差异，图像美学评价*通讯作者†同等贡献(a) 动物（b）建筑（c）食品(d) 室内（e）夜景（f）植物(g)肖像（h）场景（i）静物(j)别人图1.图像在PARA。可以分为两类：通用和个性化的图像美学评估（又名GIAA和PIAA）[13]。对于GIAA，图像由不同的符号注释，ers和平均意见评分（MOS）被用作美学“地面真相”。然而，GIAA仅仅反映了一种“平均意见”，忽视了审美趣味的高度主观性。为了缓解这一问题，建议使用PIAA来捕获独特的美学偏好[13]。在过去十年中，PIAA取得了令人鼓舞的进展。最初，Ren等人[13]提出了第一个名为FLICKR-AES的PIAA数据库，他们通过以下方式解决了这个问题：19862利用GIAA对用户相关数据的知识，使模型能够捕捉美学“ 偏移” 。后来，研究工作尝试从各种角度学习PIAA，如多模态协作学习[17]，元学习[21]，多任务学习[7]，深度强化学习[18]，[10] 高质量的数据库对于建立数据驱动的PIAA模型至关重要。然而，目前的数据库，如FLICKR-AES [13]和AADB [6]，在注释多样性方面受到限制。为了比较，我们在表1中总结了三个相关数据库的注释信息，并且很容易观察到大多数数据库在注释多样性方面是有限的。数据库主观标号目标标号注释计数Avg.每个图像的注释次数Num.个图像Num.注释尺寸Num.学科AADB [6]C600 K510,00012190[13]第十三话C2.87 k12,870114FLICKR-AES [1]C200 K540,0001210我们的（PARA）CC9723k25.8731,22013438表1.PIAA数据库之间的比较请注意，“注释计数”是通过乘以“”来计算的的图像，每个图像的平均注释时间和注释尺寸。由于场景标签是在注释开始之前分配给每个图像的，因此我们单独添加场景标签的数量。主观标签会话ID映像名称会话1iaa pub1.jpg用户ID年龄A3c641830用户IDA3c6418性别男性美学3.0教育经验大学质量3.1艺术体验有利的组合物3摄影经验有利的颜色4E5景深3一9内容3N4光4O7对象强调0（假）C9场景类别动物情感判断困难内容偏好分享中性-1（简单）3（中性）3（中性）表2.单个图像的注释信息注释分为客观信息和主观信息两大类主观和客观注释可以通过用户ID相为了缓解这个问题，我们注意到属性通常提供更丰富的描述来显式地表征差异[6]。因此，在美学评分之外，我们还提供了量化的个性化美学属性注释，以便于更准确地进行美学偏好建模。在这里，考虑到PIAA任务的高度主观性，不同于现有的数据库FLICKR-AES[13]和AADB [6]，我们从两个角度设计了PARA的标签系统，即面向人和面向图像的注释。具体来说，除了图像美学属性，我们还收集主观和符号，包括1）内容偏好，2）判断困难，3）情感，4）分享意愿。我们相信上述维度可以为理解PIAA与心理感受之间的相关性带来进一步的研究机会。此外，我们还提供脱敏的主题信息（用户ID，年龄，性别，教育程度，性格特征，摄影经验，艺术经验），以便将来进行更深入的分析。单个图像的注释尺寸如表2所示。本文建立了迄今为止标注最丰富的个性化图像审美评价数据库“PARA”。此外，我们还对注释信息进行了深入的分析，并提出了该数据库的基准。这项工作的贡献可归纳如下：• 我们对个性化图像美学进行了迄今为止最全面的主观研究，并建立了一个具有丰富注释的PIAA数据库。具体而言，我们收集了31，220张图像，每张图像平均由25名受试者注释，总计438名受试者。每幅图像标注有4个面向人的主观属性和9个面向图像的客观属性。为了支持深入分析，我们还提供脱敏的主题信息。• 我们提供了一个深入的分析，以发现注释维度的特征。统计结果表明，所提出的以人为本的主观属性（包括人格特质、判断困难和图像情感）可以反映个性化审美偏好，从而为利用主体信息构建个性化审美提供了新的研究视角。• 我们进行基准研究的基础上提出的PARA数据库。该基准包含两个模型，包括无条件PIAA和有条件PIAA.通过利用主题信息作为建模审美偏好的条件，我们证明了以人为本的注释训练可以进一步提高PIAA模型的性能。2. 相关作品2.1. PIAA数据库对于大多数数据驱动的机器学习系统，具有丰富注释的数据起着关键作用。在PIAA研究中，经常使用三个数据库，包括FLICKR-AES [13]、REAL-CUR [13]和AADB [6]。 FLICKR-AES [13]实际上是第一个专门为PIAA研究设计的数据库。FLICKR-AES包含40，000张来自Flickr的创作共用许可证的图像。它是一个-†https：//www.juanickr.com19863图2.PARA中用户画像和属性的统计饼图：（a）年龄，（b）性别，（c）教育经历，（d）艺术经验，(e) 摄影经验，（f）大五人格特质，（g）判断困难，（h）情绪分布，（i）物体强调，（j）场景类别。由210名AMT工作人员评定，美学评分范围为1至5。分数越高表示视觉美感越好。然而，FLICKR-AES中的评级分数是由AMT工作人员而不是图像所有者提供的。为了在真实场景中测试 PIAA 算法，提出了 REAL-CUR[13]，它是一个由14个真实个人相册组成的小规模数据库。每个相册包含不同数量的照片，从197到222不等，平均为205。在PIAA研究中，该数据库通常仅用作算法验证的测试集[13]。除了FLICKR-AES和REAL-CUR之外，另一个通常用于PIAA研究的数据库是AADB [6]。它最初旨在共同学习图像美学和相关属性。由于还提供了受试者ID，因此AADB还可以用于学习个性化的美学偏好。AADB包含10，000张图像，总共有190名工人评分，平均有5名工人评分。AADB提供了11个美学属性注释（有趣的内容、对象强调、良好的照明、色彩和谐、生动的色彩、浅景深、运动模糊、三分法、平衡元素、重复和对称）和1个美学评分（范围从1到5），表示整体美学判断。2.2. PIAA模型在过去的十年中，不同类型的计算PIAA模型已经通过各种深度学习技术得到。Ren等人。[13]提出了第一个PIAA数据库，他们通过利用GIAA先验知识来个性化数据来捕获个人数据，从而解决了PIAA任务。性审美偏好具体来说，他们首先训练了一个GIAA模型来提供基本的任务先验。然后，他们用属性和内容来调整GIAA知识†Amazon Mechanical Turk，https://www.mturk.com/通过残差学习来学习个性化的美学“偏移”。Wang等人[17]指出，当前PIAA模型包含的用户特定信息不足。因此，他们丰富了目前的PIAA数据库附加文本评论和进行用户/图像关系嵌入协作学习。此外，他们还引入了一种注意机制，通过融合多模态注释信息来挖掘图像语义和感兴趣区域（ROI）。Zhu等人[7]证明，通过多任务学习和具有个性信息的交叉数据训练，GIAA和PIAA的性能都可以优于其他IAA算法。最近，深度Meta学习[16]已被证明其在捕捉审美偏好方面的有效性[18，21]。在这些工作中，每个用户的注释被视为一个元任务。通过独特的情景训练机制，训练后的模型可以快速适应新的主题数据。值得注意的是，上述大多数算法都反映了在学习过程中引入额外信息的必要性和有效性，这反过来表明，设计更好的PIAA模型需要额外的数据。这些促使我们开展这项工作，并带来下一代PIAA。3. PARA数据库PARA数据库的建设包括数据收集、标签系统设计、选题和主观实验四个阶段。3.1. 数据收集我们从 CC 搜索中收集图像，并使用 “creativecommons”许可和“Flickr source”条件过滤图像然后，我们使用训练有素的场景分类†https://search.creativecommons.org/19864模型来自动预测每个图像上的场景标签。接下来，我们仔细检查标签并手动修改场景注释以保持注释质量。然后，我们基于场景标签采样了大约28，000张图像，以保持内容多样性。然后，我们从名为Unsplash的网站和图像质量评估数据库（包括SPAQ [1]和KonIQ-10 K[5]）中添加了大约3，000张具有清晰美学基础事实的图像，以平衡美学分数分布。3.2. 标签系统设计在设计PARA的标签系统时，我们同时参考了GIAA和PIAA数据库[6，11，13]。PARA标签系统的尺寸见表2。每个图像都有13个标签和主题信息。下文对每个方面进行了解释• 面向图像的属性得分（组成，光线，颜色，景深，对象强调，内容）大多从1到5进行离散注释。特别地，• 情感，（包括娱乐、兴奋、满足、敬畏、厌恶、悲伤、恐惧、中性），是指图像情感[20]。受试者被允许为每幅图像选择一种主导情绪。• [001 pdf 1st-31 files]判断的困难，是一个离散的标签，在[-1，0，0，+1]，并描述了判断照片美学的困难。“+1” meansdifﬁcult, “0” means normal and “-1” refers to• 内容偏好是文献[1，5]中的一个离散标注，它代表了语义偏好的程度。为了清晰陈述和减少问题偏见，我们选择使用“我喜欢这张照片的内容”，而不是使用“内容偏好”的确切表达。从1到5的含义是指• 分享意愿是社会计算和图像意图估计的离散标签。最初的问题是“是否愿意将这张照片分享给社会媒体”。从1到5的含义仍然是指• 用户ID被设计为将个体受试者信息及其注释记录关联在一起的唯一通用密钥。请注意，为了保持注释的丰富性和多样性，参与此注释任务的主题有两个来源。为了方便起见，我们通过每个ID开头的字母A和B来区分来自两个源的注释。†Unsplash，https://unsplash.com/• 美学评分是一个离散的类别标签，范围从1到5，它反映了综合判断。为了处理模糊性，我们在每个整数标度之间添加一个中间选择。分数越高表示视觉美感越好。• 质量评分，代表对图像质量的总体判断，范围为1 -5。分数越高表示感知质量越好。值得一提的是，在PARA中，低感知质量的照片包含多种退化，包括运动模糊，JPEG压缩等。• 场景类别，表示此图像的内容。我们精心挑选了9个经常出现的场景（包括肖像、动物、植物、风景、建筑、静物、夜景、食物和室内）和1个“其他”类，专门指没有明显意义的照片。注意，在主题实验开始之前预先注释该标签，以保持内容多样性。除了上述注释信息，我们还收集脱敏的主题信息，以提供更深入的研究机会。相关信息包括年龄、性别、教育经历（初中、高中、中专、大专、大学）、人格特质（大五人格特质，包括开放性（ O ）、责任心（ C ）、外向性（ E ）、责任心（ A ）和神经质（N））、艺术经历和摄影经历。在这里，为了帮助用户快速确认他/她的个性，我们使用了BFI-10的问卷[12]每个人都被要求完成问卷调查。然后，我们计算每个人格特质的得分，并将其添加到注释数据中。3.3. 受试者选择在招募受试者的原则上，为了保持注释的质量和多样性，我们主要从健康状况、工作经历、人格特质和受试者画像四个方面来招募和选择受试者。首先，我们确保每个受试者都处于良好的健康状态，不允许强迫劳动。为保持注释的质量，所有受试者均需围绕数据注释工作半年以上（全职或兼职），其作品在其他注释任务中合格。其次，我们确保拍摄对象的肖像在年龄、性别、教育、摄影经验和性格特征方面足够多样化。根据Zhu等[7]的研究结论，我们认为个性特征包含了捕获审美偏好的重要信息。因此，我们特别关注人格特质的分布。最后，所有受试者应通过石原色盲测试[3]。对象的用户肖像分布在图2中从（a）到（f）示出所有19865受试者知道PARAA的使用，不同意数据使用的受试者可以要求我们删除他们的注释并自由退出实验。3.4. 主观实验我们通过遵循一般心理学实验方案[15]进行受试者实验以收集投票结果。首先，我们将整个数据库分成446个会话进行主题实验。每个会话包含70个未标记的图像，5个标准图像（一小组预先注释的数据）和5个重复图像（图像需要注释两次以测试注释一致性），以控制注释质量和一致性。然后，我们开发了一个基于Web的注释工具，并分配个人帐户和密码的主题。最后，依靠精心设计的注释质量控制策略†，所有合格的注释都会自动存储，无需人工验收。请注意，在主题实验中，并非所有上述标签都被注释，例如场景标签。在主题实验开始前，保持丰富的内容多样性，均衡场景分布。图3.注释平台的图形界面图3是注释平台的图形界面，受试者需要在提交前填写所有空格。为了保持对每个维度的理解，我们在下面给出了无指导的解释。受试者可通过点击“返回”按钮修改注释4. 数据分析在本节中，我们首先概述了拟议的PARA数据库。然后，从统计学和相关性的角度，对审美属性进行研究，以发现主观和客观注释的特征。4.1. 数据总结预处理后的PARA包含31，220张图像，共有438名受试者投票。为了直观观察，我们在图2中给出了一组饼图来演示†详情见补充材料。每个维度的比例。在第一行，饼图（a）至（e）展示了（a）年龄，（b）性别，（c）教育经历，（d）艺术经验和（e）(e)摄影经验。第二行包括f）大五人格特质，g）判断困难，（h）情感，（i）对象强调（指图像中是否存在显著对象），（j）场景类别。请注意，在场景类别中，我们预先定义了9个通用场景，并为每个场景分配了近10%的数据量，以预平衡PARA的特征多样性。对于不清晰和无意义的图像，我们将其分配为“其他”标签图4.注释分数分布。请注意，x轴表示不同维度的得分，而y轴表示每个评分量表上的频率。4.2. 统计分析注释分布PARA包含丰富的注释信息。这里，每个维度的注释分布和方差在图4和图5中可视化。从图4可以看出，每个属性的分布是相似的。然而，它们仍然彼此略有不同，这表明美学属性彼此相关，但仍然提供独特的有价值的信息。从图5所示的美学评分的箱形图中，很容易观察到，在高分区间（4，5）中，美学评分确实具有与其他评分区间相比，方差更低。这说明我们对“美”的认识是一致的同时，在[1，2]、（2，3）、（3，4）等评分区间，我们也有不同的审美观点，这也证明了进行PIAA研究的必要性。属性相关性分析为了从相关性的角度理解PARA，我们在图6中可视化了每个维度之间的皮尔逊线性相关系数（PLCC）。可以观察到，19866图5.不同美学评分区间的箱形图图6.属性维度之间的皮尔逊线性相关系数（PLCC）映射。美学和质量之间的关系非常高，这表明照片质量可以在很大程度上影响图像美学感知。同时，属性之间的相关性大多在0.5左右，表示“中等相关”。这意味着每个维度的注释信息既包含共性又包含差异性。最后，我们注意到“内容偏好”和“分享意愿”维度也高度相关，这证明人们在欣赏图片内容时更容易分享照片。4.3. 主题偏好除了传统的审美判断维度，PARA还提供了主题肖像。目前的PIAA算法大多是有限的，由于注释的多样性。我们认为，主体画像信息可以带来更深入的研究机会，例如通过转导学习[8]等利用por- trait信息，因此，我们也在PARA中收集用户画像信息，比如性格特征和摄影经验。进一步研究人格特质、情感、注释困难与审美属性偏好之间的相关性，以发现内在特征。为了直观的观察，我们在图7 .第一次会议。很容易观察到，具有不同个性特征的被试具有不同的审美情趣，三个被试的评分分别为4、2.5和3.5。图7.样本图像由三个主题进行评级。相关美学评分为4、2.5和3.5，彼此之间差异很大值得注意的是，他们的性格特征也各不相同。人格特质属性偏好我们发现了人格、美学分数和美学属性之间的相关性，结果如图8所示。为了得到结果，我们首先得到5个特征中的最大值，并使用相关联的特征作为依据将数据分组为然后，我们计算每个美学属性和美学得分之间的PLCC。在这里，很容易发现具有高“N”特质的受试者与其他受试者不相似。有趣的是，我们发现类似的现象也可以在这篇文章中找到[22]。此外，高E特质的被试在美学判断困难我们亦对“判断困难”与美学评分进行相关性分析。我们计算了在每个分数下选择“困难”、“正常”和“容易”的概率可以观察到，受试者在评估美学评分较低的照片时感到困难。为了发现背后的原因，我们收集了10个被试的反馈，以发现背后的原因.有趣的是，我们注意到受试者说他们患有头晕，很难清楚地识别场景，所以很难做出判断。这尤其发生在注释美学属性时。此外，他们更有可能19867图8.具有人格特质的属性美学PLCC图10.情感和美学评分之间的概率分布在“更糟”和“更糟”之间做出决定时，不要感到困惑，而在“更好”和“更好”之间做出选择时，不要感到困惑。1期2期(a)无条件PIAA1期2期(b)条件PIAA图11.拟议的PIAA模型的管道。我们提出了两种类型的模型，包括条件和无条件PIAA。图9.每个美学评分的判断分布差异。可以观察到，美学评分较低的照片往往难以让受试者做出判断。审美情感在图像情感维度上，我们首先将八种情感分为三组，即“积极”（娱乐、兴奋、满足）、“消极”（厌恶、悲伤、恐惧）和“中性”（敬畏、中性）。然后，我们计算分组情感类别在美学分数上的注释分布，相关结果如图10所示。明确的结论是，美学评分低于2.0（在l1的左边）的图像更有可能传达负面情绪。同时，具有高美学分数的图像（l2右侧超过4.0）更倾向于向被试传达积极的情感。 Cui et al. 等[19]。在他们的工作中，他们发布了一个结论，如果图像能引起积极情绪，则其得分较高; 2否则，其美学得分较低[19]。5. 基准5.1. 有条件和无条件PIAA为了证明该方法的可用性和公平性，我们对PARA进行了基准研究，该基准包含两种建模方法，即一致性PIAA和无条件PIAA。无条件和有条件PIAA的训练管道如图11（a）和（b）所示。为了实现无条件PIAA，我们首先在第1阶段训练GIAA模型。然后，我们利用个人数据直接对GIAA模型进行微调，以了解个人化偏好。在条件PIAA建模方面，我们在建模时加入了三种类型的条件信息，包括人格特质、艺术经验和摄影经验。通过将条件相乘到最后一层输出，我们分别学习了一个“条件”GIAA和PIAA模型。最后，我们进行了比较实验的评价。由于PIAA是一个典型的小样本问题[21]，我们通过参考少镜头学习[2]和以前的PIAA研究工作[13，21]采用类似的实验设置和评估标准。在这项工作中，实验设置包括1）无微调组（“对照组”），2）10次射击组和3）100次射击组。结果如表3所示。输入图像用户数据输入图像用户数据骨干预先培训的GIAAFCFCGIAA评分PIAA评分预先培训的GIAA骨干FC个人条件PIAA总分FC平均情况总和GIAA评分19868微调方法骨干条件SROCC信息没有Finetune10发100发，没有10发100发无条件PIAA组条件PIAA组ResNet-18[4]/0. 6521 ± 0。00380的情况。6534 ± 0。00440的情况。6616± 0。00：400. 7069 ± 0。00340的情况。7093 ± 0. 00440. 7147 ± 0。0031[14]第十四届全国人大代表6696 ± 0。00320的情况。6697 ± 0。00310的情况。6814± 0。00410. 7211 ±0。00350的情况。7214 ± 0。00350. 7302 ± 0。0026ResNet-50*[4]/0。6808 ± 0。00150的情况。6811 ± 0。00150的情况。6952± 0。00140. 7295 ± 0。00140的情况。7298 ± 0。00130. 7429 ± 0。0012[9]第九届全国人大常委会委员长会议6855 ± 0。00100的情况。6859 ± 0。00100的情况。6988± 0。00230. 7321 ± 0。00120的情况。7311 ± 0。00130. 7441 ± 0。0012Swin-TF小型[9]/0. 6897 ± 0。00130的情况。6900 ± 0。00130的情况。7040± 0。00100. 7354 ± 0。00150的情况。7358 ± 0。00150. 7485 ± 0。0011ResNet-50艺术体验0的情况。6854 ± 0。00160的情况。6859 ± 0。00160的情况。6976± 0。00120. 7329 ± 0。00240的情况。7332 ±0。00220. 7419 ± 0。0012ResNet-50摄影体验0的情况。6826 ± 0。00140的情况。6830 ± 0。00140的情况。6982± 0。00100. 7324 ± 0。00100的情况。7326 ±0。00100. 7447 ± 0。0010ResNet-50人格特质0的情况。6908 ± 0。00100的情况。6912 ± 0。00090. 7046 ±0. 00150. 7380 ± 0。00070的情况。7384 ± 0。00070. 7509 ±0。0010表3.实验结果提出的条件和无条件PIAA对帕拉。选择ResNet-50骨干（标有 *）的无条件PIAA结果作为PARA的官方基准。实施细则我们随机抽取40名受试者（占总受试人数的10%）作为测试受试者。对于每个受试者，从他或她的个人数据中随机选择10和100个图像作为支持集，从其余数据中随机抽取50幅图像作为查询集。其次，我们在支持集上对GIAA模型进行微调，将GIAA细化为PIAA模型，并评估查询集上的性能。第三，为了避免数据选择的随机性，我们对每个主题的数据进行了10次采样和评估，并计算了每个评估指标的平均值。第四，为了观察所有测试对象的鲁棒性和平均性能，我们将整个管道重复10次，并计算所有测试对象的每个评估指标的平均值和标准差作为最终结果。对于条件PIAA，我们将主观属性信息乘以最后一层输出，以学习GIAA和PIAA。请注意，我们在训练GIAA时使用5.2. 评价标准本文采用均方误差（MSE）、Spearman秩序相关系数（SROCC）、Pearson线性相关系数（PLCC）和分类准确度四个指标对GIAA的性能进行评价。在PIAA中，我们使用SROCC和PLCC作为评估指标。5.3. 实验结果在这项工作中，评估程序发生在GIAA和PIAA。首先，拟议基准的实验结果如表3所示。我们测试了不同的 GIAA 主干，包括 ResNet-18 [4] ， ResNet-50 [4] ，MobileNet-V2 [14] ， Swin-TF tiny [9] 和 Swin-TF small[9]。我们还评估了GIAA在测试集上的性能。对于骨架选择的影响，我们也进行了骨架实验进行比较。主链实验结果报告于表4中。实验结果可以总结如下。第一章条件信息骨干MSESROCCPLCC精度/ResNet18 [4]0.05460.85380.90050.8567/[第14话]0.04790.87060.91200.8710/ResNet50 [4]0.04330.87900.92080.8697/Swin-TF Tiny [9]0.03730.89710.93310.8843/Swin-TF小型[9]0.03560.90210.93550.8857艺术体验ResNet500.04340.88140.92060.8720摄影体验ResNet500.04400.88240.92150.8770人格特质ResNet500.04160.88600.92380.8763表4.GIAA骨干实验结果对帕拉。首先，我们证明，通过对10次和100次拍摄的个性化数据进行微调，PIAA可以优于对照组（“无微调”组）。2)其次，更个性化的训练数据可以进一步提高Finetune性能。另外，10次拍摄组的结果与对照组接近，这启发我们重新思考10次拍摄设置的合理性。3)第三，将主观属性信息引入PIAA建模中，可以提高模型性能，与无条件PIAA组相比。6. 结论在这篇文章中，我们提出了一个新的PIAA数据库命名为“PARA”。PARA数据库包含31，220幅图像，总共有438个主题进行注释。从13个维度对每幅图像进行了丰富的注释，包括9个面向图像的客观属性和4个面向人的主观属性。此外，还提供了脱敏的受试者信息。统计结果表明，个性化的审美偏好可以通过以人为本的主观属性来体现。为了从计算角度进一步证明主题属性的价值，提出了一种利用主题信息作为条件先验的条件PIAA建模方法。实验结果表明，加入主观信息可以更好地模拟个人的审美偏好，这可能为下一代PIAA带来新的研究机会。19869引用[1] Yuming Fang ，Hanwei Zhu ，Yan Zeng ，Kode Ma ，and Zhou Wang.智能手机照片的感知质量评估在IEEE计算机视觉和模式识别会议上，第3677-3686页4[2] Li Fe-Fei et al. A batomical approach to unsupervisedone-shot learning of object categories. 第九届IEEE计算机视觉国际会议论文集，第1134-1141页IEEE，2003年。7[3] 勒格朗HHardy，Gertrude Rand，and M.凯瑟琳·里特勒。色盲的检测和分析试验I. 石原试验：一个评价。美国光学学会杂志，35（4）：268- 275，Apr 1945. 4[4] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。8[5] 诉Hosu，H.Lin，T.Sziranyi和D.酱汁Koniq-10 k：用于盲图像质量评估深度学习的生态有效数据库IEEETransactions on Image Processing ， 29 ： 4041-4056 ，2020。4[6] 空舒，沈晓辉，林哲，拉多米尔机甲，福克斯查理。照片美学排名网络与属性和内容的适应。在ECCV，2016年。二、三、四[7] Leida Li ， Hancheng Zhu ， Sicheng Zhao ， GuiguangDing，and Weisi Lin.个性辅助多任务学习用于通用和个性化图像美学评估。 IEEE Transactions on ImageProcessing，29：3898二、三、四[8] Yanbin Liu，Juho Lee，Minseop Park，Saehoon Kim，Eunho Yang，Sungju Hwang，and Yi Yang.学习传播标签：用于少量学习的直推传播网络在学习代表国际会议上，2019年。6[9] Ze Liu ， Yutong Lin ， Yue Cao ， Han Hu ， YixuanWei ， Zheng Zhang ， Stephen Lin ， and BainingGuo.Swin Transformer ：使用移动窗口的分层视觉Transformer。国际计算机视觉会议（ICCV），2021年。8[10] 吕培，范建琪，聂西西，董伟明，姜晓恒，周兵，徐明亮，徐长生.基于深度强化学习的用户引导个性化图像美学评估。arXiv预印本arXiv：2106.07488，2021。2[11] Naila Murray Luca Marchesotti 和 Florent PerronninAva：用于美学视觉分析的大型数据库。2012年IEEE计算机视觉和模式识别会议，第2408-2415页。IEEE，2012。4[12] 作者：Beatrice Rammstedt，Oliver P.John. 在一分钟或更短的时间内衡量个人品质：英语和德语的10项简短版本的大五清单Journal of Research in Personality，41（1）：203-212，2007. 4[13] Jian Ren ，Xiaohui Shen ，Zhe Lin ，Radomir Mech ，and David J. Foran.个性化形象美学。在IEEE国际计算机视觉会议（ICCV）的会议记录中，2017年10月。一二三四七[14] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、AndreyZh-moginov和Liang-ChiehChen。Mobilenetv2：反向残差和线性瓶颈。在IEEE计算机视觉和模式识别会议论文集，第4510-4520页，2018年。8[15] H.R. Sheikh，M.F. Sabir和A.C.波维克最近的全参考图像质量评估算法的统计评估。IEEE Transactions onImage Processing，15（11）：3440-3451，2006。5[16] 作者：George，Charles Blundell，Timothy Lillicrap，Daan Wierstra，et al.匹配网络进行一次性学习。神经信息处理系统的进展，29：36303[17] 王国龙，严俊驰，秦政。协作和专注的学习，个性化的图像美学评估。在IJCAI，第957-963页，2018年。二、三[18] Weining Wang，Junjie Su，Lemin Li，Xiangmin Xu，and Jiebo Luo.元学习视角下的个性化图像美学评价。在 2019 年 IEEE国际图像处理会议（ ICIP）上，第1875IEEE，2019。3[19] 俞钧，崔超然，耿雷雷，马玉玲，殷一龙。走向统一的美学和情感预测的图像。在2019年IEEE图像处理国际会议（ICIP）上，第2526-2530页。IEEE，2019。7[20] 赵思成，丁桂光，黄庆明，蔡达生，BjoérnWSchulle r，KurtKeutze r 。A fect iv eimagecontent analysis ： Acomprehensive survey.在IJCAI，第5534-5541页 4[21] Hancheng Zhu，Leida Li，Jinjian Wu，Sicheng Zhao，Guiguang Ding，and Guangming Shi.通过元学习和双层梯度优化进行个性化图像美学评估。IEEE Transactionson Cybernetics，2020。二、三、七[22] 朱汉成，周勇，李磊达，李亚倩，郭艳东从主观属性和客观属性中学习个性化的图像美学IEEE Transactionson Multimedia，第1-1页，2021年。6

下载后可阅读完整内容，剩余1页未读，立即下载