基于稀疏匹配的图像宏观嵌入方法研究

43 浏览量更新于2023-10-16 收藏 15.9MB PDF 举报

稀疏表示

社交网络分析

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

in computer science [13, 52]. Content diffusion online can be un-derstood as a product of two intertwined properties: i) the natureof the content, its evolution and mutations, and ii) the propertiesof the social network on which it propagates.Diffusion of content and cascade prediction have received sub-stantial attention in this domain. Several lines of recent researchhave focused on understanding and predicting cascades [13], theprobabilities of information diffusion in cascades [47], and the recur-rence of cascades [14]. These cascades are crucial in understandingthe influence of the underlying social network on predicting theextent of propagation (popularity or virality) and provide stronginsights into the importance of strong community structures incontent propagation [54]. Extensive research has also been done inunderstanding the strength and extent of online community struc-tures and their impact on information diffusion [53, 55].With increased online big data collection and processing, re-search has focused on understanding content virality through theinformation contained in online imagery or text [5, 17, 26]. Con-trary to the earlier mentioned research, this line of focus looks atthe impact of content in predicting virality, independently fromthe network structure and its constituent effects of social reinforce-ment, homophily and spreading pattern. Using computer visiontechniques, studies have looked at regions of images that promotecontent virality [20, 24].An interesting combination of these two different lines of re-search is the study of evolution of information in social networks [3].Since many memes exist in the social network that persist by mu-tating constantly [16, 17], understanding the mutations that areresponsible for accelerating or hindering the popularity of a memecan be influential in content creation and understanding the cul-tural composition of online communities. An issue, however, withthis line of study is the difficulty in isolating the underlying culturalmeme from its various manifestations in online content [34, 48].Identifying latent cultural memes from content such as tweetshas been attempted first by Leskovec et al.[37], utilizing topicmodeling, without explicitly considering mutations in content.Approaches such as n-grams and deep neural representations oftext [23] have also been utilized to some success. When operat-ing on Twitter data, hashtags provide a grounded and less noisyrepresentation of a meme, that has been utilized in studying thepropagation of associated content on social networks [42, 46]. Thework of Coscia [16, 17] has studied the nature of competition be-tween image macros online. The systematic study of mutations,however, still remains elusive under these approaches, and to the12250MemeSequencer：用于嵌入图像宏观的稀疏匹配0Abhimanyu Dubey 麻省理工学院dubeya@mit.edu0Esteban Moro 麻省理工学院Universidad Carlos III de Madridemoro@math.uc3m.es0Manuel Cebrian 麻省理工学院cebrian@mit.edu0Iyad Rahwan 麻省理工学院irahwan@mit.edu0摘要0对互联网上社交媒体内容的创作、变异和传播进行分析是计算社会科学中的一个重要问题，影响从市场营销到政治动员的各个领域。了解在线图像演变的第一步是分析快速修改和传播的模因图像或“模因”。然而，进行这种调查的一个缺点是目前无法为这种图像生成强大的语义空间，能够理解图像宏观的差异。在这项研究中，我们提出了一种基于稀疏表示和深度学习的算法，以解耦此类图像中的各种内容并生成丰富的语义嵌入。我们在与模因和图像宏观相关的各种任务上展示了我们方法的优势，如图像聚类、图像检索、主题预测和病毒性预测，每个任务都超过了现有方法。除了在定量任务上的实用性外，我们的方法还为获得对模因图像的演变和传播的首次大规模理解打开了可能性。0关键词0图像病毒性，图像宏观，特征提取，稀疏表示，嵌入，社交网络分析，内容理解0ACM参考格式：Abhimanyu Dubey，Esteban Moro，ManuelCebrian和IyadRahwan。2018年。MemeSequencer：用于嵌入图像宏观的稀疏匹配。在2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，美国纽约，11页。https://doi.org/10.1145/3178876.318602101 引言0本论文发表在知识共享署名4.0国际许可证（CC BY4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04.. https://doi.org/10.1145/3178876.31860210Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, Francetemplatetextimagecombinedbest of our knowledge, there is no work on the evolution of image-based memes.In this work, we provide a systematic framework and associatedsemantic feature space to study memetic imagery. Unlike the evo-lution of text, images mutate and evolve in a relatively controlledmanner on the Internet, typical of which is the propagation of Im-age Macros, the most common type of online visual meme [34]. Asdescribed by Knobel and Lankshear [34], an Image Macro is therepresentation of an idea using an image superimposed with textoptional alternative imagery. This form of representing a memehas been incredibly successful at dissemination, and is extremelypopular on social networks [25].In their most common form, Image Macros usually possess oneor two lines of text flanking the template image in the center. Ad-ditionally, they may have altered imagery superimposed on thetemplate image as well. Their etymology stems from the usageof the word “macro” in computer science, as a ‘rule or a patternthat maps an input to an output’ [38]. This highlights the usage ofthe Image Macro as a general purpose meme representation, thatcan be altered to fit the context specified by the overlaid text. Thecombination of the overarching memetic theme provided by theinstantly-recognizable template image with the subtle contextualinformation provided by the overlaid text or imagery creates aninstantly perceivable new meme that is versatile and adapted to thetargeted community, justifying its prevalence in social media.Scientific inquiry involving the propagation of these ImageMacros can hence provide a stronger signal in understanding thetransformation of cultural memes. The primary problem, which wefocus on in this work, is the creation of a semantic representationfor Image Macros that preserve the semantic information in eachimage macro while mapping different instances of image macroscreated from the same base template image close together, preserv-ing the global context (supplied by the image), while additionallymaintaining the individual context provided by each image macro.The baseline technique to solve a problem such as this would be touse deep neural network features, which have shown tremendouscapabilities in encapsulating information from images. However,deep convolutional networks cannot decouple the overlaid imageryand template imagery, and process the overlay as noise, when theoverlay in fact provides critical contextual information about themacro itself. This results in a loss of information from the macros,mapping most of them to the similar representation, which onlyamplifies as more overlays are made.In this study, we create an algorithm that first uses the idea of12260叠加类型0图1：一个样本图像宏（“Futurama Fry”）及其最常见的叠加。0稀疏表示用于识别每个图像宏中的模板图像，然后使用获得的模板从基础模板中解耦叠加信息。然后，我们继续从每个图像中提取多模态特征，从而得到丰富、信息丰富和稳健的特征表示。使用这个特征表示，我们在涉及社交媒体图像的几个定性和定量任务中展示了显著的改进，证明了我们的方法在概念和功能上相对于其他基线技术的优越性。在模板集事先未知的情况下，我们还提供了一种算法，可以根据图像的中值混合从一组样本宏中恢复模板图像。02 方法0我们的方法基于一个强烈的基本假设 -在线的模因图像包含大量的图像宏，这些宏是通过选择一个模板图像并在其上叠加文本和/或其他图像来构建的。我们在我们的公式中利用了这个假设。我们从算法描述开始介绍基本概念：目标集：我们的目标集T是我们希望嵌入到一个语义基础空间中的图像集合。在我们的实验中，通常是我们进行实验的数据集，从Memegenerator[17]或Quickmeme[16]等网站上获取的。我们使用这个图像集合来构建模板图像集合，按照算法2的步骤进行，然后用于稀疏匹配和特征提取。模板集：模板集S是没有叠加的图像集合，我们将目标集中的每个图像与之匹配，以获得解耦的图像宏表示。这个模板集可以事先提供，但如果没有，我们可以使用涉及稀疏匹配和中值混合的算法从目标集本身构建它。叠加类型：图1指定了模板图像上产生图像宏的典型叠加类型。最常见的叠加是使用白色字体的简单文本（如“文本叠加”部分所示）。还可以对颜色进行修改或添加图像，这属于“图像叠加”类别。此外，这两种叠加物可能同时存在，其图像属于“组合叠加”类别。我们通过对图像的对比度进行归一化来处理颜色的微小变化。我们的稀疏匹配算法的目标是获得任何样本图像宏所构建的模板图像。使用这个模板图像，我们可以将图像叠加从宏中解耦出来，并分别处理叠加和相应的模板，以解耦局部上下文（由叠加指定）和全局上下文（由模板指定）。02.1 算法概述0我们的任务可以概括为学习一个嵌入函数f：Rn→Rd，将图像映射到保留语义内容的低维嵌入。为了创建一个嵌入，我们的方法遵循以下三个不同的子程序：（1）叠加解耦：算法的第一步是识别和分离模板图像中的叠加内容。为了做到这一点，我们采用全局图像对比度归一化，然后进行以下步骤0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France12270通过ℓ1-稀疏重构，首次由Wright等人在面部识别的开创性工作中引入[56]。（2）图像特征提取：通过深度卷积神经网络（CNN）学习的图像特征在捕捉语义信息方面非常强大，并且在各种推理任务中表现出色[21]。为了捕捉图像的语义内容，我们使用在图像分类上训练的深度CNN，然后在我们的目标任务上进行微调。（3）文本特征提取：为了增加图像特征提供的信息，我们还使用光学字符识别（OCR）提取图像中的文本，并从这些文本数据中提取特征来增强我们的嵌入。为了学习这些文本特征，我们使用了深度循环神经网络[39]，受到自然语言处理领域中各种推理任务的巨大成功的启发[15，27，61]。在解耦叠加和多模态特征提取之后，我们将获得的文本和图像特征连接起来，以产生用于图像检索和目标模因图像聚类的强大嵌入，我们将在后面的实验中验证其表征能力。02.2 从模板中解耦叠加0我们方法的第一个子程序涉及将图像叠加与其生成的模板解耦。这可以通过简单的逐像素减法来完成，但是我们没有每个图像的源模板的先验知识，这使得第一个任务是从提供的测试图像中识别或匹配正确的模板图像。我们首先通过对图像进行全局像素均值归一化来规范化图像的颜色，以消除图像之间颜色上的轻微偏差。然后，我们将模板图像集合S和目标图像集合T中的每个图像都下采样到固定分辨率的48×48像素。将这些下采样集合分别称为Sd（模板集合）和Td（目标集合）。给定这些归一化、下采样的图像集合，我们现在描述稀疏表示算法。02.2.1稀疏表示。稀疏表示算法由Wright等人[56]引入，它提供了一个在训练样本位于子空间上的假设下进行推理的框架。因此，每个输入测试点可以被写成训练点的稀疏线性组合。如果我们将训练集视为下采样的模板模因图像集合Sd，并将测试集视为目标集合Td中的每个图像，我们可以将稀疏表示算法应用于将Td中的每个样本与Sd中的样本进行匹配。通过这个过程，我们可以有效地恢复出创建宏的原始模板，并将模板与叠加内容解耦。匹配：假设所有模板中的图像总数为m，并且第i类中的图像数为mi。因此，�ki=1mi=m。给定一组Sd，i中的mi个图像，表示为属于i类的矩阵[s1,i,...,smi,i]∈Rn×mi，任何新的目标样本y∈Td�Rn属于模板i，将近似地位于Sd，i的训练样本的线性空间中：0y = α1,is1,i + α2,is2,i + α3,is3,i + ... + αmi,i smi,i（1）0其中αi,j ∈ R。如果我们考虑所有类别的集合Sd =∪ki(Sd,i)，我们可以将每个类别的mi个样本的矩阵写为：0A := [Sd,1, Sd,2, ..., Sd,k] = [s1,1, s2,1, ..., smk,k]（2）0利用这一点，我们可以将所有训练样本的线性表示写为：0y = Ax0 ∈ Rn（3）0其中x0 = [0, ..., 0, α1,i, α2,i, ..., αmi,i, 0, ..., 0]� ∈Rm是一个系数向量，除了属于类别i的样本外，其余元素为零。根据[56]的建议，为了获得上述方程的最稀疏解，我们必须解决以下ℓ0优化问题：0ˆx0 = arg min ∥x∥0，满足Ax = y（4）0这相当于寻找一个系数向量ˆx0，其中包含最少数量的非零元素。这个问题在当前形式下是寻找欠定线性系统的最稀疏解，是NP难的，甚至很难近似解决[4]。根据[11, 22,56]的建议，在稀疏性的某些假设下，ℓ0最小化解等价于ℓ1最小化解。因此，我们解决以下问题：0ˆx1 = arg min ∥x∥1，满足Ax = y（5）0这相当于寻找一个系数向量ˆx0，其具有最小的ℓ1范数（Σmi=1|x(i)i|）。使用标准线性规划方法，可以在多项式时间内解决这个问题[12]。正如在[56]中详细描述的那样，该算法可以在存在严重遮挡（由图像上的叠加文本和/或图片提供）和大量随机噪声的情况下正确恢复训练类别。因此，该方法在我们的应用案例中非常理想。我们的算法在算法1中描述。我们首先计算：0算法1：稀疏表示模板匹配0输入：模板集Sd，目标集Td，阈值tr，不同模板的数量k 输出：匹配集Od01 设置Od ← �02 计算A ← [s1,1, s2,1, ..., smk,k]0304 ˆx ← arg min ∥x∥1，满足Ax = ti05 如果∥Aˆx − ti∥2 ≤ tr，则07 计算zc ← Σmcj=11{ˆxj,c > 0}08 结束09 设置z(i) ← [z1, z2, z3, ..., zk]010 计算ˆz(i) ← arg max(z(i))011 设置Od ← Od ∪ { s1, ˆz(i) }012 否则013 设置Od ← Od ∪ { ti }014 结束015 结束016 返回Od0我们的下采样模板和目标集分别为Sd和Td。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France(a)(b)(c)(d)(e)12280图2：从目标集示例中恢复模板图像“Willy Wonka”和“SuccessKid”的样本。我们展示了（a）0次迭代，（b）10次迭代，（c）20次迭代，（d）50次迭代和（e）100次迭代得到的模板。0并将输出集|mathbfOd设置为空集。对于目标集中的每个图像ti，我们首先计算稀疏表示权重x，如前所述。然后，使用稀疏表示的组成部分，我们继续评估每个模板类别样本的非零权重数量，并将其存储在变量zc中，用于模板类别c。由于稀疏表示的形式，我们发现只有匹配的模板类别具有非零分量。然后，通过选择具有最大非零稀疏权重数量的类别，将模板类别分配给模板。如果找不到匹配的模板（重建误差大于阈值tr，即∥Aˆx − ti∥2 >tr），我们将目标图像本身作为匹配的模板返回。一旦我们有了分配的模板图像s1, ˆz(i)，我们可以通过计算解耦叠加图像ti − s1,ˆz(i)来解耦模板。然后，我们可以进行解耦特征提取。该算法的一个注意事项是，它需要一个详尽的模板集来成功过滤图像。然而，在实际情况下，我们可能没有模板集S，这种情况下可以使用下一个算法从目标图像集T构建模板图像集S。模板集的创建：为了自动从目标集构建模板集，我们描述了一种利用图像处理中的中值混合概念的算法[59]。中值混合是图像处理中常用的一种技术，用于从多个噪声图像中获得稳定的图像。其核心思想是通过连续的中值混合来逐步增加模板集并改进模板。我们从一个空的预增强模板集Sd,t开始迭代目标集。对于第一次迭代，我们只需将输入图像本身添加到Sd,t中，因为我们的模板集为空。从这里开始，我们为每个模板ti维护一组模板图像Ut i（因此，对于第一次迭代，我们将第一个图像添加到Uti中）。对于每个后续图像，我们使用Sd,t计算稀疏系数sˆz(i)，如果输入图像与模板匹配（即使模板被破坏，稀疏表示也会确保稀疏匹配，我们通过重构误差∥Aˆx −ti∥2来评估），则将输入图像添加到与匹配的模板图像对应的图像集合（Usˆz(i)）。我们通过对与该模板对应的所有匹配图像集合中的所有图像进行混合来构建新版本的模板。这种混合是通过创建一个新图像，其中每个像素是所有图像中相应像素的中值来完成的。0算法2：模板集构建0输入：目标集Td，阈值tr，tb 输出：模板集Sd01 设置Sd,t ← �，Sd ← �02 对于图像ti在Td中03 设置Uti ← �04 设置cti ← 005 如果Sd,t = �，则06 设置Sd,t ← Sd,t∪{ti}07 设置Uti ← {ti}08 否则09 从Sd计算A（从算法1的第2步）010 ˆx ← arg min∥x∥1，subject to Ax = ti011 如果∥Aˆx−ti∥2≤tr，则012 从Sd计算sˆz(i)∈Sd（从算法1中）013 设置Usˆz(i) ← Usˆz(i)∪{ti}014 如果csˆz(i) = 0，则015 设置v ← PixelWiseMedianBlending(Usˆz(i))016 如果∥v−sˆz(i)∥2≤tb，则017 设置csˆz(i)=1018 设置sˆz(i) ← v019 否则020 设置Sd,t ← Sd,t∪{ti}021 设置Uti ← {ti}022 结束023 结束024 结束025 对于图像si在Sd,t中026 设置Sd ← Sd∪Augment(si)027 结束028 返回Sd0（称为PixelWiseMedianBlending）。对于每个输入图像，我们以类似的方式进行处理，直到新获得的中值图像与上一次迭代中的中值图像之间的误差很小（我们检查是否∥v−sˆz(i)∥2≤tb，如果是，则对图像sˆz(i)达到收敛，并设置csˆz(i)=1）。收敛后，我们不再改变模板图像。图2描述了中值图像随着迭代次数的增加而演变的过程。一旦我们通过了目标集中的所有图像，我们通过对每个模板图像进行随机翻转和裁剪（描述为“增强”过程）来增加生成的模板集。这样做是因为还从模板图像的翻转和裁剪版本中创建了几个图像宏，这种方法确保每个测试图像都正确地映射到一个模板。该算法在算法2中描述。02.3 图像特征提取0一旦我们完成了涉及解耦叠加的第一个步骤，我们就准备好提取包含在图像中的语义视觉内容的特征。在与网络和社交媒体相关的计算机视觉文献中，已经尝试了各种各样的图像特征[20, 24,32]。计算机视觉领域出现了一种共识，即极高的效率。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, Francetarget macro set (T)template set (S)Sparse Matchingx�matched templatedecoupled overlayOCRImage Feature Extractor (CNN)Text Feature Extractor(RNN or Word2Vec)oh you just graduated? you must know everything.Feature Representationtemplate image featuresoverlay image featuresoverlay text features12290图3：中央特征提取流程。0深度神经网络特征在捕捉分类和理解的语义内容方面的应用，如Donahue等人所述[21]。因此，我们继续使用深度神经网络模型进行所有图像特征提取。02.3.1卷积神经网络。卷积神经网络在各种计算机视觉任务中的广泛应用使其成为我们提取特征的默认选择。遵循计算机视觉的标准做法[20,24]，我们考虑在图像分类数据集ImageNet[19]上训练的神经网络模型，并且还考虑首先在ImageNet上进行训练，然后在病毒传播预测数据集上进行进一步微调的模型。02.3.2解耦特征提取。对于目标集T中的每个图像ti，我们从模板集中匹配的图像oi∈O中提取特征，然后计算差异图像di =ti−oi，并从该图像中提取特征，最后将这两组特征连接起来形成我们的最终特征向量vi。因此，0v i = [ f ( o i ) , f ( t i − o i )] (6)0这里，f()是一个将图像映射到多维语义特征向量的函数，并且是从CNN获取的。由于基本的文本或附加图像叠加将被CNN视为噪声，我们将两个组件分开并分别提取特征。这确保了属于同一基本模板的图像在语义空间中更接近。02.4 文本特征提取0由于大多数模因图像都具有叠加文本的修改形式，我们可以利用它们通过文本提取流程产生更强的表征。为此，我们首先运行光学字符识别（OCR）以获取图像中包含的文本（如果有）。随后，我们使用深度学习中的标准实践基于深度神经网络提取特征[40, 58, 60]。0光学字符识别：我们使用Tesseract[51]软件包进行OCR，并修剪多余的尾随文本。02.4.1Word2Vec汇聚。在这里，我们提取每个句子中存在的单词的word2vec [40]表示（遵循[41, 58,60]），为了生成最终的表示，我们对各个word2vec表示求平均。所使用的word2vec实现是GenSim [45]，维度为1000。02.4.2 Skip-Thought Vectors. Kiros等人[33]引入了Skip-ThoughtVectors，这是一种用于句子的通用编码方案。Skip-ThoughtVectors在各种句子分类任务上的巨大多样性使其成为句子嵌入创建的良好选择。为了提取skip-thought（ST）特征，我们只需将提取的文本提供给skip-thought模型，并提取倒数第二层的特征。如果在OCR阶段，我们在图像中找不到任何文本，则稍后将特征替换为目标集中该模板的所有图像上的平均文本特征，以最小化对最近邻检索和分类的影响。我们提供消融和比较研究，以评估上述两种技术在各种分类任务中的个体性能，并在实验部分总结了全面的结果。算法摘要：在图像校正和单独提取文本和图像特征之后，如图3所述，我们获得了一个信息丰富且灵活的特征表示，该表示在存在叠加文本和/或图像的情况下保留了语义内容。我们通过一系列实验来分析我们获得的表示的有效性，如下一节所述。03 评估 3.1 实验设置0为展示我们的表征对于模因图像的有效性，我们进行了各种定性和定量评估。在所有实验中，我们使用涉及NVIDIA TITAN的设置。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France12300图4：聚类中稀疏匹配的评估 - Silhouette Score的变化（左），Davies-Bouldin Index的变化（右）。0X GPUs，我们的实现使用PyTorch [43]和TensorFlow[2]框架完成。对于每个单独的语言和视觉模型，我们使用它们的公开可用权重和实现（我们使用GenSim[45]进行Word2Vec）。稀疏匹配技术有两个组成部分 -图像特征提取器（表示为I）和文本特征提取器（表示为T），给出了特征提取器选择的稀疏匹配（I，T）的结果。对于我们进行的每个实验，我们都会改变特征提取器以创建算法的不同变体，这些变体与（i）基准特征提取器，（ii）目标任务上的先前最先进算法，（iii）每个特征提取器以及（iv）两个特征提取器的简单组合进行比较，提供了详尽的比较技术集合。我们使用的CNN特征提取器是AlexNet[35]，VGGNet-16 [49]和ResNet-18[28]。正如我们的结果所示，更强大的图像特征提取器（ResNets和VGGNet-16）提供了一致更高的性能。我们任务的目标数据集是与模因图像相关的数据集，通常从Memegenerator、Reddit或Quickmeme等网站上获取。计算机视觉和计算社会科学界对理解此类图像产生了兴趣，我们使用了这些研究中使用的流行数据集，总共使用了5个测试拆分：（1）病毒图像数据集[20]：在[20]中介绍的病毒图像数据集是从Lakkaraju等人[36]在Reddit上收集的原始数据集中筛选出的一组病毒图像，为期4年。该数据集包含10,078个图像以及来自20个不同图像类别的病毒度量。该数据集包含3个测试数据拆分 -（i）病毒-完整（VCom），这是一组随机选择的图像对，（ii）病毒-对（VPair），这是一组图像对，其中一个图像来自最病毒图像的前250个，另一个图像来自最不病毒图像的前250个，以及（iii）病毒-随机对（VRPairs），这是一组图像对，其中一个图像是从最病毒图像的前250个中随机抽样，另一个图像是随机抽样的。我们使用预先确定的训练、验证和测试拆分。（2）Memegenerator数据集[17]：该数据集是从网站Memegenerator上爬取的模因图像集合，时间跨度为2013年6月27日至2013年7月6日，并附有每个模因的点赞数。总共有326,181个0图像，这是最大的模因数据集，我们随机选择70%用于训练，10%用于验证，20%用于测试。（3）Quickmeme数据集[16]：与Memegenerator数据集类似，该数据集从Quickmeme网站于2012年10月爬取。该数据集共有178,801张图像，我们同样使用70-20-10的训练-测试-验证划分。我们算法的最终产品是一种多功能且高效的特征表示，可能对涉及在线图像的多个推理任务有用，特别是那些通过社交媒体传播的任务，如模因。为了评估我们提出的算法的有效性，最自然的初始实验将是图像聚类和检索。一个常见的在线任务可以描述为“给定一个特定的测试图像I和图像集SI，SI中与测试图像I在语义内容上最相似的图像是哪些？”，这也是我们设计算法的第一个目标任务，并且为了评估我们的算法在这个任务上的性能，我们进行了三个单独的定性和定量实验，如下所总结：03.2 图像聚类和检索0聚类分析：检索任务的一个可总结版本是图像聚类任务-理解我们的特征表示如何嵌入图像空间。考虑到这些图像在语义空间中形成较小的子集，我们预期在嵌入空间中形成明显的聚类。由于我们的数据集中大多数情况下没有类别标签，为了评估聚类的质量，我们首先将我们的表示与现有的最先进和基准方法进行内部聚类度量的比较。轮廓系数（SS）和戴维斯-博尔丁指数（DBI）是两个常用的内部度量指标

下载后可阅读完整内容，剩余1页未读，立即下载