基于视觉变换器的无检测图像字幕生成模型ViTCAP及其语义概念注入

128 浏览量更新于2023-10-25 收藏 12.89MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

( ResBlocks or ViT )REG.FEAT.OD TAGSGRID FEAT.Concept Tokens( ViT/b )Feature MapsREG. OPE.Grid FEAT.Figure 1. Comparisons of different image captioning models.Top: A general image captioning pipeline. Bottom: (a). Prevailingconventional models [23, 36, 69] which are based on an objectdetector to extract regional features. Object tags [35, 69] can beoptionally used to assist the text generation through a multi-modaldecoder network. This usually requires regional operations (REG.OPE.) that are time consuming. (b). To eliminate the detectionmodule, a ResNet variant [20] or Vision Transformer [30] can beapplied as substitution to output the grid feature [61, 62]. Thisreplacement has been studied on the image understanding taskrecently but very few works focus on the generation task. (c). Ourproposed ViTCAP, which is detector-free and incorporates a novelConcept Token Network to predict semantic concepts as tokens forthe image captioning task.180090将语义概念注入端到端图像字幕生成0Zhiyuan Fang �，Jianfeng Wang �，Xiaowei Hu �，Lin Liang �，Zhe Gan �，Lijuan Wang �，Yezhou Yang�，Zicheng Liu �0� 亚利桑那州立大学，� 微软公司0{zy.fang, yz.yang}@asu.edu {jianfw, xiaowei.hu, lliang, zhe.gan, lijuanw, zliu}@microsoft.com0摘要0近年来，在改进图像字幕模型方面取得了巨大进展，但其中大多数依赖于单独的目标检测器来提取区域特征。最近的视觉-语言研究正在转向无检测器的趋势，通过利用网格表示进行更灵活的模型训练和更快的推理速度。然而，这样的发展主要集中在图像理解任务上，对于字幕生成任务的研究还较少。本文关注于一个性能更好的无检测器图像字幕生成模型，并提出了一种纯视觉变换器（VisionTransformer）的图像字幕生成模型，称为ViTCAP，其中使用网格表示而不提取区域特征。为了改进性能，我们引入了一种新颖的概念令牌网络（CTN），用于预测语义概念，然后将其融入端到端的字幕生成中。特别是，CTN是基于视觉变换器构建的，并通过分类任务来预测概念令牌，其中包含的丰富语义信息极大地有益于字幕生成任务。与之前基于检测器的模型相比，ViTCAP大大简化了架构，并在各种具有挑战性的图像字幕数据集上实现了竞争性的性能。特别是，ViTCAP在COCO-captionKarpathy-split数据集上达到了138.1的CIDEr分数，在nocaps和Google-CC字幕数据集上分别达到了93.8和108.6的CIDEr分数。01. 引言0图像字幕生成任务旨在从图像中生成可读的描述性文本。最近的研究在更先进的跨模态融合架构[11, 45, 50, 54, 57, 63,65, 67, 70]、更具表现力的以对象为中心的特征[4,69]和标签[16, 23, 35,58]以及从预训练的目标检测模型中获得的更多表达性特征方面取得了巨大的发展；或者学习0IMG0CTN0（a）（b）（c）0ENC0ENC0ENC0图像编码器0图像0特征0标签0（可选）0多0模块字幕0IMG IMG0IMG0从大型图像-文本语料库[16, 35, 58, 61, 62,71]中提取视觉和语言（VL）表示的最新进展。尽管取得了这些重大进展，但大多数主流的字幕模型[11, 45, 54,70]仍然严重依赖于庞大的目标检测器，以提供多模态交互的区域视觉表示，如图1-a所示。尽管目标特征带来了卓越的性能，但随之而来的困难包括：1）由于区域操作（即RPN、RoI池化和NMS），导致了沉重的计算负载。这些中间操作不可避免地导致训练效率低下和预测阶段的高推理延迟[30,58]；2）需要180100盒子注释在训练和应用中在很大程度上限制了灵活性。为了解决这些挑战，最近的一些工作提出以端到端的方式消除VL预训练中的检测器。在这种无检测器的设计中，一个通用的视觉编码器作为检测器的替代品，从中产生网格特征，用于后续的跨模态融合。迄今为止，这些工作的大部分主要集中在图像理解任务上，通常被视为一个分类问题，只有少数几个工作对生成任务进行了研究。在[62]中，图像使用ResNet进行编码，性能（在COCO数据集上的CIDEr为117.3）仍远远落后于基于检测器的最先进方法（使用VinVL-base的CIDEr为129.3）。如何构建一个更强大的无检测器图像字幕模型仍然是一个未知且不足够研究的挑战。以前的工作已经证明，对象标签在提高字幕性能方面起到了重要作用。我们引入了一种新颖的基于视觉Transformer的图像字幕模型ViT-CAP，其中包括一个轻量级的概念令牌网络（CTN），用于生成概念令牌。ViTCAP基于视觉Transformer作为图像编码器，首先对图像进行编码并生成网格特征，然后应用CTN分支来预测图像的语义概念。我们将语义概念表示为令牌级别，而不是标签级别，以避免标记化。多模态模块接受网格表示和Top-K概念令牌的输入进行解码。在训练过程中，CTN通过一个简单的分类任务来优化，以预测从图像字幕中提取的伪标签概念。我们还尝试采用来自检测器的对象标签作为伪标签，经验证观察不到进一步的改进。总体而言，这种简单直接的设计允许将语义概念注入到多模态融合模块中，具有丰富的语义信息，对于改进字幕性能至关重要。我们的剖析分析表明，简单的基于Transformer架构的ViT-CAP在没有任何花哨的技巧下：1）明显优于现有的无检测器字幕模型；2）超过大多数基于检测器的模型；3）接近最先进的基于检测器的模型。特别地，ViTCAP在COCO-caption Karpathysplit数据集上获得了138.1的CIDEr分数，在Google-CC数据集上获得了108.6分，在nocaps数据集上获得了95.4分。总结我们的贡献：0•我们提出了一种无检测器的图像字幕模型ViT-CAP，完全采用Transformer架构，利用网格表示而无需区域操作。0•我们提出通过学习开放式字幕来将语义概念注入到端到端字幕中。我们发现，我们提出的概念分类训练和概念令牌对字幕任务有显著的益处。0•在多个字幕数据集上进行了广泛的评估，验证了我们方法的有效性。ViTCAP在推理时间上具有明显的优势，在基于检测器的先前方法中取得了竞争性甚至领先的结果。02. 相关工作0图像字幕旨在生成一个开放式和可读性强的文本描述，概括图像的内容。大多数先前的字幕模型一致地使用基于检测器的视觉编码器（如Faster-RCNN）提取视觉特征，并应用RNN、LSTM或Transformer等解码器进行字幕生成。图像字幕的现有工作从新颖的架构、更有效的学习目标或大规模VL预训练等角度进行反映。一些最近的工作得出了一个经验性的结论，即强大的物体检测器是必要的，为对象提供干净、明确的区域特征。Li等人的研究表明，检测器输出的对象标签在跨模态的VL任务中起到了关键的定位点的作用。因此，[69]提出采用强化的检测器来获取区域特征和扩展的对象标签，涵盖实体和属性，用于VL任务。然而，物体检测器阻碍了VL模型在边缘设备上的部署，因为边缘设备以其推理速度慢而闻名。几个最近的工作构建了高效的VL模型，要么通过优化物体检测器以提高特征提取速度，要么采用非检测器图像编码器。例如，MiniVLM首先提出了基于EfficientNet的轻量级检测器。[26]重新审视了用于VQA任务的网格特征，具有出色的性能和快速的推理速度。[14, 25, 30, 61,62]也采用了这种无检测器的设计，并使用ResBlocks等架构进行图像编码。另一方面，DistillVLM引入了VL蒸馏，为小型Transformer架构的VL预训练和微调提供便利；[18]提出了修剪Transformer架构的方法，并表明在50%至70%的模型稀疏度下可以保持接近的性能。03. ViTCAP0现有的图像字幕模型通常由一个对象检测器模块（Detector）和一个多模态模块（MM）组成，用于从原始图像（I）中提取区域特征（vT）并生成文本描述（c）。最近的几项工作[35,69]表明，从检测器提取的对象标签（tT）可以作为跨模态的锚定点，并且对于各种视觉语言任务至关重要。该过程可以表示为：…180110Transformer块。0Transformer块。0Transformer块。0线性投影。0概念标记。0网络。0干扰图像编码器。0分类层。0Transformer块。0Transformer块。0Transformer块。0[S]0人们正坐在[MASK]上。0� !"0多模态模块。0� "#$0特征提取器。0伪概念GT：“拉布拉多犬，年轻人，长凳，草地，树，帽子”0连接。0Transformer块。0Transformer块。0Transformer块。0Transformer块。0Transformer块。0Transformer块。0嵌入层。0图像块。0分类层。0图2.我们提出的ViTCAP图像字幕模型的架构。ViTCAP是一种基于视觉Transformer的无检测器图像字幕模型，其中图像块被编码为连续嵌入作为网格表示。CTN分支源自图像编码器的一个中间块，是一个浅层Transformer架构（例如4个自注意力块）。CTN通过使用来自TeacherVLM的检测器的伪标签和从图像字幕中解析出的关键词作为语义概念的真值进行分类任务训练。在生成字幕时，CTN生成的语义概念词汇中的概念标记然后与网格表示连接，并输入多模态模块进行解码。最佳观看效果为彩色。0可以表示如下：0（vT，tT）=Detector（I），c=MM（vT，tT）。（1）0一些视觉语言模型[25, 30,62]通过使用不带区域操作的通用图像编码器在推理速度上取得了很大的改进。然而，由于缺乏检测器，这些模型无法利用图像标签。在这项工作中，我们旨在构建一个不需要检测器的带有包含丰富语义的概念标记的字幕模型，这些概念标记来自于一种新颖的概念标记网络（CTN）。ViTCAP的概述如图2所示。原始图像首先被输入图像编码器，生成中间表示（vi）和最终的网格表示（v）。然后，CTN分支以vi作为输入，预测概念标记（t），接着是多模态模块，允许跨模态的交互并生成字幕（c）。我们在所有模块中采用完全Transformer[55]框架，但图像编码器和CTN模块不是特定于架构的。整体流程可以总结如下：0（vi，v）=Encoder（I），t=CTN（vi），c=MM（v，t）。（2）0接下来，我们首先介绍视觉Transformer如何生成网格表示和我们在第3.1节中提出的CTN，以及第3.2节中的整体训练损失。03.1. 模型结构0视觉Transformer。Transformer架构及其实例化（例如BERT [12]，GPT[7]）以其在自然语言处理任务上的出色性能而闻名，这主要归功于自注意力机制。0设计。最近的研究将其推广到视觉任务，即VisionTransformer（ViT）[13]。我们使用ViT作为图像编码器的骨干，以生成网格表示（vi和v）。具体而言，原始图像I∈RH×W×3被分割成N个不相交的补丁。每个补丁的大小为P×P×3，补丁的数量N为(HW)/P2。然后，这些补丁被展平并通过可训练的线性投影层投影到维度为d的补丁嵌入中。这些补丁表示与特殊的[CLS]标记连接，然后与可学习的位置嵌入相加，然后发送到M个连续的transformer块中。为此，我们使用最终表示作为网格特征v，并提取第M1个块的输出作为中间表示vi，这是概念预测的Concept TokenNetwork的输入，如下所述。0概念标记网络。概念标记网络（CTN）由M2个transformer块组成，用于处理中间特征vi。与[CLS]对应的输出表示用于通过多线性感知（MLP）网络预测概念标记。概念标记的词汇与字幕使用的词汇相同。值得注意的是，我们在标记级别而不是标签级别上预测概念，因此前K个（在我们的实验中K=50）标记可以直接由多模态解码模块用于自回归解码。在[35,69]中，对象标签是从对象检测器中预测的，而我们消除了检测模块以消除对框注释的依赖。另一个区别在于标签/概念词汇。现有方法将数据集中的标签列表应用为词汇表，而我们的方法则共享了与字幕相同的概念标记词汇表，并且省略了标记化步骤。Lvc = Evi∼Dfθ(p | vi),(3)fθ(p | vi) = 1KK�k=1�(1 − pk)γ+ · log(pk),+,pγ−k· log(1 − pk),−,(4)Lcap = −ET ∼D�log�ˆct∼CMPθ( ˆct|c0.2的图像标签，每个图像最多获取50个标签。对于分类训练，模型从ImageNet-21k [32]预训练检查点1初始化，并使用AdamW[48,68]优化器进行10个时期的优化。批量大小为1024，初始学习率为5e-5，并线性衰减到0。0•字幕训练。为了联合优化，我们在概念分类后应用经过良好训练的模型来初始化Stem ImageEncoder、CTN和特征提取器。特征提取器中的初始权重是从CTN分支复制过来的，因为网格特征提取器的架构与CTN分支相同。我们设置基础学习率lr =1e-4，批量大小batch-size =512，并使用AdamW优化器训练模型30个时期，设置权重衰减weight decay = 0.05。0评估。我们使用包括BLEU@4 [46]、METEOR [5]、CIDEr[56]、ROUGE [37]和SPICE[3]在内的流行指标评估生成字幕的质量。在推理过程中，我们使用束搜索（束大小=1）进行解码。存在许多评估生成字幕质量的指标，包括Self-CIDEr [59]、SMURF[17]以及从不同方面的指标[21, 27,60]。在附录中，我们使用SMURF[17]指标进行了更多研究，以研究我们生成的字幕的用词质量。04.3. 主要结果0我们对ViTCAP与先前的方法进行了广泛比较。表1展示了在MSCOCO数据集上的字幕结果，其中模型是使用交叉熵损失训练或使用CIDEr作为奖励进行优化的[50]。我们将ViTCAP与以下模型进行比较：1）“无VLP的检测器”模型，具有复杂的架构修改。这些模型[11, 24, 45,70]都具有沉重的计算负担和额外的可学习参数。2）“带VLP的检测器”：基于检测器的VL模型，使用大规模VL语料库进行预训练，然后在图像字幕任务上进行微调。3）“无检测器”方法：端到端可训练的方法。01 https://github.com/lucidrains/vit-pytorch .180140方法 V. ENC. # I-T 交叉熵损失 CIDEr 优化0B@4 M R C S B@4 M R C S0Detector w.o. VLP RFNet [28] Ensemble � 35.8 27.4 56.5 112.5 20.5 36.5 27.7 57.3 121.9 21.20BUTD [4] F-RCNN 101 � 36.2 27.0 56.4 113.5 20.3 36.3 27.7 56.9 120.1 21.40LBPF [66] F-RCNN 101 � 37.4 28.1 57.5 116.4 21.2 38.3 28.5 58.4 127.6 22.00SGAE [65] F-RCNN 101 � 36.9 27.7 57.2 116.7 20.9 38.4 28.4 58.6 127.8 22.10M 2 Transfm. [11] F-RCNN 101 � - - - - - 39.1 29.2 58.6 131.2 22.60X-LAN [45] F-RCNN 101 � 38.2 28.8 58.0 122.0 21.9 39.5 29.5 59.2 132.0 23.40RSTNet [70] RESNeXt 152 � - - - - - 40.1 29.8 59.5 135.6 23.30无检测器 w.o. VLP ViTCAP（我们的）ViT b � 35.7 28.8 57.6 121.8 22.1 40.1 29.4 59.4 133.1 23.00Detector w. VLP UVLP [71] F-RCNN 101 4 M 36.5 28.4 - 116.9 21.2 39.5 29.3 - 129.3 23.20MiniVLM [58] Eff-DET 14 M 35.6 28.6 - 119.8 21.6 39.2 29.7 - 131.7 23.50DistillVLM [16] Eff-DET 7 M 35.6 28.7 - 120.8 22.1 - - - - -0OSCAR b [35] F-RCNN 101 7 M 36.5 30.3 - 123.7 23.1 40.5 29.7 - 137.6 22.80UNIMO b [34] F-RCNN 101 9 M 38.8 - - 124.4 - - - - - -0VL-T5 [10] F-RCNN 101 9 M - - - 116.5 - - - - - -0VinVL b [69] RESNeXt 152 9 M 38.2 30.3 - 129.3 23.6 40.9 30.9 - 140.4 25.10无检测器 w. VLP ViLT-CAP � ViT b 10 M 33.7 27.7 56.1 113.5 20.9 - - - - -0E2E-VLP [62] ResNet 50 6 M 36.2 - - 117.3 - - - - - -0ViTCAP �（我们的）ViT b 10 M 36.3 29.3 58.1 125.2 22.6 41.2 30.1 60.1 138.1 24.10表1. COCO-caption Karpathy split[29]上的性能比较，其中B@4，M，R，C分别表示BLEU@4，METEOR，ROUGE-L，CIDEr和SPICE分数。所有值都以百分比（%）报告。我们将ViTCAP与之前最先进的基于检测器的基线（不包括VLP）进行比较，第三部分是基于检测器的基线（具有大规模预训练），最后一部分是具有预训练的无检测器方法。V.ENC.表示用于特征提取的视觉编码器；＃I-T指的是用于预训练的图像-文本对的数量（以百万计）。ViTCAP�是ViTCAP的一个更大版本，具有更多的参数。�是我们使用ViLT [30]预训练的图像字幕任务的结果（有关更多解释，请参见附录）。0没有对象检测器的图像字幕模型（有或没有预训练）。没有VLP。为了与没有VLP的基于检测器的基线进行公平比较，我们采用VinVL标签作为概念来源，而不是标题，以确保在概念分类训练期间没有使用额外的标题。请注意，此实验不应用知识蒸馏目标，因为它会从Teacher模型的预训练中引入额外的知识。在COCO-caption Karpathysplit上，我们的ViTCAP使用提取的标题概念实现了类似的结果，甚至超过了大多数现有的基于检测器的方法，即CIDEr分数121.8。值得一提的是，大多数现有的基于检测器的方法的架构是经过精心设计的，例如X-LAN [45]中的自注意模块有第2个0多模态输入的交互，M 2 Transformer[11]具有图像区域之间关系的多级表示，等等。ViTCAP采用了最简单的纯Transformer架构，没有任何花哨的东西。这证明了我们提出的学习范式的有效性。0后面的剥离研究全面探索了CTN和知识蒸馏技术的好处。使用VLP后，我们观察到ViT-CAP在大规模预训练后有明显的性能提升（3.0更高的CIDEr分数），优于大多数基于检测器的VL方法：例如，125.2 vs. 123.7（OSCARb），比UNIMOb高0.8，比VL-T5高8.7，当它们在相似的VL语料库上进行预训练时。其他指标的结果进一步支持了这个结论。ViT-CAP接近于最先进的方法，仅比VinVL在CIDEr分数上低2.3分，考虑到VinVL使用了基于ResNeXt152的对象检测器。与无检测器的基准方法相比，ViT-CAP在性能上超过了所有现有的方法，有明显的差异：比ViLT-CAP [30]高11.7分的CIDEr分数，比E2E-VLP [62]高7.9分。04.4. 剥离研究0我们现在从不同的方面全面研究ViT-CAP的性能提升，即知识蒸馏、概念标记的影响以及大规模预训练。180150概念来源 COCO Captioning0B@4 M R C S0� 33.9 27.8 56.4 114.8 21.30BUTD [4] 35.0 28.2 56.9 117.4 21.30VinVL [69] 35.6 28.6 57.4 119.7 21.80CAPTION 35.6 28.7 57.6 120.9 21.80VinVL → CAP. � 35.9 28.6 57.6 121.3 21.90CAPTION � 35.7 28.8 57.6 121.8 22.10表2.采用不同的语义概念来源会导致不同的性能。“CAPTION”表示从开放式标题中提取关键词的基准方法；“�”是使用标题中的所有单词作为目标概念的基准方法；“BUTD”和“VinVL”分别表示使用[4]和[69]中的目标对象标签作为目标语义概念。“VinVL →CAP.”表示在概念分类的第一阶段采用检测器标签[69]，在第二阶段使用标题提取的标签。0语义概念来源。我们研究了不同的语义概念来源的影响，即来自对象检测器[4,69]、从标题中提取的概念以及它们的组合。表2列出了ViT-CAP在COCO标题数据集上使用不同语义概念来源时的性能。开放式标题是直接获取语义概念最容易的来源，尽管这些描述有时会有噪声、不准确和不完整。“CAPTION”在表2中是使用NLTK[41]工具包从标题中解析的名词和形容词作为目标概念的结果。这相对于没有CTN的基准方法有明显的改进：CIDEr120.9 vs.114.8。我们还尝试使用标题中的所有标记作为概念目标，以防止在解析过程中遗漏关键词（见“CAP.�”），这带来了进一步的增量改进并产生了最佳结果。尽管在标题中使用所有标记可能不可避免地引入更多的噪声或无关的词，例如连接词和停用词，但它也扩大了语义概念词汇，因为仅使用关键词可能会错过一些罕见的实体/属性。然后，我们尝试使用[69]和[4]中的检测器生成图像级标记作为目标概念。我们观察到使用VinVL的检测器比BUTD获得更好的性能，即119.7 vs.117.4的CIDEr分数。这主要是因为[69]中涉及的语义概念集合比BUTD[4]更多样化。倒数第二行是实验，模型首先在大规模数据集上使用VinVL标记进行训练（第一阶段），然后在第二阶段使用标题标记进行标题生成。这表明，当无法获得标题时，利用检测器生成的标记来提高性能也是可行的。不同模块的影响。在表3中，我们详细展示了每个设计的独立性能提升，即0方法交叉熵损失 B@4 M R C S0ViT/B 33.9 27.8 56.4 114.8 21.30ViT/B + KD 35.4 28.5 57.5 120.0 21.70ViT/B + CTN-TAG 35.2 28.0 57.0 117.1 21.40ViT/B + OD-TAG 34.3 28.2 57.4 117.4 21.70ViTCAP + CTN-TOK 35.7 28.8 57.6 121.8 22.10ViTCAP + CTN-TOK + PRE + KD 36.3 29.3 58.1 125.2 22.60表3.ViTCAP在知识蒸馏、大规模预训练和CTN的情况下进行比较。性能是基于交叉熵损失优化的COCO字幕Karpathy分割报告的。+OD-TAG表示使用检测器生成的现成标签[35]的结果。+CTN-TOK是ViTCAP在第一阶段概念分类后初始化的结果。KD和PRE分别是通过掩码标记分类蒸馏和规模预训练获得的结果。0包括概念标记、掩码标记蒸馏损失、预训练以及它们的组合与否。我们报告了基线模型在COCO字幕数据集上达到的CIDEr分数114.8。为了独立评估概念标记的性能提升，我们首先解码图像级语义概念，并将其作为字幕任务的离线标签存储。然后，我们按照[35]的方法对其进行标记化，并将标签嵌入与视觉特征进行拼接，用于字幕任务。这使我们能够直接比较CTN生成的概念与检测器标签的效果，而无需进行概念分类初始化。采用CTN预测的显式标签明显改善了性能：CIDEr得分提高了2.3，BLEU@4得分提高了1.3，达到了直接使用VinVL的检测器标签的相似结果（参见ViT/B+OD-TAG）：117.4 vs. 117.1CIDEr分数。这证明我们生成的语义概念在字幕任务中起到了重要作用，并且与VinVL的检测器标签具有类似的效果。接下来，我们将概念分类的预训练权重应用于初始化ViT-CAP进行字幕任务，并取得了进一步的改进（参见ViTCAP+CTN-TOK）。这证明了预测的概念标记和概念分类训练对字幕任务都是有益的。对于知识蒸馏实验，我们使用在COCO字幕数据集上优化的VinVL-base[69]作为教师模型，并在蒸馏过程中保持其冻结。在掩码标记预测上应用KD（ViT/B +KD）也明显有帮助：相对于基线模型，CIDEr分数提高了5.0以上。请注意，KD目标仅应用于ViTCAP基线在VLP之后的下游任务，以便与之前的工作进行公平比较。最后，通过持续使用大规模VL语料库对ViTCAP进行预训练对结果有所贡献。在其他基准测试上的性能。为了评估ViTCAP的泛化能力，我们继续将测试集扩展到其他具有挑战性的字幕基准数据集，即Google-CC [52]和nocaps[1]数据集。对于Google-CC数据集，180160方法 CC-3M开发集0FRCNN [8] 89.20Ultra [8] 93.70ViLT-CAP [30] � 83.80VinVL [69] � 103.40CC- 3 M [9] 100.90CC- 12 M [9] 105.40ViTCAP 108.6 +3.20表4.ViT-CAP模型在概念字幕（Google-CC3M开发集）[52]基准上的性能。我们与基线方法FRCNN [8]、Ultra[8]和[9]进行比较。ViLT-CAP�和VinVL代表我们使用[30]和[69]的预训练检查点复现的结果。0nocaps验证集0在领域内、接近领域和领域外的方法总体0C S C S C S C S0人类 84.4 14.3 85.0 14.3 95.7 14.0 87.1 14.20UpDown [1] 78.1 11.6 57.7 10.3 31.3 8.3 55.3 10.10UpDown + CBS 80.0 12.0 73.6 11.3 66.4 9.7 73.1 11.10UpDown + ELMO + CBS 80.0 12.0 73.6 11.3 66.4 9.7 73.1 11.10OSCA

下载后可阅读完整内容，剩余1页未读，立即下载