多模态转换器：跨模态系统提取视觉信息以提高语言理解

88 浏览量更新于2023-12-01 收藏 780KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文“一个有翅膀的面具在天空中翱翔。“”（《古兰经》13：14）“真主在天空中创造了一个美丽的弧线。XDBERT：从跨模态系统中提取视觉信息到BERT以提高语言理解徐灿扬1，2，李弘毅1，曹宇21国立台湾大学2中央研究院{r09946011，hungyilee}@ntu.edu.tw，yu.citi.sinica.edu.tw摘要基于转换器的模型被广泛应用于自然语言理解（NLU）任务，多模态转换器在视觉语言任务中一直是有效的。本研究探索从预训练的多模态变换器提取视觉信息，什么是鸟？伯特鸟语言编码器。我们的框架受到跨模态编码器在视觉语言任务中的成功的启发，同时我们改变学习目标以迎合NLU的语言重特性。经过少量额外的自适应步骤和微调的训练后，所提出的XDBERT（跨模态蒸馏BERT）在一般语言理解评估（GLUE），对抗生成（SWAG）基准测试和可读性基准测试中优于我们分析了 XDBERT 在GLUE上的性能，以表明这种改进可能是视觉上的。1介绍基于转换器的模型广泛用于自然语言理解（NLU）任务，一些突出的预训练策略包括BERT （ Devlin et al. ， 2019 ）， RoBERTa（Liu et al. ，2019），ALBERT（Lan et al. ，2020年）和ELEC-TRA（Clark et al. ，2020）。尽管它们在策划学习目标方面存在差异，但它们都只使用基于文本的数据集。然而，在现实世界中，人类在从语言中获取知识时可以从视觉模态中受益;一个明显的例子是学习视觉基础的单词，如颜色和形状。一些研究已经成功地在NLU中使用了基于视觉的信息。ViCo（Guptaet al. ，2019）学习文本中的视觉同现，并报告在单词类比问题中表现优于 GloVe 。 Zhang et al. （ 2020 ）和Huang et al.（2020）使用图像来提高有监督和无监督的图一：人类可以回答完形填空题，将单词与图像进行匹配，并通过神经网络模拟单词的多视图。BERT擅长于掩码词重建，而CLIP（第3节）则专注于图像-文本匹配。这两种模式具有不同的概念搭配，这激励了两个系统的联合学习。设置 . Tan 和 Bansal （ 2020 ）报告了 NLU 上BERT的改进，提出了语音化的概念。另一个研究分支专注于解决多模态下游任务，如视觉问题回答和图像检索。 Li等人（2019）; Lu et al.（2019）; Su et al.（2020）;Li et al.（2020）训练了视觉文本转换器，而LXMERT（Tan和Bansal，2019）对文本和图像使用了不同的编码器以及一个跨模态编码器。Tan和Bansal（2020）用一般语言理解评估测试了这些模型（ GLUEWangetal.（2018）），并发现性能不超过使用BERT（附录A），得出的结论是，视觉和语言预训练的视觉接地语言数据集未能提取有用的信息，为一般 NLU 。 CLIP （ Radford et al. ，2021）利用对比度损失达到SOTA的零拍摄图像分类检索的方式。在这项工作中，我们建立了预先训练的多模态转换器和视觉接地语言学习之间的联系。我们想出一个办法从预训练的多模态Transformer（CLIP文本转换器，缩写为CLIP-T）的组件中提取视觉信息，夹arXiv：2204.07316v1 [cs.CL] 2022年4月+v：mala2277获取更多论文.Σ/语言转换器（BERT/ELECTRA），将单词的通用感知纳入模型（图1）。使用一个视觉接地的文本转换器作为教师，使我们能够实现直接和非模糊的适应任务的蒸馏。我们表明，CLIP-T输出近似于视觉特征是合乎2.2），而且CLIP-T的语言能力也很低（第2.2节）。3），以证明提取的信息主要是视觉的，因此对于预训练的语言Transformer来说是重要的，尽管具有文本输入。在方法上，我们使用Tan和Bansal（2019）启发的交叉模态编码器结构，将两个模型连接起来，并进一步调整集成以进行一些额外的在适应预训练BERT时，由于Devlin等人的声明，我们倾向于文档级语料库（wiki103）而不是视觉语言语料库（ MSCOCO ）。（2019） 1以及Tan和Bansal（2020）的结果（附录A）。自适应任务是联合掩蔽语言建模（MLM）、相同句子预测和CLIP标记分类任务，这些任务是BERT预训练任务的替代，以迎合NLU的语言重特性我们进行了消融研究，以证明每项任务都能提供改善（第5节）。在微调过程中，我们对自适应后的语言编码器XDBERT我们通过对GLUE进行微调来评估模型的语言能力，对抗世代的情况（SWAG（Zellers et al. ，2018））基准和可读性基准2.由此产生的XDBERT优于预训练的BERT，证明我们的适应策略将有用的视觉知识提取到BERT中（图2右侧）。我们提供的分析表明，改进是视觉接地。我们将我们的贡献总结如下：• 我们探索将视觉信息从预训练的多模态Transformer 提取到预训练的语言Transformer并提高NLU性能。• 我们的自适应方法是有效的，可扩展到不同的预训练语言编码器（BERT/ELECTRA）的组合。1“为了提取长的连续序列，使用文档级语料库而不是像BillionWord Bench-mark这样的混洗的文档级语料库是至关重要的2https://www.kaggle.com/c/commonlitreadabilityprize2该方法训练过程包括三个阶段：预训练、适应和微调（图2）。我们提出的方法侧重于预训练模型的适应阶段，因此预训练不是我们实验的一部分，但我们解释了所有三个阶段的完整性。自适应阶段结合了跨模态Transformer结构，以共同从CLIP-T和BERT输出中学习。2.1模型架构交叉模态Transformer（图2中间）由交叉模态编码器、CLIP-T和BERT组成。CLIP-T具有与BERT相同的模块连接，仅参数不同（规范见附录B）。交叉模态编码器由重复的交叉模态编码器层组成，这是对图3中的单模态编码器层（BERT/CLIP-T层）的扩展。添加的交叉注意模块遵循注意力公式（Vaswani et al. ，2017年）：注意力输出=softmaxQKT/DV（一）然而，对于D维的查询（Q）、键（K）和值（V），Q是从K和V之外的模态生成的。我们选择交叉模态编码器层的数量为2。2.2预训练BERT使用下一句预测和掩蔽语言建模进行训练CLIP是一个图像-文本匹配系统，具有两个组件，文本编码器（CLIP-T）和图像编码器（CLIP-ViT），其学习通过对比度损失将成对输入编码为更接近的输出嵌入经过训练的表示具有以下属性：cos（Hi，Vi）>>cos（Hi，Vi）（i/=j）（2）其中，Hi是Xi的CLIP文本编码器输出，并且Vi是Yi的CLIP图像编码器输出。的文本图像输入（Xi，Yi）是成对的，并且每个（Xj，Y（k）（j=k）是一个非对。由于Hi和Vi是归一化的，并且长度为1，因此Hi可以用来近似Vi 。 Hi 和 Vi 的相似性也显示在 Tewel 等人（2021）发现的多模态算术特性中。因此，我们使用CLIP文本编码器输出来近似CLIP图像编码器输出，以进行简单的自适应过程。+v：mala2277获取更多论文NSP MLM[2000年]根据维基百科…对比损失维基百科标识预培训夹TViT夹BER不匹配联合MLM CLIP令牌分类[14176] 2000年的一个月交叉模态编码器伯特夹T[101 2429103 16948...]【49406 4717 53114176……】Ada p tation根据维基百科.下游任务分类真伯特XDBERT她投了自己的票。微调图2：在我们的实验设置中，transformers从左到右经历了训练过程的三个阶段。预训练阶段预训练BERT和CLIP-T，然后将两者用于自适应阶段，并与交叉模态编码器连接。微调仅在语言编码器（XDBERT）上执行;在这种情况下，正在处理正CoLA示例以确定其语言可接受性。ViT代表VisionTransformer（Dosovitskiy et al. ，2021），并且输入id 103是BERT中的[MASK]令牌。2.3适应我们定义了三个适应任务，可以以自我监督的方式学习，如图2所示。在这些任务中，BERT和CLIP-T分别将句子A和B作为输入，并根据BERT输出和CLIP-T输出计算损失我们的适应任务密切遵循BERT文本预训练策略，以保持语言能力。与预训练不同，自适应在计算上是便宜的，因为我们发现在wiki103上训练1个epoch已经有效。更多培训详情见附录C。2.3.1联合掩蔽语言建模（MLM）MLM目标教导模型重构掩码令牌。掩蔽比率和掩蔽令牌替换概率遵循 De-vlin et al.（2019）。由于CLIP中没有[MASK]标记的等价物，因此我们保持句子不变。2.3.2同句预测（MATCH）图像-文本匹配（ITM）目标广泛用于多模态学习（Tan和Bansal，2019）。我们将此目标修改为相同的句子预测，因为我们模型的两个流都将文本作为输入。当选择BERT和CLIP-T的输入sentences时，我们使输入在50%的时间内不相同。[CLS]上的二元分类器区分这两种情况。这促使[CLS]输出对句子相关信息进行跨模态编码器层单模态编码器层K、V交叉-Q、K、V 自-注意力attention前馈Q图3：单模态编码器层（蓝色）和跨模态编码器层（绿色）2.3.3CLIP代币分类这是在完整模型的CLIP-T端完成的MLM目标，省略了掩码部分，因为CLIP没有掩码令牌。与传销一样，15%的代币是随机选择用于重建的。我们在附录的第5节和第9节中讨论了模型学习到的微不足道的2.4FinetuningFinetuning遵循De-vlin等人（2019）中描述的方法，并且仅应用于语言编码器（XDBERT），因此参数的数量保持等于预训练BERT。3实验结果我们在三个NLU基准上评估了我们的模型我们在三种不同的语言编码器上测试了我们的自适应策略，包括BERT-base，ELECTRA-base和ELECTRA-large。我们固定了模型之间的微调参数，并选择+v：mala2277获取更多论文RTEMPRCSTSB可乐sST2QNLIQQPMNLISWAG阅读↓夹T51.6276.2022.0725.41––––––BERT-b66.4387.3888.6456.5292.4690.9289.5184.3581.0–XDBERT-b69.3188.0289.3257.5592.7891.5289.5784.7581.35–ELECTRA-b78.7089.4990.7766.0994.592.6990.2988.2388.60–XDELECTRA-b80.5190.5591.0466.7695.2093.0390.488.7588.73–ELECTRA-186.6491.5391.8869.2796.9094.7891.3490.9992.460.685XDELECTRA-187.7392.1291.9770.9897.3694.9391.2991.0292.590.635表1：测试集（READ）和开发集（GLUE，SWAG）上的NLU任务结果。结果是使用不同随机种子的5次运行的中值（在RTE上运行9次）。BERT-b 是Devlin 等人（2019）的BERT-base-uncased模型，而XDBERT-b 是图 2 右侧所示的拟议模型。ELECTRA-b 和ELECTRA-l 分别指 Clark 等人（ 2020）的ELECTRA-base模型和ELECTRA-large模型。READ（可读性基准）使用RMSE损失作为评估指标。多次运行。微调的详细信息见附录C。表1示出了实验结果。我们的每个XD模型都不断优于原始编码器（为了公平比较，我们用wiki103的一个epoch训练原始编码器）。我们发现，在较小的数据集（ RTE ， MRPC ，STSB，CoLA）上，性能增益更显着，这表明当训练数据量有限时，视觉特征有助于提高泛化能力在可读性基准（READ）上的收益也很显著。我们发现单独对GLUE微调CLIP-T的结果并不好。由于CLIP-T模型的语言能力较弱，因此XD-BERT/XDELECTRA获得的提取信息主要是视觉信息。也可以在适配之后微调整个交叉模态Transformer。性能进一步提高，但该模型具有更多的参数。结果见附录C.3。4分析为了证明使用交叉模态编码器的合理性，我们首先对词嵌入进行了成对投影加权典型相关分析（PWCCA）PWCCA是确定两个向量组的分布彼此接近程度的良好度量表 2 中的PWCCA 结果示出了在共同训练之前BERT/CLIP和ELEC_TRA/CLIP的低分数，因此交叉模态编码器在从两种分布学习中是有用的。我们详细检查了5次运行的RTE、MRPC和CoLA结果，结果表明，CLIP的视觉信息可能是改善的原因。T.在5次运行中，XDBERT-b累积了比BERT-b多38个正确分类，或+2.74%（38/5/277）的性能提升。MPRC系统PWCCABERT/ELECTRA 0.5498BERT/CLIP 0.4980ELECTRA/CLIP 0.4645BERT/RANDOM 0.3569表2：不同系统组合的PWCCA结果。随机表示从均匀分布生成的嵌入。1.00.80.60.40.20.0RTE MRPC CoLA图4：RTE、MRPC和CoLA条目的特征分析，按XDBERT-b和BERT-b之间的性能差异分类。绿色加符号表示平均值。基于视觉的比率估计遵循Tan和Bansal（2020）。和CoLA分别显示出+0.3%和+0.9%的准确度增益，并转化为其原始度量的更大性能增益（ MRPC F1 ： +0.83% ， CoLA Corr ：+2.2%）。然后，我们将每个胶水数据集条目分为两类：XDBERT-b在BERT-b上改进分类的条目，以及相反的条目。如果两个模型获得相同的性能，则将其放在一边。将分离的条目作为一个整体进行分析，我们发现表现更好的条目具有更大的视觉接地比（图4），因为改进样本的四分位数、中位数和平均值通常更高。视觉接地令牌代表的增强-改进恶化视觉评分比+v：mala2277获取更多论文RTEMPRCSTSB可乐MLM+MATCH+CLIPTC（建议）69.3188.0289.3256.27传销+匹配70.0486.9388.854.62传销68.2387.2589.2954.781个交叉关注层66.7987.6689.3253.622个时期（2x）69.3188.0489.3155.9120个历元（20x）57.487.74--wiki（14G），步骤同上65.387.7889.1-表3：消融研究结果。结果是在XDBERT-b上使用1 e-4学习率的5次运行的中值。CoLA学习率与主论文中的不同。演示是一个粗略的指标，XDBERT已获得提取的视觉信息从CLIP-T.我们在Ap-pennsylvaniaD中展示了每个类别的示例。5消融研究我们尝试了适应任务的各种组合，发现使用所有三种任务会产生最好的结果。我们还尝试将跨模态编码器层的数量减少到一个;然而，在视觉上接地的语言编码器上没有进一步的改进其他实验包括改变跨模态编码器中的层数交换到wiki减少了在wiki103上训练的20个epoch设置的潜在过拟合，因为在wiki上训练我们在5个随机种子上测试了RTE、MPRC、STSB和CoLA上的这些变化，结果如表3所示，其中MLM是指联合MLM目标，MATCH是指跨模态匹配目标，CLIPTC是指CLIP令牌分类目标。除了实验证据外，我们还通过进一步的分析来判断CLIPTC损失，因为CLIPTC目标在理论上可以通过恒等映射来解决。尽管有这种可能性，我们发现这种损失对跨注意学习是至关重要的。由于我们没有从采样的句子中强加负的硬样本，因此可以通过引导交叉注意力集中在常见的琐碎词上来充分简单地解决MATCH目标在CLIPTC目标下，必须在跨模态编码器中保留对应于不同标记的输入嵌入的多样性，从而导致更鲁棒的我们展示了从交叉模态编码器生成的注意力地图与随机序列的比较从附录中表9的RTE中提取序列，以验证该声明。6结论在这项研究中，我们探索使用跨模态编码器提取视觉信息BERT。我们调整了具有多个目标的模型，并且我们能够在NLU任务上实现更好的性能我们的适应技术是相当便宜和简单的。此外，我们的方法是语言编码器不可知的，因为我们在XDELEC-TRA上显示了类似的性能增益。确认这项工作得到了台湾科技部（MOST）的部分支持，合同号为110-2223-E-002 - 007-MY 3。引用Kevin Clark，Minh-Thang Luong，Quoc V. Le，andChristopher D.曼宁2020. ELECTRA：预先训练文本编码器作为鉴别器而不是生成器.在第八届学习代表国际会议，ICLR 2020，亚的斯亚贝巴，埃塞俄比亚， 2020 年 4 月 26 日至 30 日。OpenReview.net.Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Alexey Dosovitskiy 、 Lucas Beyer 、 AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 MostafaDehghani 、Matthias Minderer 、 Georg Heigold 、 SylvainGelly、Jakob Uszkoreit和Neil Houlsby。2021. 图像+v：mala2277获取更多论文值得16x16字：用于大规模图像识别的变形金刚。在国际学习代表上。放大图片作者：Alexander G.施温和德里克·霍伊姆。2019. Vico：视觉同现的词嵌入。在2019年IEEE/CVF国际计算机视觉会议上，ICCV 2019，韩国首尔，2019年10月27日至11月2日，第7424-7433页。美国电气与电子工程师协会。Po-Yao Huang ， Junjie Hu ， Xiaojun Chang ， andAlexan- der Hauptmann.2020. 无监督多模态神经机器翻译与伪视觉piv-oting。在第58届年会上，计算语言学协会，第8226-8237页，在线。计算语言学协会ZhenzhongLan ， MingdaChen ， SebastianGoodman，Kevin Gimpel，Piyush Sharma，andRadu Soricut. 2020. ALBERT：一个用于语言表示的自我监督学习的Lite BERT。第八届国际学习代表会议，ICLR 2020，埃塞俄比亚亚的斯亚贝巴，2020年4月26日至30日。OpenReview.net.Liunian Harold Li，Mark Yatskar，Da Yin，Cho-JuiHsieh，and Kai-Wei Chang. 2019. 视觉伯特：视觉和语言的一个简单而有效的基线. CoRR，绝对值/1908.03557。Xiujun Li ， Xi Yin ， Chunyuan Li ， PengchuanZhang ， Xi-aowei Hu ， Lei Zhang ， LijuanWang ， Houdong Hu ， Li Dong ， Furu Wei ，Yejin Choi，and Jianfeng Gao.2020. Oscar：面向视觉语言任务的对象语义对齐预训练。在计算机视觉- ECCV 2020 -第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第XXX部分，计算机科学讲义第12375卷，第121-137页。斯普林格。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. Roberta：一个鲁棒优化的bert预训练方法。arXiv预印本arXiv：1907.11692。Jiasen Lu，Dhruv Batra，Devi Parikh，and StefanLee. 2019. Vilbert：针对视觉和语言任务的任务不可知预训练。在神经信息处理系统的进展32：2019年神经信息处理系统年会上，NeurIPS2019，December 8-14，2019，加拿大不列颠哥伦比亚省温哥华，第13-23页。Alec Radford 、 Jong Wook Kim 、 Chris Hallacy 、AdityaRamesh 、 GabrielGoh 、 SandhiniAgarwal、Girish Sastry、Amanda Askell、PamelaMishkin 、 Jack Clark 、 Gretchen Krueger 和 IlyaSutskever。2021. 从自然语言监督中。CoRR，abs/2103.00020。Weijie Su，Xizhou Zhu，Yue Cao，Bin Li，LeweiLu，Furu Wei，and Jifeng Dai. 2020. VL-BERT：通用视觉语言表征的预训练。第八届国际学习代表会议，ICLR 2020，埃塞俄比亚亚的斯亚贝巴，2020年4月26日至30日。OpenReview.net.郝坦和莫希特·班萨尔。2019年。LXMERT：从transformer学习跨模态编码器表示。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）会议中，第5100-5111页，中国香港。计算语言学协会。郝坦和莫希特·班萨尔。2020. Vokenization：通过上下文化、视觉化的监督。在2020年自然语言处理经验方法会议（EMNLP）上，第2066-2080页。计算语言学协会。Yoad Tewel ， Yoav Shalev ， Idan Schwartz ， andLior Wolf. 2021. 视觉语义算法的零拍摄图像到文本生成。CoRR，abs/2111.14447。Ashish Vaswani ， Noam Shazeer ， Niki Parmar ，Jakob Uszkoreit，Llion Jones，Aidan N.戈麦斯，卢卡斯·凯泽，伊利亚·波洛苏欣。2017. 注意力就是你所需要的。在神经信息处理系统的进展30：神经信息处理系统年会2017年，12月4日-9，2017，Long Beach，CA，USA，第5998Alex Wang ， Amanpreet Singh ， Julian Michael ，Felix Hill，Omer Levy，and Samuel R Bowman.2018. Glue：用于自然语言理解的多任务基准测试和分析arXiv预印本arXiv：1804.07461。Rowan Zellers，Yonatan Bisk，Roy Schwartz，andYejin Choi. 2018. Swag：一个大规模的对抗性数据集，用于接地常识推理。arXiv预印本arXiv：1808.05326。Zhuosheng Zhang，Kehai Chen，Rui Wang，MasaoUtiyama，Eiichiro Sumita，Zuchao Li，and HaiZhao.2020. 具有通用视觉表示的神经机器翻译。在第八届国际学术代表大会上，ICLR 2020，埃塞俄比亚亚的斯亚贝巴，2020年4月26日至30日。OpenReview.net.A可视化文本转换器在NLU上的结果我们在表7中显示了Tan和Bansal（2020）报告的关于GLUE的视觉文本转换器的结果。所有列出的方法（除了LXMERT）都有从BERT初始化的文本转换器结果表明，解决视觉-语言任务的多模式训练并不能提高+v：mala2277获取更多论文BERT-b BERT-l CLIP昏暗7681024512最大透镜51251277层数12 24 12表4：BERT和CLIP配置。ELECTRA具有与BERT相同的结构BERT和CLIP的标记器也是不同的。模型在自然语言理解任务上的表现。BCLIP上的序列建模虽然BERT和CLIP具有类似的转发机制，但Transformer架构的规范不同，这导致了联合建模两个模型的挑战（表4）。不匹配的维度会造成交叉注意力的问题。我们使用线性变换来生成匹配维度的Q、K和V，但要澄清的是，此线性变换层存在于原始LXMERT设置中，其中隐藏表示具有统一的维度。我们修改输入以解决两个系统的不匹配max_len在联合MLM中，我们对BERT使用了512的固定序列长度然而，对于CLIP不能做同样的事情，因为CLIP的最大模型序列长度是77。我们发现大多数长度为512的BERT序列（>99%）编码为长度小于693的CLIP序列，因此我们将CLIP序列填充为长度693，然后将CLIP序列拆分为9个长度为77的子序列。因此，一批输入将包含大小为（batch_size，512）的BERT输入输出在交叉模态编码器中被调整为（batch_size，693）。这个问题也存在于微调阶段，GLUE和SWAG的最大序列长度为128;因此我们使用了2个CLIP子序列块来建模。对于RTE和MRPC等双序列分类任务，我们确保单独的句子在CLIP编码器中不使用相同的块因此，单序列分类任务将具有（batch_size，2，77）的CLIP输入大小，并且双序列分类任务将具有（batch_size，4，77）的CLIPC更多培训详情C.1适应我们使用公开可用的wiki103和类似于Tan和Bansal （ 2020 ） 3 的预处理方法。 Wiki103（500MB）是维基百科的一个子集，只包含好的和有特色的文章。在wiki103上的1个epoch的改编在8个V100上在35分钟内完成（BERT基础）。我们训练了最多 20 个时期（ 16k步），发现进一步的适应步骤在早期时期没有增加分数我们使用以下参数进行自适应：学习率= 1 e-4，max_epoch = 40（尽管我们由于延迟性能而提前停止），预热比率= 0.05C.2Finetuning学习率列于表5。基本尺寸的RTE、MRPC、STSB 1e-4 5e-5其他2 e-5 1 e-5表5：NLU任务的微调配置。完整模型使用与其语言编码器相同的学习率我们使用0.1的预热比率，学习率衰减为0.9，并训练模型3个时期。我们报告了不同随机种子上5次运行的中位数结果，但RTE除外，它不稳定;因此，我们报告了9次运行的中位数结果。ELECTRA对RTE和STSB的重现结果低于Clark等报道的数值。（2020年），因为我们没有从MNLI检查站开始。C.3全模型由于我们的跨模态Transformer本身也可以然而，这种方法为预训练BERT添加了额外的参数，因此不打算与预训练BERT进行比较，相反，我们专注于展示这种方法的可行性。在BERT/ELECTRA中，附加参数的数量只是隐藏大小的函数，因此当语言编码器很大时，附加参数的比例就显得微不足道了。为了简化符号，我们使用X-（语言编码器）来表示完整的模型。的3https://github.com/airsplay/动词化+v：mala2277获取更多论文完整模型的参数数量如表6所示，NLU任务的结果如表8所示。模型参数BERT-b/ELECTRA-b 109482240XBERT-b/XELECTRA-b 202059009ELECTRA-1 334092288XELECTRA-l 442671617表6：每个模型的参数数量。DRTE示例我们在图4中提供了每种类型的三个RTE示例，并且我们选择了极端的示例，其中对于“改善”和“恶化”类别，性能差异超过5次运行。我们遵循Tan和Bansal（2020），如果它不是一个停止词，并且在MSCOCO中出现超过100次，则将标记分类为视觉基础。在下面的例子中，粗体字是视觉基础，而普通字是非视觉基础。括号中的词是停用词，不计入任何类别。D.1改进：XDBERT优于BERT示例1：视觉接地比：11/（11+16）= 0.4074 BERT正确回答：0/5XDBERT回答正确：5/5妇女在议会中的代表性很低示例3：视觉接地比：13/（13+17）= 0.4333 BERT正确回答：0/5XDBERT回答正确：5/5霍德勒声称亚特兰大为1996年夏季奥运会、悉尼为2000年夏季奥运会和盐湖城为2002年冬季奥运会组织的运动也存在盐湖城冬季奥运会游戏发生在纳加##no（.）D.2Par：XDBERT和BERT表现相当示例1：视觉接地比：6/（6+32）= 0.1375 BERT正确回答：0/5XDBERT回答正确：0/5(on)2001年10月1日，欧盟和其他国家在宠物旅行计划下为家养动物的主人提供了申请宠物通行证的（这）取代了（所有）家养宠物6个月强制性的旧制度(in)2001年，欧盟为宠物引进了通行证。示例二：视觉接地比：5/（5+16）= 0.2381 BERT正确回答：5/5XDBERT回答正确：5/5示例二：视觉接地比：4/（10+4）= 0.2857 BERT正确回答：0/5XDBERT回答正确：5/5示例3：视觉接地比：8/（8+16）= 0.3333 BERT正确回答：5/5XDBERT回答正确：5/5(in)1979年，领导人在白宫签署了埃以和平条约(it)希望占人口一半以上的妇女投票支持其他妇女，并确保她们的问题在议会中得到代表。“跨越鸿沟”组织成立于2001年3月，其直接目标之一是要求塞浦路斯两部分之间立即有更多的接触和交流自由，并争取早日解决塞浦路斯于2001年3月被分为两部分在一次选举活动后，安全部队处于高度戒备状态，这次选举活动中有超过1000人被杀，其中包括7名候选人。安全部队处于高度戒备状态(a)暴力破坏了竞选活动+v：mala2277获取更多论文欧洲中央银行行长让·克洛德·特里谢星期三明确表示，他将反对联合国罢免意大利银行行长安东尼奥·法·齐奥的政治企图，这位意大利银行行长因处理银行收购投标而安东尼奥·法齐奥是让·克洛德·特里·切特的下属(the)圣莫尼卡湾的海岸线有50英里长开罗现在是1500万人口的家园，每天产生大约1万吨垃圾，给公共服务带来(in)在过去的10年里，政府努力鼓励私人投资于垃圾处理行业，但是据估计每天都有4000吨的垃圾被丢弃在垃圾堆中，等待有人来清理往往是最贫穷的社区的人受影响最严重。(but)在某些地区他们正在反击在舒城北部地区之一，居民草坪（.）布什总统因他们的工作而获得诺贝尔和平奖。(the)两个国家至今保持着和平的关系。(the)以色列和埃及于1979年签署和平协议带着灰尘锅和刷子上街清扫公共场所，这些地方已被用作公共垃圾场。开罗每天产生1500万吨垃圾D.3恶化：XDBERT表现不佳BERT示例1：视觉接地比：11/（11+29）= 0.2750 BERT正确回答：5/5XDBERT回答正确：0/5示例二：视觉接地比：11/（11+29）= 0.4167 BERT正确回答：5/5XDBERT回答正确：0/5示例3：视觉接地比：32/（32+55）= 0.3678 BERT正确回答：5/5XDBERT回答正确：0/5+v：mala2277获取更多论文Diff.到BERT重量SST-2 QNLI QQP MNLIVL-BERT6.4e-390.189.588.682.9VisualBERT6.5e-390.388.988.482.4奥斯卡41.6e-387.350.586.677.3LXMERT42.0e-382.450.579.831.8BERT/ViLBERT–90.389.688.482.4表7：Tan和Bansal（2020）报告的在自然语言理解上使用视觉文本转换器的结果。ViLBERT与BERT相同，因为它的权重在多模态微调期间被冻结RTE MPRC STSB CoLA SST2 QNLI QQP MNLI SWAG读取↓XBERT-b 69.31 88.46 89.59 59.05 92.89 91.47 89.37 84.62 81.34XELECTRA-b 79.78 91.06 91.46 66.8 95.06 93.04 90.62 88.97 88.91XELECTRA-1 88.45 92.33 92.04 70.51 97.36 94.97 91.4 91.03 92.83 0.565表8：使用完整模型的NLU任务结果。+v：mala2277获取更多论文表9：交叉注意层的注意力图。不同的实验。左：在视觉分类丢失的情况下训练，右：在没有视觉分类丢失的情况下训练。当训练VC损失时，BERT的不同标记更加注意CLIP-T的不同标记。BERT序列：’gene’,fect’,’the’,CLIP-T序列：<|startoftext|“科学家”、“有”、“有”、“那”、“老鼠”、“有”、“a”、“defe'、”ctive“、”klo“，’tho’,’opposite’, “的<|正文结尾|>'，'<| startoftext|“科学家”，“有”，“发现”，“一个”，“基因”，“那个”，“亲”。duces'，'a'，' swee'，'that'，' raises '，' the'，'life'，'expect'，'ancy'，' in'，'mice'，' by'，'3'，' 0'，'swee'，'.'，'<|正文结尾|>']伯特MLM+MATCH+VC交叉编码器，第1层，头0传销+匹配交叉编码器，第1层，头00 050 500 54 054CLIP-T2017年12月31日0.0150 0.0175 0.0200交叉编码器，第2层，头0交叉编码器，第2层，头00050500 54054CLIP-T0.01 0.02 0.03 0.040.020.040.06伯特伯特伯特

下载后可阅读完整内容，剩余1页未读，立即下载