没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文点击诱饵破坏通过提问和段落检索Matthias Hagen1Maik Fröbe1Artur Jurk1MartinPotthast21Martin-Luther-Universität Halle-Wittenberg2莱比锡大学摘要我们介绍和研究的点击诱饵破坏的任务:生成一个简短的文本,满足好奇心引起的点击诱饵后。点击诱饵链接到一个网页,并通过引起好奇心而不是提供一个信息摘要来解释其内容。我们的贡献是对所需扰流器类型进行分类的方法(即,短语或段落),并生成适当的剧透。对一个包含5,000个手动破坏的clickbait帖子的新语料库-Webis Clickbait Spoiling Corpus 2022-进行的大规模评估和错误分析表明,我们的剧透类型分类器达到了80%的准确率,而问题回答模型DeberTa-large则优于此点击诱饵推文扰流板“网络”“washing《华盛顿邮报》独立测试了纽约市最受欢迎的公园中的八个喷泉,发现所有喷泉都达到或超过了该州的水质指导方针。“1.添加糖[…]“2.油炸食品[…]“3.高血糖负荷碳水化合物”[...]“4号。酒精”[…]“5.硝酸盐”[.]所有其他人都在为这两种类型制造破坏者。1介绍点击诱饵是用来描述社交媒体中旨在不适当地吸引读者访问网页的帖子的术语这是通过诸如感觉主义或cataphors等被认为会产生所谓的curiosity gap的公式来点击诱饵被认为是不合适的,因为它的解决方案通常是普通或琐碎的,只包括一个短语,简短的段落,或一个列表的东西,可以很容易地被包括在帖子中。这一观察促使我们引入点击诱饵破坏的任务:识别或生成点击诱饵帖子的破坏者。图1显示了Twitter上的四个clickbait示例以及剧透。前两条推文或明或暗地承诺了一个令人惊讶的解决方案,以激发好奇心,但他们的剧透是简短和琐碎的。第一条推文的链接页面几乎没有增加任何内容,第二条推文的剧透是常识。第三个剧透是来自链接页面的一段话,第四个是一个东西的列表图1:从相应的链接网页中提取的点击诱饵推文和剧透的示例。尽管推文的信息性有长度限制,但所有例子中的剧透都很容易成为原始推文的一部分本文报告了我们对点击诱饵破坏的调查以及以下贡献:(1)WebisClickbaitSpoilingCorpus2022(Webis-Clickbait-22),由5,000个clickbait帖子,它们的链接页面和其中的一段破坏性文本组成1(2)点击诱饵破坏的两步方法,首先根据其破坏类型(短语或段落)对点击诱饵帖子进行分类,然后将破坏视为问题回答或段落检索任务。(3)对扰流板类型分类、问题回答和段落检索的最新方法进行系统2虽然扰流器类型分类的第一步更重要的是,因为我们还没有钉引导的多部分破坏者(图1中底部的例子; 876个案例也是我们语料库的一部分),可能需要不同的破坏方法。1数据:https://webis.de/data.html? q=点击诱饵2代码:https://github.com/webis-de/ACL-22法律之上@atlblog最近法学院毕业生获得第一份工作的惊人方式bit.ly/2CMMPxfLifehacker@lifehacker如何让你的运动服不发臭:lifehac.kr/57YOuEZ纽约邮报纽约的喷泉到底有多安全?nyp.st/2yHSGnrCNBC@CNBC哈佛营养学家和大脑专家说,她避免这5种食物,“削弱记忆力和注意力。“(via@CNBCMakeIt)cnb.cx/2TG6zeXarXiv:2203.10282v1 [cs.CL] 2022年3月+v:mala2277获取更多论文2相关工作本文首先综述了点击诱饵的研究现状,然后分析了问题回答和文章检索的模型。2.1点击诱饵及其操作化大多数关于点击诱饵的研究的基本假设是,它是一种数据驱动的优化社交媒体帖子的形式,以利用Loewenstein(1994)描述的cu- riositygap 。 至 少 Upworthy 的 首 席 执 行 官 PeterKoechley(2012)是这么 Upworthy成为Face-book上点击诱饵的第一批主要传播者之一,他们的成功促使Facebook两次改变其新闻推荐算法以遏制点击诱饵的数量(El-Arini和Tang,2014;Peysakhovich和Hendrix,2016)。点击诱饵及其对新闻业影响的探索性和理论研究分析了150多家出版商的流行情况(Ronyet al. , 2017 年 ) ; 其 对 新 闻 市 场 的 经 济 学(Munger,2020年);其对信誉和质量的影响( 总 体 负 面 ) ( Molyneux 和 Codding-ton ,2020 年 ) ; 并 指 出 在 过 去 十 年 中 缓 慢 下 降(Lischka和Garz,2021年)。这类新闻研究依赖于点击诱饵检测技术。最初由Rubin et al. (2015)但未随访,Potthastetal. (2016)和Chakraborty et al. (2016)独立开发了第一批探测器。从Potthast等人组织的共享任务开始。(2018)不久之后,迄今为止已经贡献了50多种方法。概述超出了我们的工作范围,但是Transformer模型也是这项任务的一部分。对于clickbait生成任务,在基于规则的生成器之前(Eidnes,2015),只有Shu etal.(2018)和Xu et al.(2019)提出了更先进的模型,而Karnet al.(2019)生成的挑逗性标题显然不是clickbait。到目前为止,还没有人试图为点击诱饵制作剧透。2.2问答如果有人认为点击诱饵破坏作为一个问题回答的问题,有许多可能的解决方案。在现有的问答基准(Dzendzik et al. ,2021),我们选择两个来选择适当的最先进的模型用于我们的评 估 : ( 1 ) SQuAD ( Rajpurkar et al. ,2016)基于536篇维基百科文章汇编了107,785个问题和答案。虽然范围广泛,包括问题和答案,绝大多数93.6%是事实性的(32%的名称,31.8%的名词短语,19.8%的数字 , 5.5% 的 动 词 短 语 和 3.9% 的 形 容 词 短语),而其余的是描述性的(3.7%的从句和2.7%的其他)。我们使用SQuAD v1.1,而不是v2.0超集(Rajpurkaret al. ,2018),其中包含无法回答的问题,因为我们不期望点击诱饵是“不可破坏的”。(2)TriviaQA(Joshi et al. ,2017)包含95,000个这些与clickbait类似,因为它们中的许多都处理相当琐碎的事情(参见图1)。在我们的实验中使用的问题回答模型是ALBERT(Lan et al. ,2020),AllenAI-文档-QA(Clark和Gardner,2018),BERT(有壳/无壳)(Devlin等人,,2019),Big Bird( Za-heeret al. , 2020 ) , DeBERTa ( 大 )( He et al. , 2021 ) 、 ELECTRA ( Clark etal. ,2020)、漏斗- Transformer(Dai et al. ,2020 ) 、 MPNet ( Song et al. , 2020 ) 和RoBERTa ( 基 础 / 大 型 ) ( Liu et al. ,2019)。它们中的许多都是或曾经是上述基准的最新技术,并实现了各种不同的体系结构范例。2.3段落检索段落检索在允许更长的文本段落作为答案的意义上稍微放松了问答任务(例如,一个或多个句子),而不是确切的短语或陈述。Guo等人调查的神经再评估模型。 (2020)和Lin et al.(2021),已成功应用于段落检索。最重要的通行证检索基准之一是MSMARCO的一部分,这是一系列挑战,其第一版是一个大型问答任务(Nguyen et al. ,2016)。从最初提交给Bing的100,000个问题的基础集合中获得了880万个段落的段落检索数据集该数据集构成了TREC 2019和2020深度学习轨道上两个连续共享任务的基础(Craswell et al. ,2019年,2020年)。我 们 实 验 中 使 用 的 段 落 检 索 模 型 是MonoBERT(Nogueira和Cho,2019; Nogueira等 人 , 2019 年 ) 。 , 2019 ) 和 MonoT5( Nogueira et al. , 2020 年 ) ( 均 曾 在 MSMARCO通道重新评估排行榜上名列前茅),以 及 经 典 基 线 模 型 BM 25 ( Robertson 和Zaragoza,2009年)和Query Likestive(Ponte和 Croft , 1998 年 ) , 在 Anserini ( Yang etal. ,2017年)。+v:mala2277获取更多论文3Webis Clickbait破坏语料库2022为了首次解决点击诱饵破坏,我们创建了Webis Clickbait Spoiling Corpus 2022(Webis-Clickbait-22),收集了5,000个点击诱饵帖子及其相关的破坏者。3.1语料库建设我 们 的 语 料 库 主 要 基 于 Twitter 、 Reddit 和Facebook上的五个社交媒体账户,这些账户手动 破 坏 点 击 诱 饵 : r/savedyouaclick 、@HuffPoSpoilers、@SavedYouAClick、@Upwor-thySpoiler和@StopClickBaitOfficial。为了收集5,000个“可破坏”的点击诱饵帖子,预期拒绝率约为10%的不可用帖子,最初从帐户中收集了5,555个他们中的每一个都被手动审查,那些没有被宠坏的点击诱饵被删除(例如,有趣的职位不打算是剧透,或职位与不可用的链接文档)。拒绝率高于预期,只剩下4204个职位。为了达到5,000篇帖子的目标,我们从2017年Clickbait挑战赛中使用的Webis-Clickbait-17语 料 库 中 进 行 了 采 样 ( Potthast et al. ,2018)。该语料库包含38,517条推文,每条推文由5名注释者在4分制的李克特(Likert)量表上对点击诱饵进行评级在这些推文中,有1,845条平均得分为0.8或更高,可以安全地被认为是点击诱饵。我们从这个子集中选择推文,并根据链接的文档手动破坏它们,直到达到5,000个帖子的目标大小。因此,我们最终的语料库包括来自Twitter、Reddit和Facebook的4,204条帖子,这些帖子被专门从事这项任务的第三方破坏了,还有来自Webis-Clickbait-17语料库的796条推文,平均点击率至少为0.8,我们自己破坏了。对于这5,000个clickbait帖子中的每一个,我们还审查和纠正了错误的剧透,并标记了它们在链接文档中的确切位置。我们的内部指导方针规定,扰流板应尽可能短(即,如果一个词就足够了,不应该选择整个句子)。由于底层注释任务很简单,一个主注释器就足够了。与共同作者中的另外两名专家讨论了无价值、随机选择以及在这些讨论中,没有在我们的注释过程中,我们发现没有一种常见 的 主 要 内 容 提 取 方 法 可 以 可 靠 地 用 于clickbait帖子中链接的所有文档然而,干净的内容是研究点击诱饵破坏的先决条件,以消除尽可能多的混淆变量。为了确保干净的语料库,一个注释者手动地解释链接文档的主要内容,移除(内联)广告、到相关文章的链接(例如, . . ]. . ] . . ]”或“照片由[. . . ]“Subscribe . . ”. . ]”)。为了保证高质量,我们进行了随机选择此外,在spoiler注释过程中,发现基本上有三种类型的spoiler:(1)由来自链接文档的单个单词或短语组成的短语破坏者(例如,图1中的前两个破坏者,但通常也称为实体破坏者),(2)由链接文档的一个或几个句子组成的段落破坏者图1中的第三扰流器),以及(3)由链接文档的多于一个非连续短语或段落组成的多部分扰流器(例如,图1中的第四个扰流器)。剧透类型也由主要注释者进行注释,并由其他两个人随机检查。总之,我们语料库中的5,000个帖子中的每一个都由一个唯一的ID、它所来自的平台、相应平台“clickbait”)、链接文档的URL、手动提取的链接文档的标题和段落划分的总的来说,注释花费了大约560个小时,这标志着我们专用于这一步骤的预算的极限。3.2语料统计表1总结了我们语料库的主要统计数据。大多数被破坏的clickbait帖子来自Twitter(47.5%)和Reddit(36%),而Facebook帐户贡献较少(16.5%)。大多数剧透是短语(42.5%)和段落(40%)。有较少的多部分破坏者可能是由于这样的事实,即破坏者帐户运营商更喜欢破坏“简单的”点击诱饵职位。 对于语料库,我们还提供了一个固定的随机80/20/20训练/验证/测试分割,以确保未来的可重复性和与我们的结果的可比性+v:mala2277获取更多论文Σ··表1:Webis Clickbait Spoiling Corpus 2022(Webis-Clickbait-22)的关键统计数据SourceSpoiler平均文本长度±标准偏差语料库分裂顶部来源后文件扰流器列验证。测试名称 计数短语34213.4 ±3.6433.7±347.93.0 ±1.62214576停止点击诱饵342Facebook Passage 388 13.4±4.0490.9±351.5 24.9±20.0231 73 84 Stop Clickbait 388多部分94 14.2±4.1651.8±545.2 28.5±33.068 12 14停止Clickbait 94短语688 13.2±4.0584.6±798.6 2.8±1.6455 109 124 savedyouaclick 688Reddit通道859 13.1±4.0657.2±1004.725.4±20.3533 148 178 savedyouaclick 859多部件250 12.8±4.4991.7±899.5 32.7±36.2162 46 42 savedyouaclick 250短语1,095 11.0±3.4479.1±502.9 2.7±1.7691 181 223 HuffPoilers 794Twitter通道752 10.3±4.2597.4±605.822.3±13.5510 101 141 HuffPoilers 328多部532 11.5±3.8884.0±930.3 35.4±34.4329 85 118 HuffPoIers 148短语2,125 12.1±3.8505.9±599.4 2.8±1.61,367 335 423 HuffPoilers 794第1,999代12.1 ±4.3602.4 ±774.024.1 ±18.11,274322403 savedyouaclick859多部件876 12.2±4.1889.8±892.2 33.9±34.8559 143 174 savedyouaclick 2504依赖类型的点击诱饵破坏我们的方法点击诱饵破坏是基于观察,有三种类型的破坏者:(1)短语破坏者,(2)通道破坏者,(3)多部分的破坏者。我们假设不同的定制方法将最适合每种扰流板类型。然而,这一点的一个重要前提是对点击诱饵进行相应的分类因此,我们首先研究如何预测点击诱饵帖子的剧透类型(第4.1节)。对于给定的clickbait帖子,短语和段落破坏者的生成是相似的,因为在这两种情况下对问题的解决方案都相当于从链接的文档中提取连贯的文本片段。为此,在相关学科中存在各种现有的方法,其输出是短语或段落,并且可以适于点击诱饵破坏。因此,我们研究是否可以通过传统的问题回答方法来识别短语破坏者(即,我们将clickbait帖子视为我们将clickbait帖子视为“查询”,并将在我们的评估中,我们专注于短语和段落破坏者,并检查上述问题回答和段落检索方法作为短语和段落的一刀切解决方案的能力。对于多部剧透,将需要一种新颖的方法,这超出了我们目前的工作范围,但对未来来说是一个有趣的方向。4.1扰流板类型分类对于剧透分类子任务,我们使用经典的基于特征的模型(朴素贝叶斯、逻辑回归、SVM)和神经模型BERT-、DeBERTa-和RoBERTa进行了实验。作为经典模型的特征类型,我们使用来自clickbait帖子的tf-和tf idf-加权的单词和POS标签uni-和bigram以及来自链接文档的tf idf-加权的单词和POS标签uni-和bigram我们包括链接文档中的功能idf值是在OpenWebText语料库上计算的(Gokaslan和Cohen,2019),以防止我们语料库相对较小的任何偏差。神经模型的输入是与链接文档的主要内容相关联的后处理4.2短语剧透生成将短语剧透应被导出为“问题”的点击诱饵帖子和潜在地包含“答案”的链接文档查看因此,我们采用了十种在SQuAD数据上训练的最先进的问题回答方法,并在我们新的clickbait破坏训练集上对它们进行了微调:AL-BERT,BERT(cased/uncased),BigBird,DeBERTa(large),ELECTRA,FunnelTransformer,MPNet和RoBERTa(base/large)。4.3通道扰流板生成对待clickbait后,其扰流板类型是作为“查询”的段落+v:mala2277获取更多论文表2:在1000个测试岗位上进行的多级(第一列)和一对一设置中扰流板类型分类的有效性(培训:3200;验证:800)。表3:在826个测试岗位上进行的一对一(短语对通道)设置中扰流板类型分类的有效性(培训:2,641;验证:657)。模型平衡精度(0、1、2表示类别标签)朴素贝叶斯56.1565.0362.5064.82SVM59.6268.0368.7070.28Log. 回归60.0468.0469.3371.26伯特67.8474.0675.7075.56DeBERTa73.6378.3978.6577.93罗伯塔71.5780.3979.3079.12在通道检索方法中,通道扰流器的生成可以通过通道检索方法来因此,我们使用了十种在MS MARCO数据上训练的最先进的通道检索方法:BM 25和QLD各四种变体(单独或与RM 3/Ax/PRF 查 询 扩 展 ) , MonoBERT 和MonoT 5。此外,我们还适应所有上述问答模型检索段落,简单地考虑作为返回的结果,问答模型提取其答案的段落。5 扰流器类型分类在我们的评估中,我们假设一个设置,其中以前的点击诱饵检测将(完美地)将帖子识别为点击诱饵。然后,为了评估对这种检测到的点击诱饵帖子的剧透类型分类的有效性,我们进行了三个实验:(1)多类,(2)一对其余的,和(3)一对一的短语和段落剧透的类型在所有情况下,六个研究分类器的超参数都是基于我们语料库的验证集进行优化的。对于三种基于特征的方法,卡方特征选择步骤选择了所有基于帖子的特征和70%的基于文档的特征。基于帖子的特征的权重比基于文档的特征高4倍。变换器模型的大多数超参数都保留在默认值,但使用网格搜索来找到学习率(1 e-5,4 e-5,1 e-4),预热比(0.02,0.06和0.1),堆栈大小(8,16和32),时期的数量(1到10),和最大值-mum序列长度(256,384,512)。表2显示了六个分类器的平衡准确度。所有的分类器在多类环境中的效果都不如在一对一环境中的效果好,而基于transformer的分类器显然更有效。模型有效性TPTNFPFNAcc.朴素贝叶斯29825614712567.07SVM31126413911269.61Log. 回归30627313011770.10伯特3153158810876.27DeBERTa3183356810579.06罗伯塔332332719180.39DeBERTa在多类环境中的准确率最高(73.63),而RoBERTa在一对其余环境中的准确率最高(79.12至80.39)。表3示出了六个分类器在具有短语和段落破坏器的826个测试帖子上的准确性(几乎平衡的设置,因为几乎没有任何类不平衡)。同样,基于Transformer的分类器显然比基于特征的分类器更有效;RoBERTA实现了最佳准确度为80.39。DeBERTa和RoBERTa在所有设置中对基于特征的分类器的实质性改进(大约96Spoiler Generation为了评估问题回答和段落检索方法对点击诱饵破坏的有效性,我们评估了它们各自的预期破坏者类型,但也评估了各自的多部分扰流器推迟 到 未 来 的 工 作 。 我 们 继 续 假 设 先 前 的clickbait检测(完美地)识别clickbait帖子。我们对生成的扰流器的评估包括定量和定性评估(第6.1节)。在一项试点研究中,10个问题回答和10个段落检索模型在其默认设置下,每个类别中的两个模型支配着各自的其他模型(第6.2节)。超参数优化的计算成本高的步骤仅限于这四个模型加上两个基线(第6.3节)。然后,评估依赖于剧透类型的破坏点击诱饵帖子的有效性(第6.4和6.5节),并与独立于剧透类型的端到端点击诱饵破坏设置进行比较(第6.6节)。短语0100通道1010多部分2001+v:mala2277获取更多论文6.1定量和定性评估我们介绍了用于评估生成的扰流器的措施,评价措施。为了评估导出的扰流器与表4:对于问题回答(顶行组)和段落检索模型(底行组),在具有短语破坏者的500个采样点击诱饵帖子和具有段落破坏者的500个采样点击诱饵帖子上手动确定的假阳性/阴性(FP/FN)的数量,取决于得分阈值(Thresh.),扰流器类型和有效性措施(BL 4 = BLEU-4,MET = METEOR,BSc.= BERTScore)。选择用于后续评估的阈值用粗体FP/FN数字表示。我们用三个问题回答-定 向 和 单 通 道 检 索 定 向 测 量 : BLEU-4( Papineni et al. , 2002 ) 、 METEOR(Banerjee and Lavie,2005)及其扩展版本的Denkowski and Lavie ( 2014 ) 、 BERTScore(Zhang et al. ,2020年)和Precision@1。三个面向问题回答的度量在将生成的剧透与地面实况进行比较时各自计算精度和重新调用的度量特定定义的(惩罚的)调和平均值。在BLEU-4的情况下,确定单词1-到4-gram的重叠(如果生成的剧透的长度n小于4个单词,则我们计算BLEU-n),在METEOR的情况下,确定单词1-gram的重叠请注意,在它们的原始公式中,BLEU-4和METEOR惩罚分数,n元语法顺序差异越大。为了在从计算主要语法 ( BLEU-4 ) 到 主 要 语 义 相 似 性(BERTScore)的频谱上排列度量,我们省略了METEOR面向问题回答的测量并不真正适合于评估段落检索模型的有效性,因为检索到的段落通常比地面实况剧透更长。因此,我们还使用Precision@1来衡量排名最高的段落是否包含地面实况剧透(所有短语剧透和98%的段落剧透来自单个段落;对于其他段落剧透,我们认为所有包含的段落都是相关的)。为了计算问题回答模型的精度@1,我们使用包含返回的扰流板的第一个高置信度阈值。在面向问题回答的指标BLEU-4、METEOR和BERTScore上得分较高的候选人更接近真实情况。然而,目前还不清楚一个特定的剧透候选人必须超过什么分数阈值,以便在手动分析中被认为是真正的确定这样的阈值使得能够锤石 Phrase Spoilers Passage SpoilersBSc.BSc.FP FN FPFN FPFNFP FN FPFN FPFN百分之十1111 187 2380544 16815 3990百分之二十714 167 2340348 6727 3253百分之三十714 149 16511513135 13421百分之四十227813 5960551539 1838百分之五十227228 2414060942 551百分之六十230331 1125064457159百分之七十133231636066154066百分之八十134037140066061 073百分之五840 2864 208009522510 3550百分之十4 1048 10818060095 14030 3550百分之二十0 1840 16444 1440 953565 30515百分之三十0 1880 1840 1760 10559014555百分之四十0 1880 188 0 1880 1155 105 2095百分之五十0 1920 188 0 1920 120 5 1105 105百分之六十0 1920 192 0 1920 125 0 120 5 130无需每次使用每个新变体手动检查其输出。在试点研究中,我们因此通过运行所有问题回答模型来确定这样的第4.2节和第4.3节)对500个带有短语剧透的点击诱饵帖子和500个带有段落剧透的点击诱饵帖子进行随机抽样。对于每个帖子,手动检查由问题回答模型生成的随机剧透和由段落检索模型生成的随机剧透是否可以被视为正确。表4显示了针对BLEU-4、METEOR和BERTScore的不同阈值手动确定的假阳性和假阴性针对测量、扰流器类型和模型+v:mala2277获取更多论文类型(问题回答或段落检索)的每个组合手动选择的主观阈值(FP/FN,粗体)以更严格将导致太多假阴性的速率最小化假阳性例如,对于短语破坏者和BLEU-4,我们将问题回答模型阈值设置为50%,因为更严格的60%阈值不会减少误报,而是增加了误报。除了报告量化的平均有效性分数外,应用确定的阈值有助于估计有多少破坏者+v:mala2277获取更多论文表五:对200个验证帖子(按词典顺序排列的模型)进行的问题回答和段落检索模型的试验研究。括号内的数字表示根据我们预先确定的高置信度评分阈值,真阳性的预期数量; P@1是Precision@1。DeBERTa-large和RoBERTa-large以及MonoBERT和MonoT 5型号在其组中最有效类型型号短语扰流板 (n = 97)通道扰流器 (n= 103)BLEU-4流星BERTScoreP@1BLEU-4流星BERTScoreP@1阿尔伯特63.82(50)55.97(49)74.07(46)63.6424.51(33)38.42(27)44.61(24)38.71BERT-Cased60.27(49)58.87(47)73.55(44)59.0917.65(22)28.09(20)40.30(16)27.96BERT-无盒62.36(49)53.17(47)75.87(47)60.2318.05(22)32.50(20)39.86(18)32.26大鸟69.21(55)64.80(54)77.39(49)63.6423.89(30)36.20(28)44.55(27)43.01问题DeberTa-large70.19(57)65.08(56)78.02(50)65.9129.52(38)43.72(36)49.63(37)48.39回答 Electra69.10(55)65.97(53)79.26(51)65.9125.78(32)39.87(30)46.64(27)43.01漏斗传输68.31(54)63.89(53)78.78(51)64.7728.59(36)40.95(32)47.93(29)40.86MPNet72.92(58)65.90(57)80.26(55)69.3230.16(36)40.68(35)50.07(32)40.86罗伯塔碱73.02(59)65.56(57)80.39(54)65.9127.61(35)41.55(35)48.76(30)44.09Roberta-large79.47(66)78.61(61)84.04(58)70.4529.58(35)43.49(32)48.65(32)44.09BM253.49(10)3.67(10)17.73(2)5.6811.49(22)22.64(21)36.80(12)9.68BM25+Ax3.39(10)3.57(九)18.07(2)5.6811.27(21)22.46(19)36.51(12)9.94BM25+PRF3.25(10)3.21(九)18.03(2)5.139.68(20)21.10(17)35.44(11)8.84BM25+RM33.43(10)3.62(九)17.14(2)5.1310.06(21)21.03(20)35.56(11)8.84通道MonoBERT3.42(11)4.13(12)18.32(1)32.9514.55(29)26.86(25)38.10(15)31.18回收MonoT53.16(九)4.19(11)18.30(0)31.8214.27(29)26.70(26)38.94(17)29.03QLD2.51(七)2.69(七)17.24(0)12.5010.94(25)17.80(18)36.70(11)19.35QLD+Ax2.61(七)2.71(七)17.10(0)12.509.68(20)17.84(18)36.68(11)8.84QLD+PRF2.60(七)2.70(七)17.13(0)11.9410.86(25)17.52(18)36.46(11)17.67QLD+RM32.41(七)2.54(七)16.97(0)11.3910.66(25)17.54(18)36.13(11)17.12模型将被人类读者视为“好”。这对应于保守的评估,因为我们认为,只有当模型已被调整为在对其正确性有疑问时不返回扰流板时,才应将其部署到生产环境中;也可能在一定程度上最小化自动生成的错误信息的6.2模型选择在对1,000个点击诱饵帖子(800个训练,200个验证)的试点研究表5)在其默认设置下为后续实验选择模型,并进行更广泛(且昂贵)的超参数调整。问题回答模型在SQuAD和TriviaQA问题回答基准测试中是最有效的。在我们的设置中,他们从链接文档中返回一段文本 作 为 “an- swer” , 以 “query” 的 形 式 返 回clickbait帖子。作为通道检索模型,我们使用它们的PyGaggle 3实现来实现MonoBERT和MonoT5,以及使用它们的Anserini实现的流行基线检索模型BM 25和QLD的八个变体(Yanget al. ,2017年)。这些模型将链接文档中与clickbait帖子最“相关”的3https://github.com/castorini/pygaggle+v:mala2277获取更多论文使用Nvidia A100 GPU,问题回答模型首先在SQuAD v1.1上进行了微调,然后在飞行员训练数据上进行了微调。 这是使用其他微调方案(例如,当仅对我们的试点研究数据进行 微 调 时 , RoBERTa-large 的 短 语 剧 透BERTScore 从 84.04 下 降 到 69.91 , 当 仅 对SQuAD进行微调时下降到64.61,并且在没有微调的情况下下降到46.60有趣的是,模型RoBERTa-base和FunnelTransformer在SQuAD上绑定这表明了试点研究的重要性。表5显示了所有模型在200个验证岗位上的试点研究有效性。RoBERTa- large(用于短语扰流器)和DeBERTa-large(用于通道扰流器 ) 是 最 有 效 的 在 文 章 检 索 模 型 中 ,MonoBERT和MonoT5取得了最好的成绩。与我们最初假设的段落检索模型可能特别适合识别段落剧透相反,MonoBERT和MonoT 5在 短 语 和 段 落 剧 透 上 具 有 相 似 的 Preci-sion@1分数对于通道扰流器,DeBERTa-large的 Precision@1 为 48.39 , 而 MonoBERT 为31.18)。+v:mala2277获取更多论文表6:826个带有短语和段落破坏者的clickbait测试帖子的有效性。括号内的数字表示根据我们预先确定的高置信度评分阈值,真阳性的预期数量;P@1是Precision@1。总的来说,DeBERTa-large和RoBERTa-large是最有效的模型。类型型号短语扰流板 (n = 423)通道扰流器 (n= 403)BLEU-4流星 BERTScoreP@1BLEU-4流星BERTScoreP@1问题BERT(基线) 58.89(257)56.75(266)71.06(215)66.67 21.59(110)35.49(100)44.38(109)42.43嵌入式DeberTa-large68.80(300)67.93(298)77.03(250)75.65 31.44(157)46.06(142)51.06(161)54.84Roberta-large65.70(290)66.15(293)74.81(233)72.58 29.61(148)45.20(145)49.99(167)53.85第BM 25代(基线)检索MonoBERT3.404.20(55)(72)5.06(83)6.12(103)19.9420.66(十二)(十一)8.2742.087.9110.43(53)(74)20.1922.37(61)(75)34.7136.58(四十二)(四十六)4.2226.05MonoT54.95 (82)6.47(115)20.98 (十六)43.97 10.58 (74)22.02 (74)36.70 (四十六)29.036.3调整所选模型鉴于试点研究的结果,选择了六个模型进行更广泛的超参数调整:最好的两个问题回答模型(DeBERTa-large最适合短语破坏者,RoBERTa-large最适合段落破坏者)加上BERT作为基线,以及最好的两个段落检索模型(MonoBERT和MonoT 5)加上BM 25作为基线。由于我们的试点研究中的消融研究表明,首先在SQuAD上微调问答模型,然后在我们的语料库上进行微调效果最好,因此我们使用点击诱饵破坏训练数据将这种微调机制应用于DeBERTa-large、RoBERTa-large、BERT、MonoBERT和MonoT 5的大多数超参数都保持默认值,但运行网格搜索以找到学习率(1 e-5,4 e-5,1 e-4)、预热比率(0.02,0.06,0.1)、批量大小(8,16,32),epoch的数量(1到10),以及最大值序列长度(256,384,512)。对于BM25,我们尝试k1为0.1至0.4,b为0.1至1.0,步长为0.1的组合6.4对短语破坏者表6中的考虑到地面实况剧透,我们报告了预测剧透的表1)。总的来说,DeberTa-large是最有效的短语破坏者模型。基于我们的高置信度得分阈值,它生成核心-用于423个测试柱中的250-300个的矩形扰流器(即,对于约60-与我们的试点研究类似其中,MonoT5获得了最高的分数,但甚至比问题 回 答 基 线 BERT 的 有 效 性 低 得 多 例 如 ,BLEU-4 为58.89,可能有257个正确的剧透(423个测试帖子中的61%),BERT远远领先于MonoT 5,BLEU-4为4.95,只有82个可能正确的剧透(423个帖子中的19%)。6.5通道扰流器表6中的与短语破坏者相比,所有模型的可能正确的破坏者的数量都较低(甚至根据其BERTScore阈值的段落检索模型的更高数量的可
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功