SUMMSCREEN：电视剧摘要数据集与神经模型评估

123 浏览量更新于2023-12-01 收藏 556KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文SummScreen：一个用于抽象剧本摘要的Mingda Chen1Zewei Chu朱泽伟SamWiseman1Kevin Gimpel11美国伊利诺伊州芝加哥丰田技术学院{mchen，swiseman，kgimpel}@ttic.edu，zeweichu@gmail.com摘要我们介绍SUMMSCREEN，一个由成对的电视剧转录本和人类书面摘要组成的摘要数据集。该数据集提供了一个具有挑战性的测试平台抽象的总结有几个原因。情节细节通常在人物对话中间接表达，并可能分散在整个记录中。这些细节必须被发现和整合，以形成简洁的情节描述在重述。此外，电视剧本包含的内容并不直接与中心情节有关，而是用来发展人物或提供喜剧效果。这些信息很少包含在摘要中。由于人物是电视剧的基础，我们还提出了两个实体为中心的评价指标。从经验上讲，我们通过评估几种方法来表征数据集，包括神经模型和基于最近邻的方法。根据自动度量， Oracle提取方法优于所有基准模型，表明神经模型无法完全利用输入转录本。人工评价和定性分析表明，我们的非预言机模型在生成忠实情节事件方面与它们的oral- cle模型具有竞争力，并且可以从更好的内容选择器中受益。预言模型和非预言模型都产生了不忠实的事实，提示了未来的研究方向。11介绍摘要的目的是产生一个摘要，简洁地表达输入文档的关键点，而不仅仅是提取它的片段现有的数据集是从各种领域构建的，例如新闻（Sandhaus，2008; Hermannet al. ，2015; Rush等人，2015; Narayan et al. ，2018年;提交人在芝加哥大学期间所做的工作1代码、数据和训练模型可在https：//github.com/mingdachen/SummScreen成绩单：[公寓]谢尔顿：你想变成什么颜色？莱纳德：嗯，我也想是绿色的，但你知道你总是拿着它。谢尔顿：不是这样的。什么颜色都行我。是啊，我可以是蓝黄相间的。蓝和黄是绿色。谢尔顿：好吧，那就这么定了。嗨。准备好了吗？谢尔顿：哦，好消息，我们订了午餐，所以我们都可以留在这里玩《指环王冒险》。艾米：谢尔顿，我们说好今晚和你一起玩游戏的。谢尔顿：哦，不，我们今晚还是会玩的，这个游戏很容易就要玩上八个小时。亲爱的，你真的以为我想这么做吗？伦纳德：不。佩妮：你告诉他了吗？是的。佩妮：你是用语言大声说出来的吗？伦纳德：不。佩妮：我不想花一整天玩棋盘游戏。…回顾一下：谢尔顿和莱纳德很高兴玩棋盘游戏，直到艾米和佩妮说他们厌倦了做男人们想做的事图1：摘自SUMM-SCREEN的一个例子.文字记录和摘要来自电视节目《生活大爆炸》。在回顾中产生这句话需要辨别人物对玩棋盘游戏的感受（文字记录中的线索被下划线）（参考资料以红色显示）。彩色框表示属于相同对话的话语。Grusky等人，2018），在线论坛（Völske etal. ，2017），专利（Sharma et al. ，2019），会议对话（Janin et al. ，2003; Carletta et al. ，2005）和网页（Chen et al. ，2020）。然而，很少有数据集存在的叙事文本的抽象摘要在这项工作中，我们建立了SUMMSCREEN，一个抽象的摘要数据集相结合的电视剧成绩单和情节重述。图1显示了SUMM SCREEN的一个示例。SUMMSCREEN的几个方面使其成为抽象摘要的具有挑战性的测试平台一、人物对话arXiv：2104.07091v1 [cs.CL] 2021年4月+v：mala2277获取更多论文情节也不简单情节事件通常在对话中间接表达，对话包含其他与情节不直接相关的信息，如人物发展和幽默。此外，一个典型的情节有多个平行进行的子情节，连续的场景通常描述不同的子情节。解决SUMMSCREEN需要从输入的广泛范围内的话语中提取信息，并整合信息以形成简洁的情节描述。此外，由于实际的电视剧集的基础上，他们的脚本与视听资料，许多细节可能会被省略，从脚本本身。这种细节的省略和上述其他挑战性方面激发了对电视节目脚本中其他NLP任务的研究，例如实体跟踪（Chen和Choi，2016; Choi和Chen，2018）和共指消解（ Chen 等人， 2018 年）。，2017;Zhou and Choi，2018）。电视剧剧本的另一个突出特点是对人物的关注。为了反映这方面，我们提出了两个以实体为中心的指标来评估生成的情节摘要的质量一种是基于字符包，它可以测量出现在生成的和参考的摘要中的字符的重叠。另一个度量标准测量字符关系：世代和重述中字符对同现的重叠我们实证评估几种类型的方法SUMMSCREEN。我们考虑最近邻模型，它查找类似的成绩单或recap，神经抽象摘要模型，和混合模型，它使用最近邻模型作为内容选择器，然后抽象摘要。Oracle提取方法在所有自动度量上都优于所有模型。这些结果表明，基准测试方法无法充分利用输入的脚本和改进的内容选择可能是一个有前途的研究方向。人工评估表明，我们的非预言混合模型在生成忠实情节事件方面与它们的预言模型具有竞争力混合模型可能是未来研究的有前途的方法。定性分析表明，神经模型倾向于生成通用摘要，混合模型可以从更好的内容搜索中受益，2相关工作已经有关于提取屏幕播放摘要的先前工作（ Gorinski 和 Lapata ， 2015; Papalampidi etal. ，2020），并分析犯罪戏剧（Frermann etal. ，2018）。大部分电视节目的文字记录都是对话，将我们的工作与之前的对话和会议总结工作已经针对医学对话研究了相关数据集（Joshi et al. ，2020; Krishna et al. ，2020）、闲聊（SAMSum; Gliwa et al. ，2019），会议（ AMI; Carletta et al. ， 2005; ICSI; Janin etal. ，2003; QMSum; Zhong et al. ，2021）和新闻采访（MediaSum; Zhu et al. ，2021年）。已经尝试总结长篇文本（除了电影剧本），例如书籍（Mihalcea和Ceylan，2007）、科学文章（PubMed和arXiv; Cohan等人，2007）。，2018）、多新闻文章（Multi-News;Fabbri et al. ，2019），固执己见的文本（烂番茄;王和凌，2016），政府报告（GovReport;黄等人。，2021）和（摘录摘要）小说章节（Ladhak et al. ，2020）。关于这些数据集和SUMM SCREEN之间的差异的更详细的讨论在下一节中。最近，已经努力使电视节目的资源适应不同的任务，包括问答（Ma et al. ，2018;Yangand Choi，2019），speaker identification（Ma et al. ，2017）、讽刺检测（Joshi etal. ，2016年），情感检测（Zahiri和Choi，2017年; Hsu和Ku，2018年）和字符关系提取（Yu等人，2017年）。、2020年）。3SUMMSCREENSUMMSCREEN包含电视连续剧的成对转录本及其相应的摘要。译文包括有姓名的对话、场景描写和人物动作描写. 摘要是人类对相应的记录的书面摘要图1显示了来自电视节目“TheBig Bang Theory”的SUMMSCREEN文字记录记录了一段对话，涉及四个角色（谢尔顿、伦纳德、佩妮和艾米）关于玩棋盘游戏的故事，重述部分将对话总结成句子。3.1数据集构建我们使用两个来源来构建SUMMSCREEN：TheTV MegaSite，Inc.（TMS）2和ForeverDream-选择，和混合模型有时会产生不-忠实的细节2http://tvmegasite.net/+v：mala2277获取更多论文FDTMS一些节目8810发作次数434822503每集1168最大每集5683784每次演出的9.01973.5avg.每集49.42250.0avg.摘要中的令牌数113.7380.6avg. #成绩单7605.46420.7avg.记录中的行数447.6360.8avg. # char.文字记录中的话语330.7327.0avg. # uniq. char.在摘要中5.814.3avg. # uniq. char.的转录本20.629.8流派计数戏剧10浪漫6家庭4医疗1表1：SUMM S CREEN的详细数据集统计。3ing（FD），两者都提供了社区-贡献的成绩单。由于FD不提供摘要，我们从维基百科和TVMaze获得FD节目的摘要。4为了保证SUMMSCREEN的数据质量，我们根据两个标准过滤实例。第一，电视剧人物在电视剧中出现的重叠率应高于85%。我们使用这个标准来确保重述和转录本之间的比对是正确的。第二，具有说话人信息（“字符话语”）的脚本行的数量我们使用该标准来消除基本上是字幕的转录本没有说话者信息的话语。在实践中，对于每一个抄本行，如果一个冒号符号出现在前8个标记中，并且在冒号符号前面存在至少一个字符名称，我们将把它算作一个字符话语。表1显示了数据统计，图2显示了两个来源的电视节目的类型。在计算电视节目中唯一角色的数量时，我们首先从TVMaze中收集角色名称和抄本中冒号符号之前的命名实体5。然后，我们执行字符串匹配，以获得电视节目中的人物在recaps和成绩单的数量。从这两个表中，我们观察到FD和TMS在许多方面是不同的。首先，FD比TMS涵盖更多样化的类型。这部分是因为TMS的电视节目是肥皂剧。第二，FD的成绩单较长，这是由于FD的成绩单往往具有3http://transcripts.foreverdreaming。org/4https://www.tvmaze.com/，一个由电视迷策划的在线电视数据库。5我们使用spaCy的命名实体识别器（Honni-bal和Montani，2017）。图2：左：电视节目类型从永远的梦想- ing。右：TVMegaSite的电视节目类型。永远的梦想火车Dev测试#显示667881发作次数3673338337TVMegaSite火车Dev测试#显示101010发作次数1891517951793表 2 ： Forever-Dreaming 和 TVMegaSite 的train/dev/test拆分统计。更多关于环境或角色动作的描述，而TMS中的大多数是由对话组成的（见表1）。第三，FD的摘要较短，而TMS的摘要试图涵盖更多细节。鉴于这些差异，我们在以下实验中将FD和TMS视为不同的数据集。由于电视节目的情节通常是关于有限数量的角色，因此在SUMM SCREEN上训练的模型可能会关注这些角色及其典型行为，而不是输入脚本中发生的实际为了消除这种影响，我们创建了一个匿名版本的SUMMSCREEN，用随机字符ID替换字符名称。我们确保不同剧集中特定角色的ID是随机分配的（即，各集的ID不一致）。图3示出了来自匿名SUMM SCREEN的示例。也已经出于与刚刚描述的那些类似的关注创建了分析化的问题回答数据集（Hermann等人，2009）。，2015）。我们为FD和TMS创建train/dev/test拆分流派计数戏剧65浪漫24喜剧23犯罪18行动15科幻12冒险9超自然9神秘8惊悚片5家庭5医疗5幻想4恐怖4历史3体育3西方3儿童2法律2间谍1音乐1+v：mala2277获取更多论文匿名成绩单：[公寓]第90章：你喜欢什么颜色？好吧，我想成为绿色，但你知道你总是拿着它。ENTITY90：这不是真的。什么颜色都行我。是啊，我可以是蓝黄相间的。第74课：蓝色和黄色构成绿色。ENTITY90：好吧，那就这么定了。ENTITY77：嗨。准备好了吗？哦，好消息，我们订了午餐，所以我们都可以留在这里玩指环王冒险。ENTITY99：ENTITY90，我们说好今晚和你玩游戏的.哦，不，我们今晚还是会玩的，这个游戏很容易就能玩上八个小时。宝贝，你真的以为我想这么做？ENTITY74：没有。第77章：你告诉他了吗？ENTITY74：是的。第77章：你是不是说出来了？ENTITY74：没有。我不想花一整天玩棋盘游戏。…回顾：ENTITY90和ENTITY74很高兴玩棋盘游戏，直到ENTITY99和ENTITY77说他们厌倦了做男人们想做的事情图3：匿名SUMM SCREEN的摘录，对应于图1中的实例。角色名称被替换为跨剧集排列的ID。通过确保比率大致为10：1：1，并且如果参考文本短于30个单词标记，则过滤掉开发/测试分割中的实例。拆分的统计数据见表2。3.2数据集比较我们将SUMM SCREEN与表3中的其他抽象摘要数据集进行了比较。SUMMSCREEN在几个方面与其他数据集不同：1. 电视连续剧类型侧重于叙事，这是典型的实体为中心，可以包括多个平行的子情节在一个单一的插曲。2. 与最近提出的大规模对话摘要数据集（即， SAMsum 和 MediaSUM ），SUMMSCREEN具有更长的源输入。3. 与其他对话摘要数据集相比，SUMMSCREEN每个实例的说话者数量更大。4. 与长输入会议摘要数据集AMI、ICSI和QMSum相比，SUMMSCREEN的实例要多得多5. 与其他数据集不同，SUMMSCREEN包含单个节目的许多集（例如，对于TMS超过3k集）。这种情节结构可用于对角色弧、角色人格特征的演变以及情节中的角色关系等进行建模。上述属性（2）和（3）使得从转录本中提取信息比从其他数据集中提取信息更具挑战性。第四个属性意味着SUMMSCREEN足够大，可以训练和评估神经方法。由于MediaSum是由新闻脚本构建的，因此它是表3中与SUMMSCREEN最相似的数据集。然而，Medi-aSum中的摘要比SUMM-SCREEN中的摘要短二十倍，并且每个实例的平均发言者数量仅为SUMM-SCREEN 中的四分之一。此外，我们在SEC的结果。5.2表明我们的数据集比MediaSum更难，因为根据自动指标，预训练的模型在我们的数据集上的表现比MediaSum更详细的分析在下一节。3.3数据集挑战在本小节中，我们定性地分析了SUMMSCREEN的挑战方面。摘要描述了每集的情节细节，而文字记录则侧重于人物之间的对话，以及对场景和动作的有限描述。一个挑战是，情节信息没有明确地陈述，而只是隐含在对话中。例如，图1中的文字记录没有明确描述谢尔顿和伦纳德在玩什么。然而，当谢尔顿提到玩《指环王的冒险》时，以及后来佩妮说她不想“花一整天玩棋盘游戏”时，这是暗示一个相关的挑战是需要理解人物的话语所处的语境在这个例子中，概括描述了四个角色在玩棋盘游戏时站在哪一边。剧本通过人物之间的互动来表达人物冲突并没有发生，直到谢尔顿提出考虑到上下文，伦纳德同样，艾米提到他们之前与谢尔顿的协议，以礼貌地拒绝谢尔顿人物的情感不一定很容易从他们的话语中辨别出来，而是必须推断出来+v：mala2277获取更多论文实例数# tokens（输入）# tokens（摘要）发言者人数域多新闻56.2k2103.5264.7-新闻烂番茄3.7k2124.722.2-评论arXiv215k4938.0220.0-科学PubMed113k3016.0203.0-科学政府报告19.5k9409.4553.4-政府报告SAMSum16.4k83.920.32.2闲聊MediaSum463.6k1553.714.46.5新闻采访AMI1374757.0322.04.0会议ICSI5910189.0534.06.2会议QMSum1.8k9069.869.69.2会议SUMMSCREEN26.9k6612.5337.428.3电视连续剧表3：专注于长格式文本或对话的抽象摘要的数据集的统计数据这些数字是实例的平均值对于不包含对话的数据集，我们省略了发言者的数量SUMMSCREEN结合了长源输入、大量扬声器和中等数量的实例。摄像机！照相机！（从亚历克毫无反抗的手中接过相机）…212医生转过身，继续用相机拍照…256医生：塔迪斯就像一只猫--有点慢（跑去塔迪斯），但你最终会到达那里。（走进去）…好的！搞定了！就这样...但她绝对是个迷失的灵魂（走到屏幕前）她叫希拉·塔科里安。她是一个先驱，一个时间旅行者--或者至少几百年后她会是。简介：多亏了这个，医生才知道照片里不是鬼魂，而是一个叫希拉·塔科里安的时间电视剧：Doctor Who251（）的方式253 （博汉南从地板上的洞里钻了出来254 （瑞典人拉开门，看到博汉南已经逃走255 （博汉南蹲在火车站台下256 （）的方式257 （博汉南与一群工人混在一起。）258 [场景休息]…410 [切至：内景。杜兰特的车]411（杜兰特转过身来，困惑但并不惊讶地看到他站在那里。）的方式412 Bohannon：Mr.杜兰特简介：英文片名：Hell on Wheels图4：来自SUMM SCREEN的两个摘录，显示从电视节目记录生成摘要需要从广泛的输入记录中提取信息。我们只在记录中显示与摘要部分密切相关每行开头的数字是原始记录中的行号首先，由于篇幅限制，我们省略了几行包含医生在不同时间拍摄豪宅照片的线索。使用上下文和关于角色的知识SUMMSCREEN的另一个挑战是需要从广泛的输入转录中提取信息首先，有许多话语是为了达到一个目的，而不是推动情节向前发展。它们可能有助于发展人物或人物关系，或增加幽默或悬念。这些文字丰富了叙述，但其信息内容往往被摘要省略例如，在图4中的第一个实例中，我们显示了与摘要摘录有关的记录中的关键在所显示的台词之间还有许多其他的台词，这些台词是医生和其他角色之间的对话。此属性确保了模型通过表1中记录和转录中独特性状数量的差异，也可以观察到这种模式。记录中超过一半的字符没有包含在摘要中。第二个原因，为什么信息需要结合在广泛的范围内的输入关系到场景休息和多个情节。由于电视节目通常会同时讲述几个情节，因此会使用场景中断来分隔故事。这种不连续性有时需要模型将数百条线分开的子图连接起来。例如，对于图4中的第二个例子，该节目使用场景中断来表达当Cullen Bohannon从瑞典人那里逃跑时发生的事情，这就是为什么 CullenBohannon的逃跑和他出现在Durant的办公室之间有近两百行的4方法在本节中，我们将描述在SUMM SCREEN上进行基准测试的建模方法。我们注意到，由于文字记录+v：mala2277获取更多论文是高度依赖于上下文的，提取摘要方法预计不会对该数据集有用。我们报告了基于最近邻的提取摘要器的结果，主要用于表征数据集。4.1神经模型我们使用基于Transformer的序列到序列架构（ Vaswani et al. ， 2017 年）。 [6] 转录本比Transformer序列到序列模型处理的典型文本要长得多。因此，为了提高效率，我们限制了在解码器的atten- tion机制中使用的编码器隐藏向量的数量为此，在对转录本进行编码时，我们首先将一个特殊的标记然后，我们只将表示这些特殊标记的向量我们注意到，当在匿名SUMM-SCREEN上训练模型时，我们还将编码序列中代表实体ID的向量暴露给解码器，因为我们发现它有助于模型生成实体。因为转录本相当长，我们使用Longformer（Beltagy et al. ，2020）作为我们的编码器架构，并将“[EOS]”令牌设置为使用全局注意力。对于我们的解码器，我们使用标准的Transformer架构。对于匿名的SUMMSCREEN，我们发现使用指针生成器复制注意力是有帮助的（参见等人。，2017年）。当这样做时，我们只允许从转录本中复制实体ID，并且在训练期间，如果可能的话，总是强制模型从转录本中将复制概率设置为1）。4.2最近邻模型当找到最近邻时，我们考虑两个度量：BM 25（Robertson et al. ，1995）（信息检索的流行度量）和ROUGE分数（Lin，2004）。我们使用ROUGE分数，因为它们用于评估，我们使用BM 25，因为它是专为检索长文档，而ROUGE分数不是。当使用ROUGE分数时，我们使用ROUGE- 1、ROUGE-2和ROUGE-L的平均值。我们考虑三种类型的最近邻搜索：成绩单到成绩单，recap-to-transcript，recap-to-recap。6在我们的初步实验中，我们发现基于语言模型的生成模型在我们的数据集上工作得不好。摘要到转录本（NNM-r2 t）。我们将摘要中的每个句子用作查询，将相应记录中的行用作候选。生成由每个句子的最近邻居形成。我们使用BM 25或ROUGE分数作为度量。这种方法可以作为一个提取摘要系统的预言结果，大致显示了多少信息可以从源转录在话语水平上提取转录本到转录本（NNM-t2 t）。我们使用测试集中的成绩单作为查询，训练集中的成绩单作为候选，然后使用BM 25找到最近的邻居代是相应的摘要。当在匿名数据集上使用这种方法时，我们用通用实体令牌替换实体ID，使得IR系统不会受到随机分配的ID的影响。此基线测量训练和测试分割之间的实例相似性。回顾到回顾（NNM-r2 r）。这种设置类似于“成绩单到成绩单”设置，但我们对查询和候选人都使用了重述，并且我们使用了ROUGE和我们提出的以实体为中心的分数（参见第二节）。5.1更多详情）作为度量。当使用实体指标时，我们使用4个指标得分的平均值。这是“成绩单到成绩单”设置的oracle基线类似地，当在匿名数据集上使用这种方法时，我们将实体ID替换我们注意到，我们不基于匿名数据集上的实体度量来评估NNM-r2 r的版本，因为实体信息被消除了。4.3混动车型由于内容选择已被证明是有帮助的，在先前的工作（ Gehrmann et al. ， 2018; Liu et al. ，2018），我们使用由于这些方法结合了最近邻模型和神经模型，我们将它们称为混合模型。特别是，对于重述中的每个句子，我们找到转录中最相似的三行，包括在所选行之前或之后作为上下文的两行额外行，还包括通过使用整个重述检索的一在选择步骤之后，+v：mala2277获取更多论文FD 和 TMS 的转录本分别减少到 1138.9 和3252.7。由于所选内容明显短于原始记录，黄金标准回顾。类似地，我们将BoC召回定义为它允许我们使用预先训练好的模型。因此，在这种情况下，我们微调一个预先训练的BART-|f(generation)&f(r)||f(r)|（二更）大型模型（Lewis et al. ，2020）。我们注意到，由于最近邻模型依赖于黄金标准重述，因此当使用强大的内容选择器时，这种混合模型展示了性能的近似上限我们还注意到，我们使用1024的最大序列长度（即，由于计算约束，对于BART-大，如果输入序列长于1024，则截断它们。为了建立一个非Oracle基线，我们训练神经模型来预测选定的线路，然后在预测的线路上微调BART-大型模型这个组件的架构细节，我们称之为5实验5.1设置评价我们报告 BLEU （ Papineniet al. ，2002 ）、 ROUGE-1 （ R1 ）、 ROUGE-2（R2）和ROUGE-L（RL）.我们报告了这四个指标的平均值，因为它通常显示了生成和引用之间的语义相似性。当计算匿名数据集的这些指标我们将这些指标称为通用指标，因为它们平等地对待每个单词。由于角色是电视节目情节的基础考虑到这一因素，我们计算几个字符袋（BoC）指标的基础上生成的和黄金标准重述之间的重叠字符的分数。形式上，我们将BoC精度定义为由于BoC不考虑字符之间的关系，我们还报告了基于字符对同现的字符关系（BoR）度量包。我们假设两个字符出现在同一个句子中是相关的。在从黄金标准的重述和世代中获得特征关系之后，我们按照与BoC相同的方法我们注意到，所提取的关系是无方向的，并且BoR不考虑同现的频率。我们还报告了来自BoC和BoR指标的精确度和召回率的平均值。超参数我们使用字节对编码（ Sennrich etal. ，2016），具有大约10k的词汇量。我们将编码器的最大序列长度设置为14336，解码器的最大序列长度设置为1024我们使用200的有效批量，并训练模型50个epoch。我们使用1层编码器和12层解码器，除非另有说明，否则隐藏单元为1024。在训练过程中，我们根据困惑对开发集执行早期停止在测试过程中，我们使用波束搜索与三元组块（保卢斯等人。，2018）和光束尺寸为5。对于神经内容选择器，我们使用 3 层longformer编码器，然后是具有GELU激活的2层前馈网络（Hendrycks和Gimpel，2016）。我们根据开发集上的F1分数执行早期停止，其中阈值是通过对每个实例的oral阈值进行平均来选择的。在选择内容时，我们使用基于开发集选择的阈值，并确保每个转录本的行数不少于10%。该模型在FD上实现了19.0的测试性能（F1分数），在匿名FD上实现了19.2，在TMS上实现了41.5，并且|f(generation)&f(r)||f(generation)|（一）40.1在匿名TMS上。5.2结果其中f是一个从某些文本中提取字符包的函数，我们根据在数据集构建过程中自动提取3.1），&计算两个袋子的交集，|·|返回其输入的大小，r是我们在表4中报告了FD和TMS的测试结果。对应于匿名数据集的结果在表5中。我们注意到，对于匿名化数据集，当计算NNM-t2 t和NNM-r2 r的实体相关度量时，我们针对去匿名化的代计算它们。+v：mala2277获取更多论文通用型实体BleuR1 R2 RLavg.BoC-pBoC-rBoR-ravg.永远的梦想NNM-r2t（oracle，BM25）3.434.36.629.618.570.561.936.416.146.2NNM-r2t（oracle，RG）3.934.88.531.519.776.763.346.521.352.0NNM-r2r（oracle，RG）9.938.811.533.923.550.651.424.626.838.4NNM-r2r（oracle，Entity）5.531.16.827.117.658.679.626.443.752.1NNM-t2t7.931.37.827.418.656.559.228.229.443.3神经模型2.625.94.223.814.154.738.522.815.132.8混合模型2.425.33.923.113.761.251.429.823.641.5混合模型（Oracle）3.026.45.023.314.470.057.836.929.148.5TVMegaSiteNNM-r2t（oracle，BM25）6.745.010.243.026.282.580.457.718.159.7NNM-r2t（oracle，RG）8.544.111.742.426.785.276.861.216.960.0NNM-r2r（oracle，RG）7.949.011.646.928.959.259.029.529.944.4NNM-r2r（oracle，Entity）4.942.88.840.424.260.881.726.037.551.5NNM-t2t6.243.28.641.424.963.269.331.835.349.9神经模型7.942.911.941.626.186.148.748.922.351.5混合模型5.538.810.236.922.884.557.251.029.355.5混合模型（Oracle）8.942.111.940.925.984.069.556.436.861.7表4：SUMM SCREEN测试集的结果。BLEU、R1、R2和RL是模型生成和参考摘要之间的BLEU和ROUGE评分。Bo{C，R}-{p，r}分别是字符袋和字符袋关系的查准率和查全率。每列中每个数据集的最高数字以粗体显示。我们对最近邻模型的发现如下：1. 我们发现，最近邻模型在原始数据集和匿名数据集上都有很强的性能特别是，NNM-r2 t在所有数据集上表现出最佳性能。这表明，我们的神经模型从转录本中提取最有用信息的能力仍有改进的空间，这表明改进的转录本建模可能是这些数据集的一个富有成效的研究方向2. 有趣的是，观察匿名和非匿名数据集之间最近邻模型的性能差异这些差距表明，匿名化不会导致重述和记录之间的相似性有很大差异，但它使重述和记录之间的相关性变弱，特别是对于那些实体。3. 值得注意的是，NNM-t2 t擅长于匹配语义（如通过ROUGE分数所证明这可能是因为在抄本中，人物名字（如说话人的名字）比在摘要中出现得更频繁，导致在搜索抄本的最近邻居时，人物名字的权重更高4. 我们观察到NNM-r2 r表现出不同的当基于不同的度量时，例如，使用ROUGE分数将导致有利于通用度量的结果。至于涉及神经模型的结果，我们的发现如下：1. 神经模型在通用语义匹配方面表现出很强的性能6.3和Sec. 6.4更多讨论）。2. 混合模型在生成字符提及和关系方面优于神经在Oracle内容选择器的帮助下，混合模型在语义匹配和实体相关度量方面都有了显著的改进，这表明未来的研究可以通过设计更好的内容选择器来改进。6分析6.1人工评价我们对三种模型进行了人工评估：NNM-t2 t，混合模型和混合模型（Oracle）。为了评估SUMM SCREEN的两个关键方面，即事件和人物关系，我们向人类注释者提出了两个问题。第一个问题是+v：mala2277获取更多论文谓词角色关系NNM-t2t混合模型混合模型（Oracle）1.6± 0.82.3± 0.92.4± 1.02.1± 1.12.0± 1.02.4± 1.0分数TMS固定化TMS所有61.761.7百分之八十19.125.5百分之六十11.017.0通用型实体BleuR1 R2 RLavg.BoC-pBoC-rBoR-ravg.永远的梦想NNM-r2t（oracle，BM25）3.534.56.830.018.770.460.437.516.746.2NNM-r2t（oracle，RG）4.034.78.531.419.776.863.449.122.653.0NNM-r2r（oracle，RG）7.934.39.130.120.45.46.30.20.13.0NNM-t2t6.026.26.023.015.321.56.65.00.28.3神经模型2.628.64.625.115.265.057.727.930.645.3混合模型2.323.13.920.612.512.22.30.30.03.7混合模型（Oracle）2.926.05.022.214.033.98.83.60.611.7固定化TVMegaSiteNNM-r2t（oracle，BM25）6.945.010.242.926.282.680.558.920.760.7NNM-r2t（oracle，RG）8.744.111.742.326.785.376.761.819.360.8NNM-r2r（oracle，RG）6.042.89.341.124.846.314.73.80.616.3NNM-t2t4.426.26.023.014.947.715.23.80.516.8神经模型7.141.611.640.425.286.853.632.015.246.9混合模型6.237.79.336.422.482.562.347.430.255.6混合模型（Oracle）6.138.910.137.623.284.368.155.638.861.7表5：匿名SUMM SCREEN测试集的结果。BLEU、R1、R2和RL是模型生成和参考摘要之间的BLEU和ROUGE评分。Bo{C，R}-{p，r}分别是字符袋和字符关系袋每列中每个数据集的最高数字以粗体显示。表6：人体评价结果。我们报告了谓词匹配和字符关系相似性问题的平均得分及其相应的标准差。“在参考文献中？”第二个问题是“当多个字符在生成的摘要中被提及为以某种方式相关时，这些相同的字符是否在引用中被我们忽略第一个问题中的主题，因为第二个问题涉及评估角色，我们希望这两个问题关注不同的方面，以最大限度地提高人工注释的效率。评级为1-5级，5表示完美匹配。我们从非匿名FD测试集中随机挑选实例。我们（作者）为每个问题共注释了120个实例。在删除第二个问题的2个无效注释后（因为可能没有提到多个字符），我们在表6中总结了结果。虽然模型在字符关系上的性能趋势通常与表4中的观察结果相似，但NNM-t2 t的谓词匹配结果这可能是因为第一个问题是关于谓词忽略7这里的“went home” in “John went表7：在各种实体子集上计算的实体度量的平均分数，在形成子集时丢弃最常见的实体。例如，结果是基于Oral- cle混合模型。参与者的正确性我们还想强调的是，与Oracle混合模型相比，非Oracle混合模型在谓词匹配方面表现出竞争力，但在生成正确的字符关系方面不太接近，这表明了未来改进该模型的机会。6.2防腐效果我们通过调查稀有实体的表现来研究匿名化的效果。为此，我们首先从训练集中计算每个电视节目的实体频率，通过它们的频率对实体进行排名，根据排名挑选稀有实体，并评估所选实体的性能我们在表7中总结了结果。我们发现，在匿名TMS数据集上训练的模型在稀有实体上具有更好的性能，这表明匿名化有助于对稀有实体进行建模。这两个模型在“所有”设置中具有相同的性能，这表明匿名化也使学习公共实体变得更加困难，符合我们的+v：mala2277获取更多论文通用实体永远的梦想表8：比较ForeverDreaming上有和没有复制机制的模型。通用实体永远的梦想TVMegaSite固定化TVMegaSite表9：比较在两个数据集（TMS + FD）上训练与仅在域内数据集上训练的oracle混合模型的结果。这些指标是通用指标和实体指标的平均得分。在这两个数据集上进行训练有助于FD，但对TMS有害。6.3复制机制我们在表8中报告了关于ForeverDreaming的结果，比较了有和没有复制机制的模型我们注意到，该表中使用的模型使用具有512个隐藏单元的6层解码器，因此结果不能直接与其他重解码器进行比较。在测试时，我们在官方测试分割上评估模型。我们使用Oral- cle混合模型进行实验，结果见表9。一般来说，我们发现额外的训练数据有助于FD。我们假设这是由于FD的尺寸相对较小。然而，对于TMS，FD上的训练损害性能，这可能是因为TMS的训练集大小更大以及两种资源之间有趣的是，匿名化的ForeverDreaming从额外的训练数据中受益匪浅，这支持了我们之前的假设，即复制机制有助于减少所需的监督量6.5代样本在表10中，我们显示了以下模型的生成样本：NNM-t2 t、神经模型、混合模型和Oracle混合模型。对于NNM-t2 t，基于角色名称和主题，从阅读预测的重新帽中可以清楚地看出，它来自不同的剧集虽然这一代人和参考共享类似的主题，但两者所陈述的事实却截然不同。神经模型设法将引用中的大多数字符名称拟合到生成中。这一代共享类似的主题与参考，但相比，混合动力车型，它缺乏细节。这与我们从自动化指标中观察到的结果相匹配，其中神经模型在通用指标上表现更好，但在结果。从表8中的结果，我们发现复制机制在匿名数据集上有很大的帮助，但在非匿名数据集上给出了混合的结果这可能是由于对于匿名数据集，没有足够的用于字符ID嵌入的训练数据，并且复制机制有助于减少所需的监督。虽然可能有更好的方法来处理可以避免这个问题的字符ID（例如，从类指数分布而不是均匀分布中采样ID然而，这种好处并不适用于非匿名数据集，因为模型在通过访问字符名称来学习字符名称嵌入6.4

下载后可阅读完整内容，剩余1页未读，立即下载