没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文Sparks:语言模式对科技写作的启示KATY ILONKA GERO,哥伦比亚大学,美国VIVIAN LIU,哥伦比亚大学,美国莉迪亚湾美国哥伦比亚大学,奇尔顿图1.一、我们的系统的一个例子截图为主题该系统产生了三个“ 第一个火花被“主演”为鼓舞人心的。大规模语言模型正在迅速改进,在各种各样的任务上表现良好,几乎没有定制。在这项工作中,我们研究语言模型如何支持科学写作,一个具有挑战性的写作任务,是开放式的和高度约束。我们提出了一个系统,用于生成我们发现,我们的火花比竞争性语言模型基线更连贯和多样化,并接近人类创造的黄金标准。在一项研究中,13名博士生就自己选择的主题进行了写作,我们发现了火花的三个主要用例:帮助制作详细的句子,提供有趣的角度来吸引读者,以及展示共同的读者观点。我们还报告了sparks被认为没有帮助的各种原因,并讨论了我们如何改进语言模型作为编写支持工具。作者katy@cs.columbia.eduvivian@cs.columbia.eduChilton,chilton@cs.columbia.edu,哥伦比亚大学,纽约,美国。允许免费制作本作品的全部或部分的数字或硬拷贝,以供个人或课堂使用,前提是制作或分发副本的目的不是为了盈利或商业利益,并且副本的第一页上有本声明和完整的引用。版权的组成部分,这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要 以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或付费。 请求权限请发邮件至permissions@acm.org。©2021计算机协会。提交给ACM的提交给ACM1的arXiv:2110.07640v1 [cs.HC] 2021年10+v:mala2277获取更多论文提交给ACM的2Gero,Liu,andChilton.CCS概念:·以人为中心的计算→HCI的实证研究;自然语言界面;·信息系统→语言模型。附加关键词和短语:创造力支持工具,写作支持,共同创造力,科学写作,自然语言处理ACM参考格式:Katy Ilonka Gero,Vivian Liu,and Lydia B.切尔顿2021年Sparks:Inspiration for Science Writing Using LanguageModels(英语:Sparks:Inspiration for Science Writing Using Language Models)1,1(2021年10月),26页。https://doi.org/10.1145/nnnnnnn.nnnnnnn1引言大规模语言模型的新发展已经产生了能够在各种领域生成连贯,令人信服的文本的模型[3,11,50]。他们的成功促进了许多任务的改进,从分类到问答到总结[11],以及创造性写作支持[17]。语言模型有可能成为强大的写作工具,可以支持现实世界中的作家,高影响力的领域。这些新模型是任务不可知的,使它们适用于许多任务,而不需要更多的训练,我们相信这样的模型是人工智能技术的未来。尽管语言模型取得了成功,但它们仍然存在已知的问题,例如通用输出[26],输出缺乏多样性[28],以及事实上错误或矛盾的信息[35]。 关于这项技术如何在现实世界的任务中与人们进行交互,仍然存在许多未知数,例如什么样的交互最适合作家,语言模型如何最好地为不同的写作形式做出贡献[13],以及如何减轻语言模型编码的偏见[8]。为此,我们研究如何将语言模型应用于现实世界的高影响力写作任务。特别是,我们使用一种称为“tweetorials”的科学写作形式,在Twitter上为普通观众解释技术概念。推文是大约500个单词的简短解释,进入门槛低,作为科学写作媒介越来越受欢迎[47]。从事科学写作需要一个系统来证明在专业领域内的熟练程度 这比传统的创造性写作任务(如故事和诗歌)要困难得多,后者倾向于处理共同的对象和关系。因此,我们提出以下研究问题:RQ:语言模型的输出如何支持作者进行创造性但受限的写作任务?在本文中,我们提出了一个系统,其目的是激励领域的专家在写一个主题的他们的专业知识的tweetorials这个系统提供了我们所说的我们的系统使用中等规模的语言模型(GPT-2 [39])和自定义解码方法生成火花,以鼓励特定和多样化的输出。此外,我们开发了一套基于叙事学和叙事理论的10个提示,参与者可以在与模型交互时使用。我们做了两次评估。首先,我们将自定义解码方法的输出与竞争基线以及人类创造的黄金标准进行比较,报告所有输出的多样性和一致性。在我们的第二项研究中,我们让来自五个STEM学科的13名博士生用我们的系统写推文,并报告他们如何思考和利用这些火花。我们做出以下贡献:• 使用语言模型产生与科学概念相关的“火花”的系统• 用于从预先训练的语言模型生成火花的定制解码方法• 一项评估表明,火花比现成的系统更连贯和多样化,并接近人类的黄金标准;以及提交给ACM的+v:mala2277获取更多论文Sparks:Inspiration for Science Writing Using Language Models 3(英语:Sparks:Inspiration for Science WritingUsing LanguageModels 3)• 一项由13名博士生参与的探索性研究,展示了Sparks的三个主要用例最后,我们讨论如何在受限的写作任务中最好地使用语言模型2相关工作2.1自然语言生成语言模型是预测单词序列的可能性的任何模型这可以用来生成文本,方法是给模型一个前缀--一个单词序列或一个特殊的“序列开始”单词--并让它计算词汇表中所有单词作为下一个这可以用来选择下一个单词,从而生成文本。 语言模型是在不需要以任何方式注释的文本数据集上训练的,因为模型可以简单地训练句子中的下一个单词[29]。语言模型变得越来越大:它们正在接受更多文本的训练,并且模型具有更多参数[3,11,39]。最近的很多工作都是关于如何最好地利用这些大型语言模型,这些模型比以前的模型更通用[31],甚至在生成代码方面也有希望[6]。此外,能够采用一种语言模型并将其用于许多任务,而不是必须为每个任务训练一个新模型,这很有用。已经证明,精心选择的前缀或由此产生的一系列研究已经自动创建自然语言提示或连续矢量提示,以在任务中表现良好[19,34]。然而,自动学习的提示还没有始终优于手动制作的提示[19]。此外,很少有关于开放式生成任务的即时选择的研究[17]。尽管语言模型取得了成功,但问题仍然存在。当考虑文本的生成时,语言模型倾向于输出重复和模糊的响应[26,28]。语言模型也没有真实的模型;它们从大量文本中学习相关性 因此,他们能够产生包含谎言和攻击性语言的文本[8]。2.2生成式写作支持技术写作支持有着悠久的历史,但随着语言模型的改进,人们的关注度也在增加早期关于创造性写作的语言模型的工作集中在讲故事[42]和隐喻写作[15]等活动上。虽然这些工具被证明对作家有帮助,但它们所能提供的范围很窄一项探索性研究发现,语言模型中的通用自动补全并没有为小说家提供足够的控制[13]。最近关于写作支持创造性任务的工作已经改变了技术支持作家的方式,例如通过提供描述,情节点,甚至根据作家的愿望提出问题[5,17]。非小说类写作任务的写作支持往往受到更多的限制,例如句子完成[16]。一个很好的例子是Gmail帮助人们对那些处于心理健康危机中的人做出回应的工作重点是为作者提供反馈和建议的单词,而不是完整的短语或句子[38]。虽然自然语言生成是一个庞大且不断发展的领域,但很少有人在作者如何使用它们的背景下研究它的技术例如,虽然有很多关于自动摘要的工作[25,57],+v:mala2277获取更多论文提交给ACM的[4]Gero,Liu,andChilton.there’s 我们的工作旨在研究如何生成的语言模型的文本可能被作家在科学写作任务中使用这2.3社交媒体上的科学传播科学传播有助于公众了解科学的贡献-传统上,科学传播是通过期刊、会议、文章和书籍进行的然而,数字网络的兴起使科学通过电子期刊和数字记录建立了虚拟存在。社交媒体的普及进一步为科学家提供了直接接触公众的渠道。 现在,任何科学家都可以通过在网上发布他们的工作来进行在线科学交流[47],参与Reddit上的“Ask”社区[ 22 ]或在Youtube上解释一些东西[ 52 ]。 即使是博士生或本科生研究人员也有能力在任何时候传播他们的科学知识,而不依赖于地点或出版物。这一新兴趋势--科学家现在可以参与隐含的门控、同行评议过程之外的对话--反映了传统科学传播的诸多广泛转变之一 科学传播学者将这种新兴的传播形式具体化为“后常态科学传播”[ 12 ]。后规范科学传播的特征包括对主体性的宽容、自我的介入、倡导的整合和行动的号召。尽管有这些戏剧性的变化,科学传播的原始原则,如讲故事,类比,数字和引用仍然是有价值的,特别是讲故事是我们系统中的一个驱动原则。2.4说明文与叙事理论在研究叙事如何嵌入文本时,我们转向符号学和话语理论中关于叙事和知识结构的丰富文献这些域为我们寻找可以用来提示语言模型的结构提供了我们研究了简短和叙述性写作的框架,因为推特是两者的混合体具体来说,我们借鉴了叙事文本的建构主义理论,叙事文本的话语理论,以及叙事文本的话语理论。叙事学的建构主义框架指出,所有的阅读理解都是读者在建立一个心理模型,解释为什么某些行为、事件和状态会出现在一个情境中时,会进行推理建构主义框架有一个推理分类,我们的许多提示模板都借鉴了这个分类我们的提示语是这些推理类的一个子集,如案例结构角色分配,因果先行词,上位目标的存在,以及名词类别的实例化。与此同时,我们研究了临时文本语篇理论的知识结构,这将有助于提示模板。 一个框架的简要文本介绍了教学方法(评估,解释,场合和扩展)的分类,列举了不同的会话动作,作者可以“影响读者的推理过程”[48]。Meyer et.提出了一种替代的和流行的框架例如,他列举了一些区分暂时性文本的信号短语,如“具体地”或“属性”。我们选择将Meyer框架中的多个信号短语合并到我们的提示模板中[37]。提交给ACM的+v:mala2277获取更多论文Sparks:语言模式对科技写作的启示53形成性研究为了了解语言模型如何最好地支持撰写推文的任务,我们进行了一项形成性研究,参与者首先获得了一种技术,以便提出一个令人信服的介绍,然后被要求就他们熟悉的技术主题撰写推文的第一条推文。由于第一条推文倾向于建立推文的上下文和意图[10],我们发现这是一种有效和高效的方式来理解参与者在写作过程中发现的困难,即使提供了写作策略。3.1方法我们招募了10名计算机科学专业的学生1参与者被要求完成关于如何编写两个示例主题的引人入胜的科学写作介绍的教程-递归和虚拟专用网络-其中包括几个示例和一个逐步提出想法的过程。这些教程专注于为第一条推文提出一个有趣的问题,并与一位科学记者协商开发这个过程是:1)头脑风暴三个与主题相关的具体情况,2)把每个情况变成一个问题给读者,3)选择最吸引人的问题。2这些教程旨在为参与者提供尽可能多的教程结束后,参与者被要求从六个计算机科学主题中选择一个主题,并为解释该主题的推文撰写第一条推文参与者被要求在写作过程中大声思考他们不被允许浏览网页。之后,他们在一个半结构化的采访中被问到一系列关于他们写作过程的问题。在所有参与者完成研究后,研究小组与科学记者一起审查了他们的写作没有进行正式的编码,但讨论了一般的成功领域和发展领域。3.2结果3.2.1参与者报告说,这项任务需要创造力,而且很难提出想法。 虽然我们没有把这个任务定义为一个创造性的写作任务,但许多参与者都认为这个任务很难,因为它需要创造力来提出一些能吸引读者的东西。大多数参与者说,他们 这支持了我们选择tweetorials作为写作任务,因为我们想研究一个既有约束力又有创造性的任务。与会者发现教程很有帮助,尽管原因有很多有些人喜欢看这些例子,有些人喜欢遵循一个过程,还有一些人发现通过头脑风暴和修改,写作变得更好是令人欣慰的有几个人评论说,教程使任务看起来很容易,但当他们开始写自己的主题时,想出主意却出奇地困难。大多数参与者(10人中有9人)说,使一般读者对主题感兴趣是写作任务中最困难的部分。 当被要求更具体时,参与者提到提出具体的例子/情况,并创建一个吸引人的问题作为硬任务。虽然这肯定受到教程介绍的过程的影响,但这证实了教程不足以完全支持作者完成这项任务。16名妇女/4名男子; 7名2教程的链接将在匿名审查后发布[3]题目是:散列、排序算法、贝叶斯定理、HTTP、晶体管和车削机。 我们选择了这些主题,a)大多数计算机科学专业的学生应该在正式的环境中学习,b)可以成为一个有趣的推特。+v:mala2277获取更多论文6Gero,Liu,和Chilton.提交给ACM的3.2.2参与者努力想出创造悬念的想法 在回顾参与者所写的内容时,所有的推文都模仿了例子的语气。然而,这位科学记者对所有人都提出了批评,而且大多数批评的核心都是一样的:这条推文缺乏悬念。他的意思是,这条推文并没有在读者的理解中引入一个令人信服的问题或差距,这会让读者想读更多。这通常是因为所使用的示例此外,参与者倾向于向选择相同主题的其他人重复类似的想法例如,所有写HTTP的人都使用Google或Twitter作为他们的例子,这表明参与者可能会聚集在类似的,容易达到的想法上。考虑到参与者报告说想出想法很困难, 研究小组的成员还指出,许多写的推文可能很难变成完整的推文。例如,如果这个问题真的不能用他们所 出于这个原因,在未来的研究中,我们让参与者不仅仅写第一条推文。3.3设计目标基于我们的形成性研究,我们为我们的系统制定了两个设计目标3.3.1支持作家产生想法。鉴于语言模型没有真实的模型,我们希望我们的系统能够产生“火花”,旨在激发作者的想法,而不是让系统自己提供想法。这与先前关于创造力支持工具的工作相一致,用户使用系统输出作为初始方向,然后在用户的实际创作中解释和偏离[ 21 ]。此外,这也鼓励作者对最终产品有更多的所有权,这在过去的工作中已经被证明是一个问题[38]。3.3.2产生一致和多样的产出 为了使作者能够利用产出,即使它们并不总是完全准确,它们也应该是连贯的--格式良好,通常反映准确的知识。此外,为了支持想法的产生,输出也应该是多样化的,这样作者就有各种各样的输出可以利用。4系统设计4.1产生火花4.1.1语言模型选择。 为了生成火花,我们使用GPT-2,这是一个开源的中等大小(15亿个参数)的Transformer语言模型,在来自Web的40 GB文本上进行训练[39]。我们使用huggingface实现[54]。虽然有更大的开源模型可用,例如GPT-3 [11]或Megatron-LM [45],我们希望限制我们使用的模型的大小,因为较大的模型运行起来更昂贵,并且需要更多的时间来生成文本。此外,对于超大型语言模型有很多批评[8],因此我们希望使用能够在我们的用例中表现良好的最小语言模型有趣的是,我们发现DistilGPT 2,一种“蒸馏”的,较小版本的GPT-2 [ 43 ],不能对我们的提示产生连贯的我们在科学写作的数据集上进行了微调GPT-2的实验,但发现这几乎没有什么区别,特别是与修改解码方法或提示相比。出于这个原因,我们的大部分设计工作集中在解码和快速工程。4.1.2解码方法。 除了选择模型之外,我们还必须设计一种解码方法-如何在给定模型输出的概率分布的情况下选择下一个令牌。有几种常见的解码方法,+v:mala2277获取更多论文Sparks:语言模式对科技写作的启示7提交给ACM的图二、此图显示了在提示“cryptography is used by”的情况下,接下来20个最有可能的单词的可能性橙色线显示了用归一化逆词频(NIWF)重新加权后的分布像“政府”、“比特币”、“软件”和“开发人员”这样的词的概率增加,而像“许多”、“两者”和“所有”这样的词则不会被修改。语言模型:贪婪搜索,波束搜索,top-k采样[26]和top-n采样[18],仅举几例。不同的方法有不同的优点和缺点。波束搜索往往会产生高质量的结果[36],但也往往会产生非常相似的结果相同的提示。抽样方法可以产生更多样化的结果,但代价是不那么连贯。 我们设计了一种方法,试图进一步增加波束搜索的相干性,同时也增加其多样性。首先,我们使用归一化的逆词频修改概率分布,以增加不频繁单词的可能性 归一化的逆词频经常用于自然语言生成,以提高输出的特异性[32,58],这是提高结果整体质量的一种方法。据我们所知,这是第一个纯粹使用归一化逆词频作为解码方法的工作,而不是在训练过程中。为了计算单词频率,我们需要一个语料库,它不会像科学写作数据集那样过度代表不常见的科学单词,但也会反映现代单词的出于这些原因,我们使用Vox新闻文章语料库,其中包括2017年3月之前发表的所有文章4图2显示了一个示例,概率分布被修改。 在这个图中,你可以看到像“政府”,“比特币”,“软件”和“开发人员”这样的词有了增加的权重,而像“许多”,“两者”和“所有”这样的词没有被修改。其次,我们只使用排名前50的代币。这有时被称为top-k采样,因为只使用顶部的tokens [18]。然而,由于我们没有使用抽样方法,因此这样做的效果是确保修改后的概率分布不会引入任何不一致性,例如通过大幅增加原始概率分布中非常低的令牌的排名。第三,我们通过强制每个输出的第一个令牌是唯一的来增加输出的多样性,但试图保持相干性,从而使用波束搜索生成其余的令牌。虽然已经提出了几种更复杂的方法来增加分集,同时保持波束搜索的相干性(例如,[51]),在测试中,我们发现没有一个像简单地强制第一个令牌是唯一的那样有效。最后,为了保持火花的简洁和快速生成,我们只在提示后生成10个令牌并在一个句子完成后立即停止生成我们使用huggingfacetransformers实现我们的解码方法[54]。54https://data.world/elenadata/vox-articles5匿名审核后添加的代码链接+v:mala2277获取更多论文8Gero,Liu,和Chilton.提交给ACM的表1.为科学写作任务设计的提示模板类别提示{topic}的一个属性是具体来说,{topic}具有实例化等特性。{topic}发生在现实世界中,例如,人们使用{topic}来{topic}用于因果关系{topic}发生,因为例如,{topic}导致角色{topic}由{topic}由以下人员研究4.1.3快速设计。 为语言模型设计提示已经成为一个活跃的研究领域,提出了许多自动方法[19,34]。然而,任何自动方法都需要至少一些训练数据,并且还没有看到自动开发的出于这些原因,我们手工制作我们的提示。首先,我们创建一个前缀提示已被证明可以通过为语言模型提供适当的上下文来大大提高性能[41]。在开发的早期,我们发现仅仅为模型提供一个技术主题是不够的例如,如果你使用像“自然语言生成用于”这样的提示,模型可能会谈论语言的语言学研究,而不是计算方法。如果你使用提示,“自然语言生成,计算机科学中的一个主题,被使用”,结果更有可能是指计算语言生成。考虑到这一点,我们在所有提示前加上以下内容:“{topic} is an importanttopic in {context area}”,其中{topic}和{context area}由作者提供。在手工制作提示时,我们希望确保我们的提示捕捉到一系列相关的角度,这样我们的系统就可以灵活地与任何技术学科合作。为了做到这一点,我们将暂时性和叙事理论的工作合成为五个类别的提示:暂时性,实例化,目标,因果关系和角色。每个类别代表一个作家可能想探索的角度 所有提示都可以在表1中看到。我们根据我们在相关工作中引用的我们的提示类别的实例化,目标,先行词,和角色的基础上精心制作的建构主义框架的推理,特别是以下类别:情况下结构的角色分配,因果先行词,上级目标的存在,和一个名词类别的实例化(分别)。不太正式的,实例化提示模板建议完成实例化主题X在现实世界中可能出现的位置和方式。目标提示模板建议完成,代表主题X在现实世界中如何使用。原因提示模板建议主题X如何在因果链中相互作用角色提示模板涵盖主题X涉及的实体由于推文同时表现出叙事和过渡性写作的元素,我们还从Meyer的过渡性文本框架中借用了信号短语例如“+v:mala2277获取更多论文Sparks:语言模式对科技写作的启示9提交给ACM的图3. 我们的系统的示例屏幕截图生成火花。答:作家可以从下拉菜单中选择10个提示模板B:作者可以在下拉菜单中添加自己的提示C:火花是用左边的灯泡图标生成的,如果作者点击灯泡,它会高亮显示,火花被复制到文本区域。D:作家可以点击生成按钮来生成新的火花。在测试中,我们发现参与者通常希望通过输入自己的提示来出于这个原因,我们为作者添加了添加他们自己的提示的能力,尽管这个提示也会加上我们的前缀。64.2接口我们设计了一个网站,需要在一个作家图3显示了系统的屏幕截图,并标记了其重要特性该网站由一个用于写作的文本框和一个位于其上方的“提示框”组成作者可以从提示菜单中选择模板化的提示,或者键入自己的提示并将其添加到提示列表中。当一个提示被选中时,如果他们按下作家可以通过点击灯泡图标来 如果写入器选择不同的提示符,则已生成的火花将被保留,以便如果它们返回到先前的提示符,则它们所生成的火花将再次显示。文本框包含一些对tweetorial写作任务有用的功能文本框被分成两个部分,并带有一行破折号。线以上是保留的头脑风暴和笔记,一个功能作家要求,并发现在试点研究有用。下面的线是文字区的鸣叫写作。文本框的顶部显示了作者tweetorial草稿的字数,左侧显示了每条tweet的字符数(由换行符和两个正斜杠分隔)。图4通过我们的用户研究中的一个示例展示了这些特性该网站使用Python 3.7和Flask Web框架实现7[6]一个有趣的研究领域是“元前缀”,其中语言模型用于为下一代生成前缀[ 41 ]。 虽然我们发现这为我们的用例产生了有趣的结果,例如通过让模型首先生成与主题交互的人员类型列表,然后将这些短语放入下游模板中,但我们认为它增加了太多的复杂性。7链接到演示将在匿名审查后发布+v:mala2277获取更多论文10Gero,Liu,和Chilton.提交给ACM的图四、来自我们用户研究的文本区域的屏幕截图在顶部是一个单词计数,它只计算虚线以下的单词。虚线上方的文本被解释为头脑风暴或笔记。参与者可以用双“//”分隔推文,每条推文的字符数显示在其左侧。5研究1:火花质量我们想评估我们的系统产生的火花的质量特别是,我们想评估火花,在隔离(即,而不是在写作任务中),达到了我们的设计目标的连贯性和多样性。我们还想测试spark对各种主题的支持程度,以及某些提示符对某些主题的支持是否优于其他主题。 为此,我们将自定义解码方法产生的火花与基线系统以及人类创建的黄金标准进行了比较。我们有三个假设:• H1:自定义解码比基线系统产生更多的一致性和多样性输出,但比人类创造的黄金标准少一致性和多样性输出• H2:自定义解码在许多不同的主题中执行一致• H3:某些提示对某些主题更有效5.1方法我们想评估各种主题的想法的质量我们选择了三个在维基百科上有术语表页面的学科,并且已经被证明是社交媒体上科学写作的丰富学科8这些学科是计算机科学、环境科学和生物学。 对于每个学科,我们从术语表页面随机抽取了10个主题。研究主题的完整列表见附录5.1.1收集人类创造的金本位。 我们希望收集人类对我们的提示的反应,以代表这些提示可以产生的想法质量的黄金标准或上限。为此,我们在每个学科招募了2-3名博士或高年级本科生,让他们完成与语言模型相同的提示。每个学生每小时的工资是20美元,只要他们完成任务。8 例 如 : https : //twitter.com/dannydiekroeger/status/1281100866871648256 、 https : //twitter.com/GeneticJen/status/897153589193441281 和 https ://twitter。联系人:陈经理1197527975379505152+v:mala2277获取更多论文Sparks:语言模式对科技写作的启示11提交给ACM的我们向他们解释说,提示的目的是产生想法,以支持专家为普通读者撰写有关主题的文章。每个学生必须以3种不同的方式完成每个主题的5个提示,并被告知要使给定提示+主题组合的完成最大程度地不同。他们还被指示确保他们的完成是准确的,考虑到他们对主题的理解,如果他们需要检查任何东西,他们可以参考网络,以及使用网络搜索结果的灵感。最后,我们解释说,他们的想法应该尽可能具体和具体每个学生完成5个提示,为10个主题在他们的纪律,为5 × 10 × 3 = 150完成每人。他们平均花了3.5个小时来完成他们学科中的所有10个主题,最后我们每个提示+主题组合有6个高质量的完成5.1.2基线语言模型条件。我们将自定义解码与语言模型基线进行比较:带汉明多样性惩罚的组束搜索。这是一个强有力的基线,鼓励[51]推荐的方式的多样性,并且可以使用huggingface Transformer库中的“generate”函数中的参数来实现自定义解码和基线模型都使用相同的底层语言模型。5.1.3衡量一致性和多样性。一致性是出了名的难以自动测量,特别是在没有训练数据的情况下-像困惑度这样的度量仅仅测量了模型本身下输出的可能性。 出于这个原因,我们招募了10名领域专家,以0 - 4级为一致性注释输出,与知识图谱评估一致[33]。对于生物学,我们有3名生物学专业的高年级本科生;对于环境科学,我们有2名环境科学专业的高年级本科生;对于计算机科学,我们有2名计算机科学系的博士生每个学科有900个句子要注释(300个人工生成,300个来自基线模型,300个来自自定义解码)。从每个学科中随机选择250个输出,由两个不同的领域专家进行注释,科恩���加权Kappa计算为:54、生物���学51为环境科学,和���= 3。4计算机科学考虑到协议是适度的,我们对其余的句子有一个我们用句子嵌入来衡量多样性[40],特别是我们报告了给定提示内输出之间的平均距离平均距离越大,意味着输出越不相似,因此也就越多样化。5.2结果总体而言,基线在所有学科中的多样性和一致性都很低,而人类创造的产出表现得更好。 图5a和图5b示出了定制解码方法优于基线,但没有达到人类创建的输出的性能。对于多样性,双尾t检验表明这对所有学科都是一个显著的差异(计算机科学 <:001气候 <科学001,生物学: <. 001);对于一致性,mann-whitney U检验表明这对所有学科都有显著差异(计算机科学: <。001气候 <科学001,生物学: <. 001)。表2显示了单个提示符+主题的每个条件的一些示例输出。这些例子展示了人类生成的输出的质量:它们是长的,详细的,多样的。相比之下,这两种语言模型方法更短,更不具体,更重复。然而,自定义方法似乎提高了输出的整体质量。必须承认,多样性和一致性衡量标准的差异相当大。这意味着,虽然平均而言,自定义解码是对基线的改进,并且平均而言,[9]学生们不可能也参与了生成部分。+v:mala2277获取更多论文12Gero,Liu,和Chilton.提交给ACM的(a) 多样性的分布,按学科划分。多样性被测量为每个提示+主题组合的平均句子嵌入距离(b) 每个提示+主题组合的平均连贯性,按学科划分 每一个迅速完成的评分是由一个领域的专家在0到4的规模。图五、在三种条件下,三个测试学科的多样性和一致性措施:基线语言模型,自定义解码的语言模型和人类创造的黄金标准。自定义解码在基线上进行了改进,并接近人类黄金标准。条件COHdiv源代码的一个属性是.人类创造4它通常以人类可读格式编写.38的可编辑性,这样程序员就可以很容易地改变它,以满足他们的需要。它是一个计算机程序的描述。自定义解码4它包含了人类编写的代码.37其模块性-代码模块包含可重复使用的代码组件。复杂性基线模型2.6它可以被用作信息来源08.第08章可以作为灵感的来源它的模块化。表2.我们的三个条件的示例输出为单个提示+主题组合,以及每组三个输出的平均一致性(coh)和多样性(div)得分人工创建的输出比语言模型输出更好,对于任何给定的提示+主题组合,输出可以是非常高的质量或低得多的质量。使用系统的人不一定会看到这种巨大的变化;他们只会看到他们生成的10个左右的模型输出为此,我们按话题和提示语对变异进行了研究图6显示了自定义解码方法和人工创建输出的每个主题的平均一致性 它用黑点绘制每个主题的平均连贯性,用彩色点绘制每个提示+主题组合的连贯性。由此我们可以看出,自定义解码方法的主题质量变化。例如,“计算机安全”输出的一致性平均得分为3.7,而“自动机理论”输出得分为2.1。当观察人类创造的输出时,质量要一致得多,没有主题的一致性低于平均3。这表明我们的系统对某些主题工作得很好,而对其他主题工作得不太好虽然我们预计我们的系统不会像人类一样表现得那么好,但我们确实希望系统在各个主题上的表现更加 目前还不清楚为什么语言模型在某些主题上表现得更好,并且考虑到这些语言模型的训练方式,很难检查甚至预测模型在给定主题上的表现。+v:mala2277获取更多论文Sparks:语言模式对科技写作的启示13提交给ACM的图第六章该图显示了自定义解码和人类创建的黄金标准的每个主题的一致性,其中0是无意义或不真实的,4通常是真实的。黑点显示给定主题的所有响应的平均一致性,而彩色点显示每个提示的给定主题的平均一致性在自定义解码中,主题按平均相干性排序该图显示,使用自定义解码,某些主题的性能比其他主题好得多,而无论主题如何,人工输出通常都是高质量的。它还表明,在一个主题中,提示模板之间可能存在很大的差异图6还显示了一些提示模板对于某些主题的效果比其他主题更好。在我们的系统中,输出的质量随着提示模板的不同而有很大的不同在人类生成的输出中,变化较小,但我们仍然看到一些范围。例如,让提示“动力蛋白发生是因为”在0到4的连贯性量表上得分几乎为0,而提示“动力蛋白的一个属性是”得分为3。动力蛋白是细胞行为中重要的蛋白质家族考虑到这一点,系统更有可能在属性上产生一致的输出,而不是为什么这个蛋白质家族“发生”。然而,值得注意的是 这是一个关于动力蛋白发生的人类输出:“动力蛋白的发生是因为细胞器,如高尔基复合体,需要在细胞中定位。“虽然这个句子结构有点复杂,但很明显,人类能够弥补提示,仍然写出一些连贯和有意义的看到提示模板可以产生的差异,突出了使用适合主题的提示的重要性因为我们想用看不见的主题测试我们的系统,所以我们确保参与者可以添加他们自己的提示,以防模板化的提示不适合他们的+v:mala2277获取更多论文14Gero,Liu,和Chilton.提交给ACM的6研究2:用户评价我们评估了我们的系统如何支持博士生撰写推文。推文是大约500个单词的简短解释,进入门槛低,作为科学写作媒介越来越受欢迎[47]。我们使用博士生,因为他们渴望参与科学写作[27],许多推文已经由博士生撰写,这表明我们的参与者可能希望自己参与写作任务本研究已获得相关IRB的批准。6.1方法我们招募了13名参与者,他们都是来自五个不同STEM学科的学生,就他们自己选择的与他们的研究领域相关的主题撰写推文 通过让参与者选择自己的主题,我们确保他们在自己的专业领域内写作,并且我们能够在看不见的主题上测试我们的系统。参与者首先被要求阅读推文的介绍,解释什么是推文,并通过一个例子推文。然后,他们被介绍到该系统,并观看了一个简短的视频,展示了该系统的功能,并展示了在撰写“机器学习算法”时该系统的示例用例。与会者可向主持人提出澄清问题。 如果参与者要求更多地了解该系统的工作原理,主持人说,这是一种算法,可以根据提示生成文本,他们可以在完成写作任务后进一步讨论该系统。在这一点上,参与者被要求选择一个主题来写,以及提供一个“上下文区域”,以帮助系统正确解释他们的主题。然后,他们有15 - 20分钟的时间与系统互动,并写下大约前100个单词。收集参与者与系统交互时的鼠标点击和按键,以及产生的所有火花。在此之后,参与者填写了一份简短的调查问卷,并参加了与主持人的半结构化访谈附录中列出了调查问题和构成访谈的问题 这项研究花了大约一个小时,参与者得到了40美元的补偿。参与者的访谈被转录,作者对访谈记录进行了主题分析[9]分析集中在三个方面:火花是如何帮助的,火花是如何无用的,以及所有权问题对机器写作的反应相关的报价是从成绩单中选出的,并整理在一个共享的文件,在那里是作者讨论和收集到紧急主题的报价6.2结果我们在表3中报告了参与者的人口统计数据和主题选择,以及通过表4中的分析出现的突出主题。 我们的主题分析涵盖了三个主要方面:火花有帮助的方式,火花没有帮助的方式,以及参与者对将火花融入他们的写作的感受。对于每个领域,我们报告的主题流行率超过20%。流行率是通过在访谈中提出这一主题的参与者人数来衡量的就所有权而言,答复的差异很大,没有一个主题的答复超过20%。出于这个原因,我们报告了人们在文本中提出的原因,但没有在表中列出它们行为数据,如花在写作上的时间和有多少火花,也被报告,每个参与者的活动时间表可以在图7中找到。6.2.1参与者人口统计和主题选择。13名参与者来自五个STEM学科,最常见的学科是气候科学和公共卫生。除了一个人之外,所有人都在读博士学位(剩下的人在读博士学位)。+v:mala2277获取更多论文Sparks:语言模式对科技写作的启示15提交给ACM的代码流行率示例报价表3.参与者人口统计学。低=一年一次左右。Med =每月一次左右。高=一周一次左右。ID纪律科学写作(general/twitter)话题上下文区域P1气候科学低/低降雨变化气候科学P2气候科学低/从不预测气候变化气候科学P3气候科学从未/高海平面变化地球物理P4气候科学低/低全新世冰川退缩古气候P5计算机科学低/从不计算困难问题计算机科学P6计算机科学从不/从不伪随机理论计算机科学P7政治学中/中文档嵌入自然语言处理P8心理学从不/低调节匹配心理学P9心理学低/低动机性印象更新社会心理学P10公共卫生低/低性别歧视测量社会学P11公共卫生从不/从不logistic回归流行病学P12公共卫生低/从不剥夺指数公共卫生P13公共卫生中/中威胁倍增器环境健康表4.专题分析sparks之所以有用精雕细琢的简洁,详细的句子。百分之五十四想出了一些主意或角度。百分之四十六展现读者的视角。百分之三十一大多数时候,它(系统)都在以一种简短而简洁的方式表达我脑海中已经存在的想法它(系统)提醒我,哦,这它(系统)提醒我,对我所写的这件事可能有一个更普遍的火花无用的原因错误地解释了这个话题。百分之三十八它[火花]只是不准确。百分之二十三一些火花说,像逻辑回归是用来估计相对风险,这是完全不正确的。不是所需角度。百分之二十三可能有人真的很关心测量性别歧视的态度...但这模糊。百分之二十三我会说大约20%的人只是不够具体,不值得谈论。研究硕士参与者被问及他们为公众撰写技术主题的频率,以及他们在Twitter上这样做的频率大多数参与者很少或从不这样做,尽管少数人每月甚至每周都这样做。参与者被要求选择一个他们非常了解的与他们的研究有关的主题主持人试图帮助参与者选择一个既不太广泛,也不太具体的主题,但作为主持人,+v:mala2277获取更多论文16Gero,Liu,和Chilton.提交给ACM的图第七章研究中所有参与者的时间表,用不同的颜色标记时间写作与时间产生火花参与者按参与模式分组不一定具有与参与者相同的专业知识,这有时很困难。与会者选择了广泛的议题,没有重叠。完整的人
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功