目标驱动的顺序数据抽象

188 浏览量更新于2023-10-12 收藏 1.91MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

71目标驱动的顺序数据抽象1YongxinYang1Timothy M.皇家医院2陶翔1宋毅哲1萨里大学2爱丁堡大学{u.muhammad，yongxin.yang，t.xiang，y.song}@ surrey.ac.uk，t.hospedales@ ed.ac.uk摘要自动数据抽象是机器智能基准测试和支持摘要应用程序的重要功能。在前一种情况下，人们会问机器是否能够“理解”输入数据的含义，从而产生一个有意义但更紧凑的抽象。在后者中，这种能力通过总结输入数据的本质来节省空间或人力时间在本文中，我们研究了一个通用的再强化学习的基础上学习的目标驱动的方式来ab-observed序列数据的框架。定义不同抽象目标的能力唯一地允许根据抽象的最终目的保留输入数据的我们的强化学习目标不需要人类定义的理想抽象的例子。重要的是，我们的模型处理输入序列的整体，而不受原来的输入顺序的约束.我们的框架也是领域不可知论- tic1. 介绍抽象通常在特定应用的上下文中定义[5，20，39，7，23，27]。在大多数情况下，它指的是消除多余的元素，并顺序数据输入我喜欢里面像架子一样的布置。我儿子喜欢在里面组织他的火车。我不喜欢金属这么薄。它就像可乐罐一样容易凹进去。如果做得更好，物有所值。省省你的钱吧。AU：原子单位AUAUAUAUAUAU目标驱动抽象目标-类别（游行）目标-类别（猫头鹰/兔子）目标-情绪（负面）目标-属性（人类）目标-属性（眼睛/尾巴）视频素描目标-类别（玩具）文本图1.目标驱动抽象任务的一个例子。每个输入（视频、草图或文本）由分别对应于三个输入域的视频片段、笔画和句子的原子单元（AU）序列组成AU是彩色编码的。根据抽象目标，不同的AU被保留在每个抽象输出中。maries.重要的是不要将我们新的目标驱动的抽象设置与传统的视频/文本摘要混淆[15，16，42，51，37，6，28，30，46]。目标各不相同：后者产生一个单一的紧凑，但多样化和代表性的摘要，往往由人类注释，而我们的产生各种目标条件的紧凑数据中最突出和最重要的方面。这是一个重要的能力，原因有很多：[12]和节省人类查看数据的时间[29];而且还改进了下游数据分析任务，例如信息检索[2]和合成[14，27]。我们提出了一个新的目标驱动的抽象任务的序列数据（见图。①的人。顺序是指具有时间顺序的数据-我们考虑视频，顺序绘制的草图和文本。目标驱动是指根据特定的抽象目标或目的来保存输入的某个方面。根据抽象目标的不同，相同的输入可能会导致不同的抽象输出。例如，优先保留情感与产品评论文本中有用性可能导致不同的总结，摘要。我们的问题设置也更容易接受到没有地面实况标签的训练（即，手动黄金标准但主观的摘要），这通常是当代视频/文本摘要方法所需要的。为了解决这个新问题，需要新的方法。为此，我们提出了一个目标驱动的序列数据抽象模型，具有以下关键特性：（1）它整体地处理输入序列，而不是受原始输入顺序的约束。(2)它是通过强化学习（RL）而不是监督学习来训练的。这意味着不需要目标抽象形式的昂贵的注释数据。(3)通过强化学习奖励函数引入不同的目标.除了消除注释需求之外，这还使得72根据抽象的目的保留输入的不同方面。(4)最后，基于RL的ap-proach还允许通过改变抽象预算来组成任何所需长度的抽象输出。我们通过三个非常不同的顺序数据域来证明我们方法的通用性：手绘草图、视频和文本。视频和文本是过去广泛研究的顺序虽然草图可能看起来没有明显的顺序，但触摸屏技术意味着所有突出的草图数据集现在都记录了矢量化的笔划序列。例如，QuickDraw[17]，迄今为止最大的草图数据集，以（x，y）笔坐标和状态p（触摸）的形式或提升）。对于素描和视频，我们训练两个奖励基于类别和属性识别模型的功能这些驱动我们的抽象模型将输入的草图/视频抽象为较短的序列，同时选择性地保留类别或属性相关信息。对于文本，我们基于情感、产品类别和有用性识别模型训练了三个关于产品评论的奖励函数。这些驱动我们的模型将输入文档总结为一个较短的段落，分别保存情感/类别/有用信息。我们工作的主要贡献是：（1）定义了一个新的目标驱动的抽象问题，（2）一个由RL训练的顺序数据抽象模型，该模型整体地处理输入，而不受原始输入顺序的约束，以及（3）证明了该模型对不同顺序数据域的灵活性，包括草图，视频和文本。2. 相关工作视频/文本摘要现有的模型要么有监督，要么无监督。视频中的无监督摘要模型[9，31，40，41，43，50，52，54，55]和文本[10，26，25，3]域旨在识别保留输入的全局内容的关键单元（视频片段/句子）的小子集，例如，使用诸如多样性和代表性的标准。相比之下，监督视频[13，15，16，42，49，51]和文本[37，6，28，30，46]总和-marization方法通过采用地面实况（ground-truth）摘要作为训练目标来解决相同的问题。这两种类型的模型都不是由特定目标驱动的，而是在人类注释的地面实况摘要上进行评估-这两个模型都没有解决我们新的目标驱动的抽象设置。最近的一项工作[53]使用类别级视频标签在弱监督RL设置中训练视频摘要模型其目的是生成具有类别级别可识别性的附加标准以及多样性和代表性的通常标准的摘要核心光甲--原理是按照上述标准顺序处理视频片段，并对每个片段进行二元判定（保留或删除）。在这项工作中，我们引入了一种目标驱动的方法来显式地保留任何可量化的属性，无论是类别信息（如 [53]中部分完成的），属性，还是潜在的其他数量，如兴趣度[11]。我们表明，我们的模型优于[53]由于顺序输入的整体建模，而不受其原始顺序的限制（见第2节），4.2）。草图抽象与视频和文本相比，草图抽象的前期工作要少得多。这个问题首先在[4]中进行了研究，其中使用数据驱动方法来研究专业绘制的面部特征中的抽象通过限制艺术家绘制参考照片的时间（从四分半钟到十五秒），收集了在最近的工作[27]中，自动抽象首次在业余徒手草图中得到了明确的研究抽象过程被定义为草图的可解释性和简洁性/紧凑性之间的权衡。抽象模型也是基于RL，按顺序处理笔划段，并为每个段做出二元决策（保留或删除），但以与绘制笔划相同的顺序输出笔划。在这项工作中，我们还优化了可识别性和紧凑性之间的权衡（如果目标是可识别性）。然而，至关重要的是，我们的方法受益于整体处理输入，而不是在其原始顺序，并学习一个最佳的笔划排序策略。我们表明，我们的方法明显优于[27]（参见第二节。4.1）。此外，我们展示了应用到草图，视频和文本的不同领域，并独特地explore使用多个目标函数，以获得不同的抽象的能力。草图识别早期的草图识别方法是为了处理专业绘制的草图，如CAD或艺术图纸[18，22，36]。首先是更具有挑战性的徒手草图识别任务随着第一个大规模业余素描数据集的发布，[8]中的问题得到了解决。从那时起，已经使用经典视觉[34，21]以及深度学习方法[48]进行了充分的研究。最近成功的深度学习方法主要包括非顺序CNN [48，47]和顺序RNN [19，33]识别器。我们使用CNN和基于RNN的多类分类器为我们基于RL的草图提取框架提供奖励。3. 方法我们的目标是输入一个数据序列，并根据目标函数输出一个较短的序列，保留特定类型的信息。为此，提出了一种目标驱动的序列抽象（GDSA）模型GDSA对输入序列数据进行整体处理，73选择的AU目标奖励类别RNNRNNRNN（1xD）AU表示（1x9）FC（候选AU嵌入）（1x18）FC（选择AU嵌入）（1x1）FC（Logits）（1xC）类别（一热）（1x3）FC（类别嵌入）（1x15）FC（完全嵌入）（1x128）RNN候选AU奖励状态剂状态行动图2.建议的GDSA代理的示意图。代理迭代地从候选池中选择AU，以便最大化抽象草图/文本/视频的可识别性目标。实线箭头表示可训练权重。将其放置到一组原子单元（AU）中，这些原子单元形成用于选择的候选者池。GDSA由RL训练，通过从池中挑选一系列AU来产生抽象输出序列应该短于输入（由预算控制），同时保留其信息内容（由RL奖励/目标函数控制）。3.1. 目标驱动序列抽象序列数据抽象任务被形式化为马尔可夫决策过程。在每一步中，我们的 GDSA 代理将一个原子单元（AU）从候选AU池移动到所选AU的列表中，当所选AU的数量大于固定预算时，它会停止。代理通过RL[38]使用奖励计划进行训练，该计划鼓励它在给定有限长度预算的序列中保留目标相关信息方面具体来说，我们有两种数据结构：候选AU池和所选AU列表。所选的AU列表开始为空，并且候选日期AU池包含完整的输入。然后，代理从候选池中一次一个地挑选AU，以附加到当前选择的AU列表。GDSA代理的示意图如图2所示。2.核心思想是在所有先前选择的AU和输入序列所属的类别的上下文中评估每个候选AU的选择。我们这样做是通过学习嵌入候选AU，选择AU，和输入序列类别标签分别。基于这些嵌入，GDSA代理将迭代地选择下一个最佳AU以输出到目前为止所选择的AU。候选AU嵌入在每次迭代中，候选池中的每个AU都被GDSA视为下一个输出的候选。为此，首先每个AU是：（1）编码为固定长度向量。请注意，每个AU本身可能包含顺序子结构（由片段形成的草图笔划，由帧形成的视频片段或由单词形成的句子），因此我们使用特定于域的预训练RNN嵌入每个AU。提取对应于AU的最后一个子条目的隐藏RNN单元状态，并将其用于将AU表示为固定长度的向量。(2)基于原始输入序列中相对于AU总数的相对位置，作为从1到10的时间戳引入这一点是为了在训练过程中，我们的模型可以利用来自输入序列顺序的信息。然后，将这个独热时间戳向量与上面的固定长度RNN编码向量连接起来，并将这些向量送入全连接（FC）层以获得候选AU嵌入。选择的AU嵌入为了表示到目前为止的输出序列，选择的AU列表的所有AU被顺序地馈送到RNN。每个AU对应于RNN中的最后一个时间步的输出然后被馈送到FC层以获得所选AU列表嵌入。在第一个时间步，列表是空的，由零向量表示类别嵌入在一个域中通常有多个相关的抽象任务，例如，草图/文本抽象中的我们可以为每个类别训练一个独立的GDSA模型，或者聚合所有类别的训练数据。这些分别遭受较少的训练数据，以及类别/领域特定细微差别的混合。作为折衷方案，我们嵌入了一个类别标识符，以允许模型利用一些信息共享，同时还提供了关于类别差异的指导[44]。动作选择在每次迭代中，我们的智能体采取一个动作（从候选池中挑选一个AU），给定类别和迄今为止选择的AU。为此，它依次考虑每个候选AU，并将其与其他两个嵌入连接起来，然后将结果馈送到FC层以获得完整的状态-动作嵌入。然后将其馈送到具有1个神经元的FC层（即，标量输出）以产生最终的logit。一旦所有候选AU都被处理，它们对应的logit值就被连接起来，并通过softmax形成一个多项分布在训练中，我们74θ对这个多项式进行抽样，在检验过程中总是选择最大的然后，从候选池中移除所挑选的AU，并将其附加到所选择的AU的列表这个过程一直重复，直到预算耗尽。我们将我们的框架应用于草图、视频和文本数据。每个草图由对应于笔划的AU序列组成。对于视频，每个输入是视频剪辑，并且剪辑中的片段是AU。对于文本，每个输入都是包含产品评论的文档，句子是AU。另一个特定于域的属性是关于如何将代理挑选的AU呈现为抽象的最终输出。在视频和文本的情况下，所选择的AU保持与原始输入顺序相同的顺序而对于草图，我们保持AU被挑选的顺序，因为模型可能会学习到比自然人类输入更好的排序3.2. 目标驱动奖励函数我们的GDSA代理的目标是选择最大限度地保留目标信息的AU。特别地，我们利用自然输入序列以及随机AU选择来定义一个新的奖励函数rt，rt=（at−（δ ht+（1−δ）gt））b，（1）其中t是时间步长1，at是代理性能（在目标信息保存时），ht是通过按照原始输入顺序挑选AU获得的性能，gt是随机顺序策略的性能。在将所选AU添加到所选AU列表之后，根据要保留的目标信息的可识别性来评估性能。δ是一个退火参数，它平衡了与人类和随机策略的比较。它被初始化为0，因此只要它击败随机策略，代理就会收到在训练期间，δ向1增加，从而定义了一个课程，函数）。为了展示不同目标的驱动抽象，我们探索了关于草图的其他信息的奖励保留。具体来说，我们训练一个草图属性检测器来定义一个属性保存奖励。对于视频，要保留的主要目标信息是视频类别的可识别性。为了指导训练，我们采用了多类分类器，该分类器被插入到奖励函数中，以在每个时间步计算t，ht和gt值我们还考虑了另一个抽象目标，即通过采用属性检测器来定义奖励，从而在视频中识别属性。对于文本，主要目标是在产品评论中保持情感，并且奖励由二元情感分类器正确分类的评论摘要的概率作为不同的抽象目标，我们还探讨了保存产品类别和有用的信息，通过训练单独的分类器，为这些目标。3.3. 训练过程在传统的强化学习（RL）框架中，观察和动作空间维度都是固定的。在我们的框架中，由于候选AU的数量在每一步都递减，因此动作空间会随着时间的推移而缩小。相比之下，所选择的AU的数量随着时间的推移而增加，但是由于使用了RNN嵌入，它们的嵌入尺寸是固定的。我们的RL框架通过在每个时间步重建动作空间来处理这些动态。这可以通过对可用动作进行卷积来有效地实现（即，候选AU池）。RL的目标是找到策略π，该策略π产生状态和动作的轨迹τ，导致最大期望奖励在我们的上下文中，轨迹是提取的AU的序列。该策略由θ参数化的神经网络实现，即，πθ，其中θ是第二节中提到的所有模块的参数集第3.1条优化可以写为逐步要求代理人表现得更好，以获得奖励。详细地说，δ以K步从0线性增加到1，其中K是训练期间使用的片段总数。所以在训练结束时，特工θ= argmaxEτπ（τ）θΣΣΣr（st，at）不、（二）任务必须击败原始输入序列以获得正奖励。最后，b是奖励比例因子。例如，给定100笔草图和10%的预算，GDSA必须其中r（st，at）是状态中采取行动atst，τ =[s1，a1，s2，. . . ，sT，aT]。我们使用策略梯度进行优化，使用以下梯度：选择10个比随机选择更有信息量的笔画，以在开始时获得奖励，并且比输入的前10个笔画更有信息量，以在结束时获得奖励。目标对于草图来说，一个抽象目标是抽象-1NN，T（θN i，t=1log（πθ（αi，t|si,t））（ΣTt′=tγt′−tr（si，t'，ai，t’）），（三）输出连续对象草图的能力。我们量化这取决于在多类分类器下得到的分类精度（因此在奖励中定义了T、HT和GT1时间步长意味着通过候选AU池，导致选择所选AU。折现因子γ=0。9，N=2。我们总结了算法1中用于GDSA代理的RL训练的伪代码一个合成的例子我们应用我们的方法来说明一个合成的例子。我们介绍一个简单的3×375（一）（一）∗∗算法1训练GDSA agent1：输入：D =[（x1，y1），（x2，y2），. . . ]的一种第二章：初始化模型参数：θ3：对于文献[1，2，. . . ，num epochs] do4：重复数：G=[]5：对随机输入x和标签y进行采样以光栅扫描顺序。每个AU是一个像素，并且有29个唯一的图像类别。我们选择3个类，对应于图1中的第一列。3，表示为“0”，‘ 要引入类内变量，实际上，观测样本受到高斯噪声的扰动一图中的关键观察第三，要识别一个类别，6：分割x转换为AU [x（1），x（2），. . . ]的一种（一）（二）并非所有AU（像素）都是必需的。例如，在一个SE-只有两个AU的序列，如果一个是角落，另一个是7：获取AU代表： f =[[g（x≠0），τ1]，[g（x≠0），τ2]，. . . ]的一种8：获取类别嵌入：θ（y）9：对于[1，2，. . . ，N] do10：取消日期-AU：La= f11：选择AU：Lb=[]12：免疫-缓冲：G=[]13：奖励增益：R =[ ]14：对于[1，2，. . . ，T]do15：选择AU嵌入。使用RNN：ωθ（Lb）16：串联专长：[[ω，La，]，. . . ]的一种17：π = softmax（φθ（[ω，Lα，ω]），. . . ]中）18：从离散分布π中画出一个AUa19：将第a个AU从La移动到Lb20：计算梯度<$θlogπ[a]，将其添加到G21：使用等式计算奖励1将其添加到R22：结束23：使用公式计算重新称重的梯度324：将重新加权梯度的总和加到G25：结束26：使用G的平均值进行梯度上升27：结束二十八：输出：θ图3.合成数据集中的样本。第一列是类原型，后面的是观察到的样本。1.00.90.80.70.60.5中心，那么它必须是“×”类别。这为AU序列的简化和重新排序创造了空间，以产生更短但保留信息的序列。针对这个问题训练RL代理，我们希望它选择几个最大化可识别性的AU。我们将AU选择预算限制为2（即，两个像素输出图像）。如图4，代理产生输出序列，被线性分类器正确分类的概率为90%。这是明显优于其随机初始化状态（随机选取两个笔划的策略），其性能约为50%-70%。4. 实验通用实现细节我们的模型在Tensorflow中实现[1]。GDSA框架中用于处理所选AU序列的RNN是用具有128个隐藏单元的单层门控递归单元（GRU）实现的。将1×128维的GRU输出馈送到全连接层，以获得1×18维的选择笔划嵌入。通过将AU表示（连接有时间戳的固定长度特征向量）馈送到全连接层中获得的候选AU嵌入的维度为1 ×9。班级EM-垫层尺寸为1×3。完整的嵌入，通过连接之前的三个嵌入并馈送到全连接层中获得，大小为1×15。代码和训练模型都将公开。如前所述，我们为抽象学习提出了一个新的问题设置和相关的解决方案虽然当代的摘要学习需要注释的目标摘要[4，6，29，35，49]，但我们需要一个目标函数。目标函数是从元数据中自学的，元数据通常已经可用或者比昂贵的黄金标准摘要更容易获得文本的情感标签）。由于目标（特定任务与通用摘要）和数据要求（薄弱。与强注释）是完全不同的，我们不能与传统的摘要方法相比。4.1. 素描抽象0 20 40 60 80 100图4.合成数据GDSA代理。X轴：训练迭代。Y轴：测试精度（2像素图像序列的识别）。图像格式，生成为9个二进制样本X+O76数据集我们使用最大的徒手草图数据集Quick- Draw[17]训练我们的GDSA用于草图。与[27]一样，我们选择9个QuickDraw类别，即：{猫、椅子、脸、消防车、蚊子、猫头鹰、猪、钱包和鞋};每个类别使用70，000张草图用于培训，5，000张用于77类别：猫类别：猫头鹰类别：熊猫……属性：胡须，尾巴属性：大眼睛类别：老虎属性：大眼睛属性：长腿，条纹，胡须，尾巴图5.使用25%的预算大小（浅色背景）对QuickDraw草图的目标驱动笔划排序策略进行定性比较。在每一节中：顶行描绘了使用具有类别目标的GDSA获得的笔画序列，并且底行描绘了使用具有属性目标的GDSA获得的笔画序列。试验.所选9个类别的平均笔画数为{9.8，4.9，6.4，8.3，7.2，9.1，9.5，3.6，3.0}。我们用K=50，000集训练我们的代理，奖励缩放因子b = 100，学习率η=0。0001我们将预算B设置为每只猫平均笔画数（四舍五入）的25%和50%对于奖励计算，在每一步中，我们的代理选择的笔划列表被馈送到分类器中，以确定地面真值类的概率对于按照原始输入和随机顺序选择的笔划也是如此为此，我们采用了两种不同的分类器：（1）最先进的卷积神经网络（CNN）-Sketch-a-Net 2.0 [47]，在9个快速绘制类别上进行了微调笔划数据在CNN分类之前被渲染为(2)一个三层LSTM，每层有256个隐藏单元，在[27]中使用它接受（x，y，p）（坐标和笔状态）的输入列表，并将其最后一个时间步输出馈送到具有软最大激活的全连接层，该层为草图类的预测提供概率在训练之后，该RNN还用于为候选笔划池中的每个笔划提取256维特征向量，该特征向量与独热时间戳向量连接以获得维度D=266的最终AU表示。请注意，我们不使用Sketch-a-Net用于此目的，因为渲染的单笔画图像稀疏，CNN无法生成有意义的表示。结果我们评估我们的GDSA模型的性能草图识别精度时，使用的萌芽B的25%和50%的平均笔画数为每个类别。该评估是在45，000张草图的测试集上进行的。草图识别是使用两种不同的分类器（RNN [27]和Sketch-a-Net [47]）实现的我们将我们的抽象模型与以下模型进行比较：（1）原始人类绘画中的第一个B笔画或-der。这是一个强基线，因为QuickDraw中的数据预算25% 50%方法RNN网络素描RNN网络素描人类36.6662.0866.7375.90随机22.6741.0645.6565.47每日生活津贴[27]38.3665.0567.8981.50DQSN [53]38.1164.5867.5080.31GDSA50.5071.9271.7586.15上界87.7791.9987.7791.99表1.类别识别（acc.%）的抽象草图。通过挑战玩家在时间有限的设置中绘制对象（抽象）而获得-因此，最初的几个笔划被认为对于人类的可识别性是重要(2)随机选择B笔画。(3)DSA [27]，最先进的深度草图抽象模型。请注意，为了进行公平的比较，我们调整[27]以在笔划级别执行抽象，因为原始论文处理笔划段（五个连续的（x，y，p）元素）。(4)DQSN[53]，最初为视频提出的抽象模型。我们适应通过插入笔划AU表示而不是视频帧特征，将该模型与我们的设置相匹配我们还报告了没有抽象的完整输入序列的性能，这代表了上限。表1中的结果表明，我们的GDSA代理优于所有其他方法。性能的改善对于更难的B=25%的预算最为明显，这证实了我们的GDSA模型学习有效选择策略的能力。特别地，DSA和DQSN都受到具有固定2状态动作空间的原始输入AU阶数的限制，从而导致次优选择。具有不同目标的抽象我们方法的一个关键特性是能够选择在抽象过程中应该保留的不同输入属性。在这个实验中，我们通过对比属性保存与类别保存。我们通过从QuickDraw中选择9个动物类别（猫、老鼠、猫头鹰、熊猫、猪、兔子、松鼠、老虎和斑马）并定义5个动物属性来做到这一点：胡须（猫，老鼠，78段类别：游行属性：人类段分类：养蜂属性：动物图6.使用25%的预算大小的TVSum视频的目标驱动的中风排序策略的定性比较。灰色：完整的视频剪辑.粉红色：具有类别保存目标的GDSA。黄色：具有属性保存目标的GDSA。兔子，老虎），尾巴（猫，老鼠，猪，兔子，松鼠，老虎，斑马），条纹（老虎，斑马），长腿（老虎，斑马），大眼睛（猫头鹰，熊猫）。我们训练两个单独的Sketch-a-Net 2.0模型来识别上述类别和属性。然后将这些插入奖励生成器以训练 GDSA ，预算B=25%。类别与属性保留结果的定性比较如图所示。5.我们可以清楚地看到，改变目标对抽象策略有直接的影响。例如，在一个示例中，保留突出的猫类线索（耳朵）与请求的属性（whiskers）。4.2. 视频摘要数据集我们使用TVSum数据集[35]为视频训练GDSA，主要目标是保留视频类别信息。该数据集包含10个类别：{改变车辆轮胎，让车辆脱离困境，新郎，使三明治，跑酷，游行，快闪族聚集，蜜蜂饲养，自行车技巧，和狗表演}。我们使用40个视频样本进行训练，10个用于测试。视频长度从2到10分钟不等。按照常见的做法[49，53]，我们将视频下采样到1 fps，然后使用镜头变化数据合并5个连续镜头以形成粗略的片段。在此之后，平均隔离人数每个类别中的每个视频的片段是{13.5，8.9，10.4，9.3，7.8、11.0、10.4、10.5、12.1、9.9}。我们用K=100集、奖励比例因子b = 100和学习率η= 0来训练我们的智能体。0001 我们将预算B设置为每个类别平均细分数量的25%和50%。广告因此，我们测试一个片段的预算，以找到每个视频中最相关的片段。对于奖励计算，我们使用多类双向GRU分类器，最初在[53]中提出在训练之后，该分类器还用于提取固定维度（512）特征向量，该特征向量与时间戳向量连接以获得候选池中的每个片段的最终AU表示（D=522结果GDSA的性能以类别识别准确率为评价指标，在1段、每类平均段数的25%和50%在[53]之后，由以下人员执行该评价：预算1部分25% 50%方法RNNRNNRNN原始28.028.028.0随机28.032.034.0每日生活津贴[27]42.062.072.0DQSN [53]44.064.072.0GDSA模型68.074.076.0上界78.078.078.0表2.视频样本的类别识别（准确率%）做五重交叉验证使用上述分类器执行类别识别。我们比较：（1）前B段在原来的顺序。（2）随机B段。(3)DSA [27]，通过用视频片段AU替换笔划AU向量而（4）最先进的DQSN [53]，其适于用基于类别识别的奖励进行训练以进行公平比较。我们还计算了输入视频的上界，而没有Abstraction。表2中的结果显示，我们的GDSA代理的性能明显优于所有竞争对手。为了展示我们模型的目标驱动的抽象能力，我们首先定义5个类别级别的属性：动物（狗展，梳理动物，养蜂），人类（跑酷，快闪族聚会，游行），车辆（改变车辆轮胎，让车辆摆脱困境），食物（制作三明治），双-骑自行车（尝试自行车技巧）。使用用于类别分类的相同分类器架构，我们训练at-致敬分类器然后将其插入奖励函数以指导训练，B=25%。一些定性结果如图所示。6.我们可以清楚地观察到抽象输出根据目标函数而变化。例如，在一个示例中，保留游行相关片段（类别）与人的形象，是人的形象。4.3. 文本抽象数据集我们使用Amazon Review数据集[24]为文本训练GDSA模型。我们的目标是保持正面/负面评论情绪（1-2星为负面，4-5星为正面）。我们选择9个类别：{服装，书籍，DVD，电子产品，厨房和家庭用品，音乐，体育和户外，玩具和游戏，和视频}，基于同等数量的正面和负面评论的可用性。每个类别的平均句子数是{3.5，8.2，79不不不类别-玩具&游戏。情绪-消极。预算-2句话我喜欢里面像“架子”一样设置。我儿子喜欢在里面组织他的火车。我不喜欢金属这么薄。它就像可乐罐一样容易凹进去。如果它做得更好，它会物有所值。把你的钱省下来，找个更好的。如果它做得更好，它会物有所值。把你的钱省下来，找个更好的。我儿子喜欢在里面组织他的火车。它就像可乐罐一样容易凹进去。我喜欢里面像“架子”一样。它就像可乐一样容易凹陷。类别-玩具&游戏。情绪-消极。预算-2句话我们去看看后，我4岁的孩子在电视上看到它，并喜欢它，因为熊有眼镜，就像他一样。这个产品在商店里看起来不错，所以我们买了它。自圣诞节以来，他只玩过一两次。唯一一次他玩得开心的是当我生气的时候，对着那东西大喊大叫，因为它不会做它应该做的事情。省省你的钱，不要买这些垃圾。唯一一次他玩得开心的是当我生气的时候，对着那东西大喊大叫，因为它不会做它应该做的事情。省省你的钱，不要买这些垃圾。我们去看看后，我4岁的孩子在电视上看到它，并喜欢它，因为熊有眼镜，就像他一样。这个产品在商店里看起来不错，所以我们买了它。唯一一次他玩得开心的是当我生气的时候，对着那东西大喊大叫，因为它不会做它应该做的事情。省省你的钱，不要买这些垃圾。类别-dvd。情绪-消极。预算-3句话再一次，在90年代的好莱坞恐怖片中，这是令人失望的。电影中的演员实际上是毫无意义的，没有任何效果，但是，没有责备。这是因为这部电影的剧本写得太差了。这部电影让你一直走到大约一半的时候，他们把鬼魂介绍给你。和好莱坞历史上的其他鬼魂不同，这个鬼魂实际上是一个黑色的斑点。它包含一些无形的身体和困扰的人与它的脸，这反过来，揭示了谁的脸，它杀死。但是，从字面上讲，当你把一个100英尺的鬼到一个电影，你最好确保它是正确的。这部电影也许应该被称为斑点，而不是鬼屋。这是一个可怕的重新制作和大约2小时的浪费。请，为了你自己的缘故，租一些好的类型恐怖，像万圣节或当一个陌生人来电。而不是一些蹩脚的翻拍，想让你离开你看它的房间。祝这部电影的导演，制片人，联合制片人和编剧下次好运，因为所有参加的人，可能只是想赚一些便宜的钱，所以他们拍了一部电影。祝你下次好运电影中的演员实际上是毫无意义的，没有任何效果，但是，没有责备。这是因为这部电影的剧本写得太差了。这是一个可怕的重新制作和浪费约2小时。这部电影也许应该被称为斑点，而不是鬼屋。再一次，在90年代的好莱坞恐怖片中，这是令人失望的。这是一个可怕的重新制作和浪费约2小时。这是因为这部电影的剧本写得太差了。这是一个可怕的重新制作和浪费约2个小时。请，为了你自己的缘故，租一些好的类型恐怖，像万圣节或当一个陌生人来电。分类：音乐情绪-积极的。预算-2句话我也有一张昂贵的日本cd，但这一切都不会让我做好我在这里发现的东西。在这些CD上，人们可以发现录制T的原始会话。这简直太棒了。好吧，有时候坐在这里需要相当多的耐心，但事实是，值得花时间。这简直太棒了。好吧，有时候这需要很大的耐心坐在这一切，但它是值得的时间。在这些光盘上，人们可以发现录制唱片的原始会话。这简直太棒了。在这些光盘上，人们可以发现录制唱片的原始会话。这简直太棒了。分类-服装。情绪-积极的。预算-1句它有一个很好的感觉。浴衣是用日本纱做的，纱是用棉做的，所以浴衣是100% 棉做的。棉花当然会在洗涤时产生收缩，但这种收缩是可以容忍的。我买了expresso的颜色，洗了几次后颜色就褪色了，但这是意料之中的。总的来说，我很满意这次购买，并会购买它再次如果我有选择这样做。总的来说，我很满意这次购买，并会购买它再次如果我有选择这样做。浴衣是用日本纱做的，纱是用棉做的，所以浴衣是100%棉做的。总的来说，我很满意这次购买，并会购买它再次如果我有选择这样做。图7.亚马逊产品评论的目标驱动摘要与预算的定性比较25%。Grey：全面审查。粉红色：GDSA代表情感。黄色：类别的GDSA。绿色：GDSA表示乐于助人。8.9、5.6、4.8、6.8、5.4、4.9、7.7}。我们使用每个类别的1400个评论进行培训，600个用于测试。我们用K=10000集、奖励比例因子b = 100和学习率η=0来训练我们的智能体。0001我们将预算B设置为每个类别平均句子数量的25%和50%此外，我们有一个句子的预算，以找到每个评论中最相关的句子我们使用两个不同的情感分类器，都使用Glove嵌入[32]将每个单词表示为固定维度向量：（1）用于文本分类的最先进的分层注意力网络（HAN）[45]，经过训练，用于对9个评论类别进行二进制情感分析。（2）用64个隐藏单元的单层LSTM构建的RNN它将单词嵌入列表作为输入，并将其最后一个时间步输出馈送到具有softmax激活的全连接层，以预测情绪。这些分类器一旦被训练，也被用于提取固定维度（256/64）特征，该特征与时间戳向量相关联，以针对相应的GDSA模型获得候选句子池中的每个句子的最终AU表示（D = 266/74）。结果GDSA模型的情感识别准确率分别为1句、25%和50%。该评估是在5，400个评论的测试集情感识别使用上述两个分类器（RNN和HAN [45]）。我们比较：（1）原命令中的前B句。(2)随机的B句子。(3)DSA[27]和（4）DQSN [53]，两者都通过插入句子AU表示而不是笔划和帧AU表示来适应文本。上限表示没有抽象的完整审查的性能。表3中的结果表明预算1句25% 50%方法RNN韩RNN韩RNN韩原始59.7067.4766.5776.0670.7380.27随机61.1669.0466.4477.1470.9881.57每日生活津贴[27]66.3772.4271.5880.0273.3683.47DQSN [53]65.7071.4071.9380.2573.2083.77GDSA模型70.6483.7773.3986.0874.1186.12上界76.4186.6676.4186.6676.4186.66表3.评论摘要的情感识别（准确率%）我们的GDSA代理再次优于所有竞争对手。不同目标的抽象我们接下来展示GDSA模型使用HAN分类器和B=25%一些定性结果如图所示。7.我们可以观察到，根据抽象目标的不同，输出会有所不同，以保留与目标相关的信息。5. 结论我们已经介绍了一个新的问题设置和目标驱动的顺序数据抽象的有效框架。它由目标函数驱动，而不需要昂贵的注释地面实况标签，并且还独特地允许选择要保存的信息，而不是产生单个通用摘要。我们的GDSA模型提供了改进的性能，在这种新的抽象任务相比，几种替代品。我们降低了数据要求，新的目标条件抽象能力，使不同的实际总结应用 COM-CONDUCTOR那些共同的今天。80引用[1] Mart´ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， SanjayGhemawat ， IanGoodfellow ， Andrew Harp ， GeoffreyIrving ， MichaelIsard ， YangqingJia ， RafalJozefowicz，Lukasz Kaiser，Man-junathKudlu r，JoshLev enbe r g，DanMan e´，RajatMon g a，Sherry Moore，Derek Murray ， Chris Olah ， Mike Schuster ， JonathonShlens，Benoit Steiner，Ilya Sutskever，Kunal Tal war，Paul Tucker ， Vincent Vanhoucke ， Vijay Vasudevan ，Fer-nandaVie´gas ， OriolVinyals ， PeteWarden ，MartinWatten-berg ， Martin Wicke ， Yuan Yu ， andXiaoqiang Zheng. 张量-流量：异构系统上的大规模机器学习。https://www.tensorflow.org，2015年。[2] Ramiz M Aliguliyev.一种新的句子相似性度量和基于句子的自动文摘抽取技术。专家系统与应用，36：7764[3] 埃琳娜·巴拉里斯，卢卡·卡列罗，纳伊姆·马霍托，和阿莱桑德罗·菲奥里. Graphsum：发现多个术语之间的相关性，用于基于图的摘要。Information Sciences，249：96[4] Itamar Berger，Ariel Shamir，Moshe Mahler，ElizabethCarter，and Jessica Hodgins.素描的风格与抽象。TOG，32（4）：55，2013.[5] 作者声明：John D Bransford，Jeffery J Franks.语言观念的抽象。认知心理学，1971年。[6] Jianpeng Cheng和Mirella Lapata。通过提取句子和单词进行神经摘要。ACL，2016。[7] Ming-Ming Cheng，Jonathan Warrell，Wen-Yan Lin ，Shuai Zheng，Vibhav Vineet，and Nigel Crook.基于软图像抽象的高效显著区域检测InICCV，2013.[8] Math

下载后可阅读完整内容，剩余1页未读，立即下载