屏幕教程视觉理解

4 浏览量更新于2023-10-23 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12526Screencast教程视频理解李鲲鹏1，陈芳2，王兆文2，金锡焕2，金海林2，傅云1东北大学1，Adobe Research2摘要屏幕播放教程是由人们创建的视频，用于教授如何使用软件应用程序或演示完成任务的过程。它是非常受欢迎的新手和有经验的用户学习新的技能，相比其他教程媒体，如文本，因为视觉指导和易于理解。在本文中，我们提出了视频教程的视觉理解作为一个新的研究问题，计算机视觉社区。我们收集了一个新的Adobe Photoshop视频教程数据集，并使用低级和高级语义标签对其进行注释我们引入了一个自下而上的管道来理解Photoshop视频教程。我们利用国家的最先进的对象检测算法与特定领域的视觉线索，以检测视频教程中的重要事件，并根据检测到的事件分割成片段。我们提出了一个视觉线索推理算法的两个高层次的任务：视频检索和视频字幕。我们对拟议的管道进行了广泛的评估。实验结果表明，该方法对视频图像的理解是有效的.我们相信，我们的工作将作为一个起点，为未来的研究这个重要的应用领域的视频理解。1. 介绍由于无处不在的个人计算设备、移动摄像机、视频共享网站和社交媒体，视频是人们用来连接内容和共享体验的主要形式在众多的视频类型中，视频直播教学视频具有特殊的趣味性。它是由人类教育工作者创建和编辑的视频屏幕截图，用于教授软件功能的使用或演示解决问题的过程。在某些情况下，屏幕捕获视频可以用音频叙述和标题来增强，以使人们容易理解。对于新手和有经验的用户来说，屏幕直播教程视频越来越受欢迎，以学习新技能，因此人们可以创建和分享。例如，Youtube是众多视频共享网站之一，提供了超过4500万个与Adobe Photoshop相关的视频和超过1200万个与Microsoft Word相关的视频。用于理解截屏PsTuts：Screencast视频围绕面创建选区。现有视频理解数据集[35]第三十五话：一个人一个女人正在演讲。这个人冲洗胡萝卜。图1：视频理解数据示例的比较。我们的PsTuts数据集（顶部）侧重于具有显著不同方面和挑战的屏幕直播教程视频从现有的数据集（底部）的一般视频理解问题[4，35，42，45]。教程可以实现许多有趣的应用，其范围从基于内容分析的视频检索和推荐到用于新教程内容的视频合成此外，它们还可以帮助提取嵌入在视频教程中的专家知识，并构建人工智能系统来执行复杂的任务。在这项工作中，我们考虑的问题，理解截屏教程视频。我们的最终目标是，给定一个视频教程，通常长度在5到20分钟之间，可能包含也可能不包含音频叙述或标题，我们希望了解用户执行的操作，她使用的特定工具和工作流程，以及她完成的最终目标。我们感兴趣的任务，如划分成语义段的视频（tempo- ral视频分割），总结成一个文本描述的视频（视频字幕）和检索相关的视频从数据库给定的文本查询（视频检索）。据我们所知，这是计算机视觉社区第一次考虑屏幕直播教程视频理解问题。为了促进这一领域的研究活动，我们在Adobe Photoshop上收集了一个大规模的截屏教程数据集，并将与社区共享该数据集。我们专注于Adobe Photoshop有两个原因。首先，AdobePhotoshop是最流行的软件之一。它不仅用于图像编辑，12527各种各样的平面设计，甚至是网页和手机设计。二是视频教学内容丰富多样的软件。正如我们在第7节中所讨论的，理解Photoshop教程的算法可以扩展到其他应用程序，这是理解一般截屏教程视频的重要的第一步。理解截屏教程视频是一项极具挑战性的任务。对于诸如Adobe Photoshop之类的现代软件应用程序，实际上存在用户可以与应用程序交互的无限数量的方式。例如，用户可以通过应用程序菜单、上下文菜单、工具栏或各种面板和窗口中的按钮来调用命令（操作）每一次互动都有一个非常不同的视觉模式。人们可能会想到跟踪鼠标光标并使用位置信息来辅助分析，但事实证明，由于对象尺寸小且移动速度快（相邻帧中的像素数很容易达到数十个），鼠标光标跟踪并不是一个解决的问题。还有最后，还有潜在的鼠标和键盘效果，它们纯粹是为了解决这些挑战，在本文中，我们提出了一个两阶段的自下而上的管道来理解屏幕播放视频。在第一阶段，即，在低级阶段，基于一组低级操作的发生，我们暂时将视频分割成短剪辑，所述一组低级操作通常与软件中的重要状态改变相关。在Photoshop的情况下（以及许多其他软件），我们考虑三种类型的操作：选择工具，操作弹出窗口，操作弹出面板。为了捕捉这些事件，我们构建了计算机视觉模块来检测和识别相关的视觉线索。在这些操作的边界处对视频进行分段。在第二阶段，即，在高级阶段，目标是学习低级信号和高级意图之间的相关性。为此，我们设计了一个可扩展的数据收集和注释管道，从Photoshop专家众包自然语言描述我们收集的数据支持在这个问题上的一系列研究探索。如图1所示，我们数据集中的内容和文本描述与现有的常见视频数据集[4，35，42，45]非常不同，这进一步证明了我们目标问题的独特性。为了更好地编码这些独特的内容，我们进一步提出了一个视觉线索推理模型，考虑不同的视觉线索和视频帧之间的它可以嵌入到现有的检索和视频字幕方法，使他们更适用于屏幕直播教程。本文的主要贡献如下：1.我们提出的视频教学视频的视觉理解作为一个新的研究问题，为计算机视觉社区探索。这是一个具有挑战性的视频理解问题-但具有重要的实际意义。2.我们在Adobe Photoshop上收集了一个新的截屏教程视频数据集。该数据集包含低级和高级人类注释，支持该领域的一系列研究探索。3.我们提出了一个新的管道来理解Photoshop教程视频，结合低层次的节奏，拉尔视频分割和高层次的文本到视频检索和视频字幕。4.第一章我们在这个新的数据集上提出了一个用于文本到视频检索和视频字幕任务的视觉线索推理模型2. 相关工作视频理解是计算机视觉领域的重要课题之一。我们不试图在本文中回顾所有相关的工作相反，我们在各个章节中引用了与我们的方法相关的工作，并将我们的讨论集中在视频数据集和教程理解上。大规模标记视频数据集是视频理解最近发展的主要驱动力之一它仍然是一个活跃的研究领域，正在引入新的数据集。HMDB [23]和UCF [39]是了解一般人类行为的早期视频数据集之一，它们很好地服务于社区。随后是Sports-1 M [18]和ActivityNet [4]，以及最近的Kinetics[19]和Moments [31]，其中包含更多视频和更多动作类。这些数据集是从标签列表开始收集的，并在视频网站上搜索相关视频。在[13]中采用了不同的方法，其中在分析和注释之前收集视频。我们的数据收集方法遵循后一种方法，并侧重于屏幕直播教程。烹饪指导视频理解在烹饪领域不是一个新问题，已经收集了几个相关的数据集，包括[2，9，30，35，37，40，41]。我们的工作与上述所有工作的不同之处在于，它专注于与摄像机拍摄的视频非常不同的屏幕直播教程（参见图1的示例）。它们带来了独特的挑战，同时也提供了新的研究机会。在截屏教程中的现有作品主要是在HCI文献[7，14-[11，24，47]。[24，47]侧重于系统设计，并涵盖捕获系统，内容分析和内容交付方面的研究[20]提出了一种交互式视频播放器，其有效地显示视频时间线中的步骤[15]从带有软件日志数据的实时流媒体软件教程中提取视频剪辑，并根据用户行为推荐剪辑这些截屏教程中的HCI作品侧重于增强学习体验（系统和界面设计），并需要来自12528屏幕播放教程低级视觉线索检测与识别弹出窗口、面板、工具高级别时域视频分割构建Screencast数据集应用领域：文本视频检索视频字幕注释用于评估的分割边界软件专家注释图2：建议的两阶段截屏教程理解管道概述。第一个低级阶段的目标是将视频分割成短剪辑，每个短剪辑对应于原子软件操作。每个剪辑的高级语义在第二阶段进一步分析，用于下游用例，包括视频剪辑检索和视频字幕，使用基于通过众包收集的标记数据的学习模型。外部数据（例如，软件日志数据）。这极大地限制了对大量现有屏幕直播教程的适用性，比如Youtube上的那些相比之下，我们的工作侧重于教程视频的视觉理解，不需要外部数据。3. 自下而上的理解管道屏幕直播教程通常由用户操作和软件中的各种低级操作组成，例如使用不同的工具，窗口，面板等。这些低级操作一起形成了用于实现高级目标的复杂工作流对于像Adobe Photoshop这样的专业软件，有许多低级操作以及高级任务，这使得解析和理解具有挑战性。我们提出了一个两阶段的自底向上管道来处理截屏教程，如图2所示。低级阶段。我们首先定义一组低级操作，这些操作为推断高级任务提供信息如图2所示，在Pho- toshop的情况下，低级操作分为三个主要类别：选择工具、在弹出窗口上操作、在弹出面板上操作。我们构建计算机视觉模块来检测和识别相应的视觉线索，以捕获这些低级别事件。利用检测到的低级别事件，我们进一步将视频按节奏划分为片段，其中每个片段的边界请注意，我们的低级别流水线的设计可以一般化到其他软件与视觉提示的定制定义第5节描述了这个低水平理解阶段的细节。高阶舞台。给定前一阶段的片段，我们的最终目标是了解每个片段以及整个视频中执行这项工作的重点是理解分割的视频片段中的语义，这与大多数现有的视频理解工作的设置相一致。为了实现这一点，我们从设计专家那里收集了一个带有高质量注释的大规模教程视频数据集，并训练了各种可以自动解析新视频的模型。对于每个视频片段，我们要求专业的Photoshop用户注释相应的任务/意图。我们将注释任务设计为可扩展且具有成本效益，以便可以从诸如Upwork [1]的众包平台收集大量人类标签利用收集的数据集，我们为两个主要的视频理解应用构建了机器学习模型：文本到视频检索和视频字幕。数据收集和模型训练分别在第4节和第54. Photoshop视频数据集在本节中，我们将详细介绍Photoshop教程视频的数据收集和注释过程。要收集的数据应该支持对低级和高级任务的研究，如图2所示。我们的数据集构造被设计为足够通用，可以应用于具有复杂工作流程的其他软件。获取高质量的教程视频。我们首先通过搜索包含“Photoshop”和“tutorial”等关键字的查询，这导致了大量不同质量的视频。为了获得具有可管理规模的高质量数据集，我们只保留2012年之后上传的视频，3分钟，采用高清分辨率（1280×720或更高），观看至少1000次。此过滤步骤将删除大多数不相关的视频，但一些硬底片仍然存在。例如，一段Photoshop课程的录音，其中教师在不显示软件屏幕的情况下进行口头授课。为了应对这一挑战并获得以目标软件的屏幕截图为主要内容的教程视频，我们利用第5节中描述的视觉线索检测和识别模块设计了一种半自动过滤方法。这些模块在一小组人类注释的屏幕投射视频上进行训练，并且可以可靠地指示任何未标记视频的每帧中Pho- toshop屏幕的存在我们排除了所有检测到包含这些视觉线索的帧比例很小的视频。此外，我们重新移动视频与很少的工具或行动的变化.用于时间分割的低级注释。需要对时间分割边界进行标记，以验证所提出的时间分割方法，1252914000120001000080006000400020000图3：PsTuts数据统计，包括选定工具的分布（左一，显示前18个工具），视频片段长度（中间）和词频（右）。高频词是特定于软件的。低层次的处理阶段。地面实况注释指示具有低级视觉提示变化的帧更改所选工具，打开和关闭弹出窗口范围：一般视频第5节中描述的保护模块。我们对所有帧运行视觉线索检测，并选择一个子集的帧，其检测分数的任何线索从相邻帧显着变化这些检测到的帧连同它们的相邻帧由Amazon Machanical Turk工作人员进一步审查，以确定是否存在相应的视觉提示变化以及显示变化的帧的确切位置。我们将多个工人对每个片段的共识作为最终的注释，并使用少量具有已知标签的数据来验证每个工人的标签质量更多详情见第6.1节。语义的高级注释。给定分段的教程剪辑，我们感兴趣的是理解目标或获得高级描述。在这种情况下，需要专家知识来获得可靠的注释。我们聘请专家Photoshop用户Upwork和建立一个基于Web的数据注释工具，特别是这项任务。此工具加载网页中的每个视频，并将视频显示为在低级步骤中检测到的时间段。有关此注释接口的更多详细信息，请参见补充资料。注释者必须提供简明的文字说明和关键词为每个部分。在实践中，我们发现这种基于网络的标签工具和在线专家注释员招聘的组合是可扩展的和具有成本效益的。最终，我们能够在3周内用4K美元标记13，856个视频片段。数据集统计。我们收集的Photoshop Video Tutorial数据集（缩写为PsTuts）是第一个具有高级任务注释的截屏视频数据集，我们的知识在表1中，我们将PsTuts与一些标准视频识别数据集以及其他领域的现有视频教程数据集进行了比较，包括MPII Cooking [37]，YouCook [9]，TACoS[35]。我们的数据集是唯一一个专注于软件屏幕播放视频的数据集，与其他数据集相比具有可比性。我们在图3中显示了PsTuts数据集的统计摘要。最常用工具范围：教程目的MPII-烹饪[37]烹饪44 5，609 8TACoS [35]烹饪7，206 18，227 15.9[48]第48话我的世界[30]第三十话生活任务136M 136M0.13M硬币[41]生活任务11，827 46，354 476.6PsTuts（我们的）软件13,85613,85671.4表1：视频理解数据集的比较。M表示百万。我们的PsTuts是唯一专注于屏幕直播教程的数据集。显示在左边。来自网络的视频教程显示了所有工具的严重不平衡分布。我们的数据集中视频片段长度的分布显示在中间。大多数剪辑的长度在2到30秒之间。图3的右侧显示了我们数据集中文本描述的单词云，我们可以看到最常用的单词与一般视频中使用的单词完全不同[4，36，45]。5. 方法视觉线索检测与识别。首先，我们应用对象检测算法来定位Photoshop教程视频的每个帧上的工具图标和弹出窗口/面板的低级视觉线索考虑到上下文信息在该问题中的重要性，我们使用YOLO[34]而不是基于提议的探测器。为了减少标记工作，我们采取了一种主动学习策略，该策略从少量标记的示例开始，然后在未标记的数据集上进行测试。只有具有低置信度分数的实例才被注释并合并到先前的训练集中。当我们用组合数据集重复重新训练模型时，模型的鲁棒性逐渐提高并最终收敛。对于每个视觉提示，通过迭代的训练帧的总数仅为1000。在定位视觉线索后，我们识别每帧上的选定工具以检测工具变化。为了构建工具分类器，我们收集了所有工具数据集域号的剪辑号的句子长度（小时）窗户和面板。但是，它太贵了，不能...MSVD [5]MSR-VTT [45]开放开放197010,00070,028200,0005.341.2排他性地注释所有分割边界，ActivityNet [4]开放20,000100,000849.0需要仔细检查每一帧同样，我们使用MPII-MD [46]电影68,33768,37573.60一种半自动化的方法，利用视觉提示，M-VAD [42]电影48,98655,90484.6012530我J1niC原始帧弹出窗口面板检测选择刀具检测识别图4：我们的视觉线索推理（VCR）方法的一般结构，用于文本到视频检索和教程视频字幕。教程编码是考虑不同视觉线索以及视频帧之间的相关性而生成的算法1基于视觉线索的时间视频分割。输入：视觉提示检测（用于弹出面板/窗口）和识别（用于工具）结果{r1，r2，...，rn}，置信度得分{s1，s2，...，sn}。输出：分割边界集B。1：对于帧i=k+ 1至n-k-1，第二章：ri={ri−k，.， ri，...，i+k};3：初始化L= 0，B={}4：对于帧i= 2到n，执行5：L+=16：如果ri/=ri−1且si>ε且L>σ，则7：B=Bi且L= 0图标图像在Photoshop中，并增强了他们与小扰动，如转移和缩放模拟真正的screencast视频。该数据集由60K和20K图像组成，分别用于训练和验证目的，共39个工具类。我们在这个数据集上训练了一个带有交叉熵损失的Resnet-101模型，并在工具识别中实现了99.83%的验证准确率。时间视频分割。根据视觉线索的时间一致性和可靠性，将整个视频分割成一系列片段。算法1描述了我们基于检测到的弹出面板/窗口和识别的工具的分割算法。我们首先平滑检测和识别结果{ri}利用长度为2k的时间窗口来过滤出异常值RE，结果。最后的分割边界集B是从平滑识别结果的变化点中选取的，具有最小置信度ε和最小段长σ。在我们的实验中，我们设置k= 2，ε= 8，σ= 60高级视觉线索推理（VCR）全理解。对于高级教程理解- ING任务，我们专注于给定文本查询的教程剪辑检索和给定教程剪辑的标题生成。我们建立了一个复合特征描述符的基础上视觉线索推理表示教程视频剪辑。如图4、除了原始视频帧V的通用CNN特征之外，以下视觉线索被编码在视频描述器中：窗口或面板;和所选工具类别的独热向量。这些提示对于表征每个视频剪辑中的用户状态很重要。它们中的每一个都通过全连接层被转换到D维嵌入空间考虑到帧之间的语义相关性，我们跨帧对这些线索特征进行时间推理。具体来说，对于每一种视觉线索，我们测量不同的帧F ={f1，...，f n}，fi∈ RD，通过等式（1）获得相关性。1.一、A（f，f）=e（fi）Tφ（fj），（1）其中φ（f i）= W φ v i和φ（f j）= W φ f j是两个映射函数。可以通过反向传播来学习参数W φ和Wφ。然后我们构造了一个全连通图G=（F，A），其中F作为节点集，亲和矩阵A 作为边集。图卷积网络（GCN）[22]用于在这个全连接图上执行推理每个节点剩余连接[17，27，38]应用于GCN，如等式10所示。二、∗Fi=Fi+（AFWg）Wr[i，：]，（2）其中，Wr是残差结构的参数，Wg是GCN层的权重矩阵。输出F={f，.，f<$}，f<$∈RD是关系增强表示。我们学习这样一个剩余GCN模型，每个视觉提示C，除了提示T，因为所选择的工具对于每个视频剪辑内的不同帧是相同的。我们进一步生成的教程视频考虑不同的视觉线索之间的相关性的这是通过对不同线索表征的注意学习来实现的。对于每个视觉线索c，我们平均-在F上跨帧汇集（对于提示T在F上）以得到提示表示Rc。然后我们建立一个全连通图，其中线索表示集R充当节点集，其亲和矩阵充当边集。我们可以执行与Eq. 1和2对这些线索表示，时间推理时间推理CNN独热编码匹配检索模型文本查询文本编码更改前景色用滴管工具。RNN编码器字幕模式字幕出现使用吸管工具更改前景色解码器CNN线索特征的注意通过注意力加权求和12531CC使用的视觉提示AMT质量精度召回弹出窗口0.940.900.96弹出式面板0.920.860.91选定工具0.950.890.94表2：时间分割的定量评价。AMT质量是通过随机包括已经具有地面实况标签的精确度反映了真阳性率，召回率衡量模型可能错过地面实况分割边界的可能性。去找R。在此之后，提示注意权重wc可以学习∗从关系增强线索表征R 通过全连接层。它们被用来加权组合相应的i_c，以得到最终的视频表示其中V=wc Rc。文本到教程剪辑检索。我们遵循常见的跨模态检索方法，学习相似性度量两个异构嵌入空间。我们用我们的视觉线索推理方法获得的视频表示V替换视觉嵌入具体来说，我们遵循[12，25]使用基于GRU [8]的文本编码器将文本查询映射到与V相同的D维语义向量空间RD。然后采用改进的基于铰链的三重排序损失，强调硬否定，以训练该匹配空间[12，25]。视频剪辑字幕。为了为给定的教程视频剪辑生成文本描述，我们建立在序列到序列模型S2VT [44]的基础上，输入帧序列和可变长度的输出字序列。我们使用我们的VCR方法来获得改进的视觉表示S2VT模型。为了保持序列的结构性，采用线索注意权值对线索注意权值进行加权- 组合每个线索c的对应帧特征Ff，而不是整个线索表示Rc，以得到帧-1级的 V表示V，其中V=wc Ff。然后喂它们转换成两层的桩式GRU，剪辑，然后解码描述视频内容的输出句子。我们采用神经注意机制[3，26]，允许模型在解码阶段专注于编码特征的某些部分。6. 实验在这一部分中，我们首先设计实验来定量评估所提出的基于视觉线索的时域视频分割方法的性能。然后，我们在PsTuts数据集上进行文本到教程视频检索和教程视频字幕实验。6.1. 时域视频分割我们从Youtube上获得的Photoshop教程视频中随机选择了800个视频样本，如第4节所述，并基于每个建议的视觉线索对这些视频运行我们的表3：PsTuts数据集测试集上文本到视频片段检索性能的定量评估结果， Recall@k （ R@k ）和 MedR（MedR）。为了评估具有有限手动注释的检测召回率，我们还为每个视觉提示生成一个负集，其中具有我们的模型可能错过的最有可能的分割边界（如算法1中的siε或Lσ）。按照第4节中描述的注释和评估方法，为了构建分割结果的评估集，我们随机选择了我们的模型检测到的1.8K阳性分割边界以及我们的模型可能错过的1.8K最有可能的阴性分割边界我们采用AMT Turkers注释是否有一个相应的视觉提示变化，在每个段的边界，通过审查边界之前和之后的相邻帧。为了衡量Turkers整个4K片段以随机顺序呈现多轮。表2中的定量评估结果表明，我们的方法可以保证一个体面的分割质量，支持进一步的高层次的理解任务。我们的最终分割边界的aries用于高层次的任务，通过结合所有三个视觉线索的分割结果。6.2. 文本到教程剪辑检索整个PsTuts数据集分为训练，验证和测试，比例为8：1：1。这导致11086个样本用于训练，1385个样本用于验证，1385个样本用于测试。在LSMDC数据集[36]之后，我们通过将每个视频片段视为相应文本查询的基础事实来评估模型使用Recall@1/5/10和MedianRank（MedR）测量文本到视频检索的性能Recall@k（越高越好）表示包含的地面实况视频的百分比方法R@1R@5R@10MedR[29]第二十九话6.718.126.946[25]第二十五话8.721.227.650VSE++（V）[12]9.020.727.861Ours-S（V）11.825.633.342我们的（五）12.426.934.434P+ T0.21.43.1165P+T扫描1.98.714.2168P+T VSE+2.910.516.5138我们的（P+T）4.312.419.285V+ T6.919.127.343V+T扫描9.221.831.228VSE++9.523.532.726我们的（V+T）13.428.235.722V+ P8.824.433.529V+P扫描10.226.836.125VSE++12.829.538.223我们的（V+P）14.531.841.221V+P+ T9.425.834.726V+P+T扫描11.529.138.223V+P+T VSE++14.231.340.422Ours-S（V+P+T）15.533.442.018我们的（V+P+T）17.034.943.81512532(a) 正确检索（b）失效案例视频排名1GT视频排名：20添加照片过滤器调整，以冷却图像GT视频排名：2遮盖飞溅，融入鞋身GT视频排名：1设置新文档视频排名1GT视频排名：293使用自由变换工具调整大小和旋转使用钢笔工具删除背景水的形象。GT视频排名：1从模型图像。GT视频排名：2复制背景层和蓝色通道层图5：文本到视频剪辑检索结果的示例。“GT视频排名”表示每个输入查询的检索结果中的地面实况剪辑的排名。(a)显示不同对象和操作的正确结果;以及（b）呈现主要由于太高级别的查询或非可视用户动作而导致的失败情况。在前k个检索到的视频中，MedR（越低越好）指示地面实况视频的中值排名。实作详细数据。对于视频特征，我们从每个视频中等距采样30帧，并为每个帧提取2048维ResNet-152 [17我们以与第5节中描述的相同的方式使用基于视觉提示的描述器来增强视频功能。如果在帧中没有检测到窗口或面板，则我们使用2048维零向量，并计算39维选定工具特征。对于模型训练，我们使用Adam优化器[21]用40个epoch来训练模型。我们以学习率0.0002开始训练20个epoch，然后对于剩余的20个时期将学习率降低到0.00002。在[25]之后，我们通过对两个训练的VCR模型的预测相似性得分进行平均来单个模型结果标记为定量结果和分析。我们在表3中显示了所提出的方法以及具有不同输入特征的最先进的检索模型的结果。“V”, “P” and “T” represent using visual feature of theentire frame, feature of the pop-up window or panel andone-hot vector encoding 仅将整个帧的视觉特征作为输入是一般视频理解的标准设置[4，37，45]。它可以检索一些合理的教程视频的给定文本描述。然而，在测试集上，地面实况视频的中位数排名约为50。背后的原因是，整个屏幕直播教程视频帧包括太多复杂的信息。某些信息对于理解查询文本所描述的用户操作来说可能是从表3中我们还发现，从视觉线索中添加额外的信息有助于更好的检索性能。“V+P+T”模型比“V”模型有很大的改进，取得了最好的效果。这证明了我们的视觉线索捕捉了代表用户操作和教程内容的关键信息，这有效地帮助学习更好的文本，表4：视频帽的定量评价结果在PsTuts数据集的测试集上测试模型性能。所有值均以百分比（%）报告。视频嵌入教程。此外，该方法还可以改进现有的定性结果。如图5所示，我们的然而，给定一些一般操作的描述，模型可以检索可以很好地匹配的多个剪辑，从而导致地面实况剪辑的高排名。此外，该模型不能很好地处理用户行为的查询，导致难以察觉的视觉效果，很难推断根据当前的视觉线索。6.3. 视频剪辑字幕我们将数据集中的每个视频片段视为独立的我们保持与第6.2节相同的设置。为了评估字幕性能，我们使用标准度量，包括 BLEU [32] ， METEOR [10] ，ROUGE-L [28]和CIDER [43]以及[6]发布的代码。我们应用与6.2节相同的预处理来获得视觉线索特征。方法B@1B@2B@3B@4MRCR[44]第四十四26.8617.1712.619.9612.1526.2990.39S2VT属性（V）27.8218.9014.2611.6513.3328.83112.88我们的（五）29.9020.2314.8911.6514.2330.45117.92P+T S2VT22.0314.5210.658.8011.7928.67100.77P+TS2VT属性21.4714.2910.528.4210.9127.87100.59我们的（P+T）22.8515.2311.109.2211.9529.05104.45V+P S2VT29.1919.5114.4311.5113.6229.44111.71V+PS2VT属性29.3419.9815.0511.9914.1030.73122.05我们的（V+P）30.9521.3815.9413.0214.9332.08126.85V+T S2VT30.1620.9916.1713.1614.2930.71121.06V+TS2VT属性31.3121.5916.3113.1515.0232.18128.52我们的（V+T）32.3822.7817.3514.6615.5333.27136.84V+P+T S2VT31.1321.8416.9013.9315.0132.42129.61V+P+T S2VT属性32.2922.3117.1013.7815.5033.13133.55我们的（V+P+T）32.6323.4218.3215.1216.0633.92145.0212533(a) Correct descriptions(b) 正确但不接近GT(c) 无关描述调整亮度和对比度GT：调整模型裁剪图像GT：裁剪图像去周围的边缘与黑色刷工具燃气轮机：添加一些亮点以及在眼睛周围添加红色的脸GT：画在脸上模糊它将动物应用于新背景GT：移除动物添加投影图层样式GT：调整投影设置添加晕影效果GT：创建选区使用画笔工具和刷通过删除GT：改变混合模式的颜色填充图6：Photoshop专家生成的标题和地面实况注释（GT）的示例。(a)包括与GT几乎相同的正确示例;（b）提出合理的结果，但从不同的角度从GT，和（c）显示失败的情况与不相关的描述。Adobe InDesignMicrosoftWordAdobe Premiere Pro.框架具有通用性，可以扩展到其他软件中。不可否认，如今软件被部署在任何地方，例如，个人电脑、平板电脑、手机和嵌入式设备，因此，软件UI的视觉空间是巨大的，充满了变化。图7（右）显示了图7：视觉提示检测器在其他具有通用设计原则的软件上具有良好的通用性（无需它在Adobe Premiere Pro（右）上失败，其中包括与弹出窗口非常相似的UI元素。结果和分析。不同方法的字幕性能如表4所示。“Att”表示具有RNN注意机制的模型。从结果中，我们发现，纳入额外的视觉线索，可以有效地提高视频字幕的质量。这证实了我们在第6.2节中所做的观察。我们还注意到，提出的视觉线索推理方法可以帮助提高这种新的视频内容的字幕性能。对于图6所示的定性结果，我们的模型可以为涉及各种对象和操作的教程剪辑生成合理的文本描述7. 讨论在本节中，我们简要讨论了这项工作的推广和局限性。Adobe Photoshop是使用最广泛的专业软件之一，与其他软件（如InDesign、Illustrator、Microsoft Word和PowerPoint）共享我们直接（无需微调）将我们的一些低级提示检测模块应用于这些软件的截屏视频。如图7所示，我们的系统可以正确地捕获AdobeIndesign和MicrosoftWord的可视事件对于特定的视觉提示，例如工具识别，可能需要专门为每个软件收集数据和训练模型。但是，在这一步中收集少量的训练数据就足够了，就像我们为Adobe Photoshop所做的那样。在高级任务理解方面，我们的数据注释管道和Adobe Premiere Pro提示检测失败案例是这主要是因为Premiere Pro的UI包括与Photoshop中的弹出窗口非常相似的区域因此，我们的模型（没有对Premiere Pro数据进行微调）错误地将这些UI区域视为弹出窗口。我们充分认识到自动理解所有软件UI的困难。我们希望这项工作是朝着这一具有挑战性的目标迈出的第8. 结论我们提出了一个新的研究问题，计算机视觉社区的视觉理解的screencast教程。这是一个特定领域的视频理解问题，但具有重要的实际意义，因为我们的生活越来越依赖于计算机和软件。我们收集PsTuts数据集，其中包含Adobe Photoshop的各种有趣的教程视频。我们提出了一个有效的自下而上的管道来理解Photoshop视频教程，利用最先进的对象检测和识别算法和特定于域的视觉提示。我们评估了所提出的视觉线索推理模型和现有的算法，如教程视频检索和字幕的高层次任务。我们在PsTuts数据集上进行了大量的实验，这表明我们的系统是理解教程视频中剪辑的有意义的一步在未来，将更多的线索包括到框架中可能是有启发性的，例如OCR以及其他非视觉信号，语音转文本转录本、用户日志等。了解更广泛的软件工具的更结构化的任务和复杂的工作流程也是进一步研究的重要途径。致谢：这项工作得到了Adobe Research基金的支持。拉库尔12534引用[1] 装修。https://www.upwork.com网站。3[2] Jean-BaptisteAlayrac ， PiotrBojanowski ， NishantAgrawal，伊万·拉普捷夫，约瑟夫·西维克，西蒙·拉科斯特-朱利安。从叙述式教学视频中进行非监督式学习。在计算机视觉和模式识别（CVPR），2016年。2[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年，国际会议。6[4] Fabian Caba Heilbron Victor Escorcia Bernard Ghanem和胡安·卡洛斯·尼布尔斯Activitynet：人类活动理解的大规模视频基准。CVPR，2015。一、二、四、七[5] David L Chen和William B Dolan。收集高标准-平行数据进行释义评价。在ACL，2011年。4[6] XinleiChen ， Hao Fang ， Tsung-Yi Lin ， RamakrishnaVedan-tam ， SaurabhGupta ， PiotrDol la´r ， andCL awrenceZitnick. Microsoft coco字幕：数据收集和评估服务器。arXiv预印本arXiv：1504.00325，2015。7[7] Pei-YuChi ， SallyAhn ， AmandaRen ， MiraDontcheva，WilmotLi，andB joürnHartmann. Mixt：自动生成分步混合媒体教程。在UIST。ACM，2012年。2[8] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio门控递归神经网络对序列建模的经验评估arXiv，2014. 6[9] Pradipto Das，Chenliang Xu，Richard F Doell，and JasonJ高索短短几句话就有一千帧：通过潜在主题和稀疏对象拼接对视频进行语言描述。CVPR，2013。二、四[10] Michael Denkowski和Alon Lavie流星宇宙：兰-针对任何目标语言的语言特定翻译评估2014年第九届统计机器翻译。7[11] Berna Erol和Ying Li。技术概述，电子会议和电子讲座。 ICME，2005年。2[12] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。在BMVC，2018年。6[13] David F.放大图片创作者：Li Li，A.埃夫罗斯和吉天-马利克夫人。从生活方式到日常互动。在CVPR，2018年。2[14] 亚当·富尼和迈克尔·特里挖矿在线软件教程：挑战和开放的问题。在CHI。ACM，2014年。2[15] C.艾莉·弗雷泽米拉·唐切娃和斯科特·克莱默软-软件视频：丰富的内容和学习潜力，但对意义建构的挑战。在CHI Sensemaking Workshop。ACM，2018。2[16] Tovi Grossman，Justin Matejka，and George Fitzmaurice.编年史：捕获、浏览和回放文档工作流历史。在UIST。ACM，2010年。2[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。五、七[18] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地苏肯卡尔和L.飞飞用卷积神经网络进行大规模视频分类。CVPR，2014。2[19] Will Kay，Joao Carreir

下载后可阅读完整内容，剩余1页未读，立即下载