视频数据概念表征的协作学习

147 浏览量更新于2023-09-05 收藏 12.45MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

0用于视频数据的概念表示的协作学习0Francisco Torres, Hoda Eldardiry, Gaurang Gavai, and Chad Ramos Palo AltoResearch Center, 3333 Coyote Hill Road, Palo Alto, CA USA, torres@parc.com0摘要0我们提出了一种用于协作学习非结构化数据集中所包含概念表示的方法。我们的方法学习机器和专家可解释的表示，其中“专家”是指在概念领域具有专业知识，而不是机器学习专家。在本文中，我们关注挖掘视频数据，但该方法也适用于其他类型的数据。给定一个大型视频数据集和一个专家提供的捕捉某种目标概念的示例剪辑，我们提出的技术与专家协作来识别该概念，即使专家的思想中一开始并不清楚。由于专家可能在探索不同的可能性，标记一大批数据，然后训练一个分类器来识别该概念并不是正确的方法，因为它缺乏必要的灵活性。为了使学习随着概念的演化而发生，我们使用“学习-演化-解释”循环来生成（1）识别概念的深度表示，可供模型进行查询；以及（2）解释概念的视觉表示给人类专家。我们总结了用于执行协作视频查询的开源软件，并讨论了我们未来工作的计划。01引言许多新兴的人工智能技术的影响关键在于学习的协作性质。许多系统利用各种互补的参与者，这些参与者之间的协作越好，学习就越有效率。这些协作参与者包括机器学习程序、人类和物理子系统，每个参与者扮演各种角色。机器学习方法学习模型，推理处理数据流，挖掘有趣的模式，有时生成结果的解释。物理子系统感知环境并捕捉变化的背景。人类参与者通过创建教学演示、提供输出反馈和在必要时策略性地重新组织机器学习和物理子系统来管理高级活动和任务开发。理想情况下，人类0版权由作者所有。在A. Martin, K. Hinkelmann, A. Gerber, D.Lenat, F. van Harmelen, P. Clark（主编），AAAI2019春季研讨会论文集（AAAI-MAKE2019）。斯坦福大学，加利福尼亚州帕洛阿尔托，美国，2019年3月25日-27日。0用户可以将更多的机械学习和物理子系统委派给机械学习和物理子系统，从而使人类专家能够专注于高级上下文和目标。01.1 学习挑战本研究关注协作学习方法中的两个参与者：（1）机器学习程序，（2）在所研究的概念领域具有专业知识的人类。我们的学习方法使得灵活和探索性的协作成为可能，同时解决了以下挑战。协作学习可以放宽的典型机器学习约束包括：•初始问题规范。大多数学习方法要求专家在一开始明确地规定他们要解决的问题。这限制了进行探索性学习的能力。非机器学习专业人员将受益于一种方法，其中用户提供一到几个感兴趣概念的实例，然后进行直观的协作。•标记数据的要求。监督式机器学习通常依赖大量标记数据进行训练。这既昂贵又对专家构成负担。•模型行为的未解释性。当推理模型生成输出而没有解释时，专家可能无法理解为什么生成这个输出。期望专家通过观察大量示例的模型行为来填补这种理解差距在许多现代人工智能系统的规模和复杂性下是不可行的。在缺乏这种理解的情况下，使用整体系统在狭窄的上下文之外变得有风险，然而，为了实现战略目标或应对变化的环境，可能需要更广泛的使用。01.2 专家引导的概念协同学习考虑一个领域专家研究大量视频数据集中出现的某个概念。这位专家希望能够定位捕捉该概念的视频剪辑，因为手动审查所有视频是不切实际的。我们的方法是构建一种技术，使用“学习-演化-解释”循环；在本文中，我们报告了“学习”和“演化”步骤的结果，并讨论了我们的建议。0以架构“解释”步骤。在我们的方法中，专家首先提供一个示例视频剪辑。该剪辑将展示所需场景的某种概念，但也会有超出目标概念范围的活动和对象。此外，随着算法为识别目标概念建立表示并从专家获得反馈，专家可能会对概念的细节和细微差别产生不同的理解。学习-演化-解释循环的工作方式如下：0•LEARN：学习剪辑所描绘的概念的特征表示。1）使用预训练于动作识别的深度神经网络集合来提取示例剪辑的深度特征表示。0•EVOLVE：协同演化和澄清概念。2）使用集合评分搜索类似的剪辑。3）向专家呈现提议的匹配剪辑。还呈现“接近失误”，使专家看到算法认为超出目标概念范围的操作。4）获取专家对搜索结果的反馈，然后学习更好的目标概念的机器表示。通过提供反馈，专家还隐含地澄清了算法和自身的模糊和不确定性。5）返回到步骤1进行另一个学习循环，直到专家满意。0•EXPLAIN：生成人类可解释的表示。6）在学习+演化步骤的足够迭代之后，生成算法生成一个聚焦于目标概念并抑制和最小化其他内容的“评估”视频片段。7）专家要么接受这个解释性片段，要么进行进一步的学习-演化-解释循环。0学习算法和专家共同从示例剪辑开始识别感兴趣的目标概念，而无需事先确定一个固定的具体问题规范。在第2到第5步中，使用专家引导的持续协作方法演化感兴趣概念的学习。作为第5步的一部分，目标引导算法获取由专家验证的所有匹配剪辑的内部表示，并形成一致的表示，都是以机器特征表示的形式。最后，在第6和第7步中，旨在创建解释目标概念的内部模型表示的人类可理解表示。01.3 技术要素本文的技术要素可以总结如下：0• 视频剪辑表示方法（第3节）0• 一种搜索算法（第4节）0• 根据专家用户反馈改进搜索的方法（第5节）0•根据专家用户的合作反馈对目标概念的机器表示进行改进（第6节）0•一种生成捕捉概念的剪辑的方法，同时弱化其他细节（我们提出的路线图第9节的未来工作）02 相关工作0我们的方法采用迁移学习，即在除原始训练目标之外的上下文中使用预训练的深度神经网络的嵌入。在除训练目标之外的上下文中使用预训练的深度神经网络的嵌入通常是有用的（Goodfellow等人，2016年）。此外，主动式深度学习在某些方面类似于我们在本文中描述的专家引导的协作学习；两者都旨在充分利用专家的时间。例如，Gal等人（Gal，Islam和Ghahramani，2017年）利用诸如贝叶斯神经网络之类的专门模型构建高效的深度主动学习范例。有趣的策略，例如深度对抗主动学习（Ducoffe和Precioso，2018年），也减少了所需的专家输入量。虽然主动学习方法侧重于有效利用专家输入，但它们通常假设感兴趣的概念已经被识别出来，并旨在实现更高效的标签化。我们的方法可以在类事先已经很好理解的情况下作为主动学习工具使用，但我们的主要重点是合作学习的概念，该概念不是事先指定的，从专家处只需要一个示例开始。我们确实看到将现代主动学习算法（如（Gal，Islam和Ghahramani，2017）和（Ducoffe和Precioso，2018））与本文中讨论的协作学习相结合的潜在价值。03 视频剪辑表示0为了准备使用的数据，我们将视频数据集划分为剪辑，并使用深度学习神经网络的集合计算每个剪辑的签名。目前，我们将剪辑定义为10秒长，尽管探索该参数和剪辑之间的重叠是我们的路线图之一。下面我们将讨论特征表示的集合模型方法。我们的集合设计捕捉了每个视频剪辑的外观和动作两个属性。我们使用一个包含广泛人类动作集的公开可用视频数据集对我们的集合进行预训练。03.1 定义0• 视频剪辑：一小段视频，例如10秒的片段。0• 视频剪辑签名：编码剪辑特征的一组深度嵌入特征向量。0•特征向量：使用神经网络计算的视频剪辑的嵌入特征向量；通常是剪辑和神经网络的函数。0•流：一个深度神经网络模型，它使用以多种方式处理的视频数据作为多流体系结构的一部分。03.2 学习深度神经网络的集合模型0我们研究的集合由三个RGB和三个变形光流深度网络组成，这些网络是根据Wang等人（2016年）的时间段网络（TSN）工作采用的。对于每种模式，三个网络都是在UCF-101数据的三个发布分割（Soomro、Zamir和Shah2012）上进行训练的。在这里报告的结果对应于六个深度网络中的六个1024元素全局池嵌入特征向量，它们是将输出分类为101个UCF类别的最后特征向量层之前的特征向量。计算完成后，我们将视频剪辑签名作为结构化数据存储在数据库中，以便进行签名比较的结构化查询。TSN方法将一个短视频分成指定数量的片段，使用空间（RGB）卷积神经网络和时间（光流）神经网络分析每个片段，然后应用共识函数得出最终的动作确定。光流显示像素的速度，而变形光流试图抑制背景运动，例如相机的效果，而不是演员的运动。然而，Wang等人（2016年）在他们的工作中报告说，光流神经网络的性能几乎与变形光流神经网络一样好，并且准备的计算时间更少，但我们一直使用变形光流神经网络以增加对相机运动的鲁棒性。我们的使用案例主要是针对安装在移动车辆上的摄像机，与UCF-101数据集不同，我们的初步测试表明，变形光流可以比仅使用光流更好地表现。我们选择TSN建模，是因为TSN工作中使用的UCF-101数据集的平均片段长度为7.2秒，与我们感兴趣的片段长度相当。我们的方法主要关注的是诸如“带狗散步”、“乐队行进”、“沿着路径骑自行车”和“过马路”等行动概念，而不是像一个人在视频中经历做蛋糕或制作家具的所有步骤那样更长、更复杂的活动。TSN强调对短动作视频片段进行分析，而不是创建一个长期记忆的活动。我们的方法论旨在用于识别测试车辆在行人穿过前停车的情况，我们不希望它能够在推断一个视频中的一系列动作是否对应于某人在接孩子之前购物的情况下表现良好。后者涉及一系列动作和抽象的意图，这是一种不同类型的视频机器学习任务。所提出的方法可能是一个更大的机器学习技术的组成部分，该技术能够理解后者的活动，但它本身无法实现该目标。03.3 流类型的选择0任何合适的深度网络都可以使用，不同类型的问题在不同的深度网络模型上表现更好。例如，如果与图像而非视频行动有关的概念很重要，添加一个ImageNet流可能会有帮助，例如，如果有人想要找到在停车标志和红绿灯处穿过街道的所有例子。0停车标志和红绿灯之间的区别是图像上的区别，而不是动作上的区别。在我们迄今的用户研究中，我们发现用户经常希望在搜索中包含这种“图像”特征。另一个例子是在研究面部表情和头部运动的情况下，不同于UCF-101数据集中的动作的神经网络可能更有用，例如，在驾驶汽车时捕捉到人脸的视频。03.4深度网络嵌入的选择根据兴趣的概念，来自深度网络的嵌入可以从不同层次中选择，而不仅仅是在深度网络的最后一层隐藏层中选择。例如，如果一个人正在寻找更基础的动作，比如向左或向右转弯，较低的层次可能更好地区分这些动作。相反，我们当前的UCF-101训练的TSN网络在到达更高层次时可能没有区分左右运动的能力，因为这些网络是为了预测正确的动作而训练的，而不考虑左右运动。在未来的工作中，我们计划研究包括更多层次，并让人算法协同决定在集合模型中如何权衡较低层次和较高层次的重要性。04搜索相似剪辑如上所述，搜索算法使用一组深度神经网络嵌入。通过计算示例剪辑和可能匹配的嵌入特征向量的点积来量化剪辑的相似性。然后将各个点积组合成一个集合分数。04.1单个嵌入特征的相似性度量选择为了计算参考视频和第二个视频剪辑的嵌入特征的相似性，我们使用f(i)TDNN∙f ref DNN 除以 f ref DNN 的2次方0其中 f 是特征向量，T 表示转置，DNN表示深度神经网络类型（例如，RGB或扭曲的光流）。相似度表示结果与1的接近程度。到目前为止的实验中，我们发现这种相似度度量在集成模型中效果良好，而单个神经网络的结果似乎受到显著更高的方差的影响。请注意，方程式1与余弦相似性不同。（分母是参考帧嵌入特征的 L 2范数的平方，而不是两个特征的范数的乘积。）我们使用这种“点积”相似度，因为它强调了沿着参考嵌入的超维方向相似的内容，而不是在正交的超维方向上不同的内容。请注意，两个嵌入的特征向量在它们的超维空间中可以相距很远（例如，根据欧氏或其他距离度量），但仍然具有良好的相似度分数。(2)(4)0图1：驾驶场景的实验评估：交叉口与行人过马路的车辆。来自Downtown BrooklynDrive视频https://www.youtube.com/watch?reload=9&v=cjs3RxuKo6c，时间为3:53。04.2相似度的集成由于视频剪辑的签名是使用多种类型的深度神经网络（DNN）在多个数据拆分上训练并计算的特征集，因此我们需要指定如何将所有相似度度量集成在一起。0对于每种类型的DNN和每个候选剪辑i，我们计算相似度的集合0ϕ ( i ) DNN= 103 �0j =10f ( i ) T DNN,j ∙ f refDNN,j �� f ref DNN,j �� 20其中 f ( i ) DNN,j 是计算给定DNN类型的第j个拆分的剪辑i的特征，f ref DNN,j是参考剪辑的相应特征。当剪辑i也是参考帧时，ϕ ( i ) DNN = 1 ，更一般地，当 f ( i )DNN,j 在 f ref DNN,j 上的投影等于平方的 L 2范数时，对于所有用户验证的匹配剪辑，都有0f ( i ) DNN,j 与 f ref DNN,j 的范数乘积等于1，即使 f ( i) DNN,j 和 f ref DNN,j不相等。这是我们在第3.1节中讨论的期望行为。0DNN流的集成下一步是确定整体相似度分数。为此，我们使用一个欧几里得空间，其中每个DNN对应于一个维度，沿着该维度测量 ϕ ( i ) DNN的值。在该空间中，每个DNN维度的值为 ϕ ( i ) DNN = 1是最佳的相似度。我们不一定希望给每个DNN维度赋予相同的权重，而是希望学习最佳权重。因此，我们计算剪辑i与参考剪辑之间的整体相似度，如下所示：0θ i =0DNN w 2 DNN � 1 − ϕ ( i ) DNN � 20DNN w 2 DNN (3)0其中 w DNN 是每种DNN类型的权重。05 优化搜索为了决定向用户呈现哪些剪辑供其审查，我们计算了最新最佳猜测的相似度 θ i ，用于估计 w DNN 的值（在这里是 wRGB 和 w warped opticalflow）。选择一小部分相似度优于当前估计阈值的剪辑，以及一小部分相似度接近但低于阈值的剪辑。然后用户给出反馈，算法计算新的 w DNN 估计值和 θ i的阈值。在我们的实验中，当同时呈现匹配和“接近匹配”的剪辑进行审查时，我们倾向于看到更好的结果。这与人们通过同意概念的正面和负面示例来建立共同理解的方式类似。06 优化机器表示：目标引导在本节中，我们讨论根据专家反馈优化目标概念的机器表示。目标是用所有用户验证的匹配剪辑一致的新引导集合 f b DNN,j 替换 f ref DNN,j，捕捉所有匹配剪辑的相似之处，并忽略不同之处。回顾方程式3，从数学上讲，我们希望找到满足所有用户验证的匹配剪辑的 θ i ≈ 1 的 f b DNN,j 集合。对于任何满足条件的 f bDNN,j 集合，即对于所有剪辑 i ，所有拆分 j 和所有DNN类型，都有 θ i = 1。对于所有用户验证的匹配剪辑i，f ( i ) DNN,j的所有端点都包含在其中的垂直于其的超平面上。有无限多个这样的超平面，因为 f DNN,j的维数（本文中为1024）比用户将验证的匹配数量要高得多。为了引导引导集合，我们首先计算满足方程式4的最大（按 L 2 范数意义上的最大值）的引导 f b DNN,j，因为它在降低任一超维度对相似度度量 θ i的影响方面是最不限制性的。这样，我们不会对用户的意图施加比推断统一的机器表示所必需的限制更多。为了减少方差，我们使用装袋（bagging）方法，对每个装袋进行有放回地选择样本，并对三个装袋进行平均。还可以结合非匹配的信息。基本版本目标引导的数学细节在附录中提供。0f ( i ) T DNN,j ∙ f b DNN,j = �� f b DNN,j �� 207 软件实现我们已经构建了敏捷视频查询软件，实现了对视频数据集的敏捷发现，并在https://github.com/PARC-projects/video-query-home上开源，供非商业用途免费使用。软件组件包括：（1）DjangoAPI，（2）Angular浏览器客户端，（3）后端Python算法，和（4）Postgres数据库。我们将继续开发该软件，并欢迎其他人参与。0图2：行人过马路场景的累积匹配或未匹配。垂直线是学习阈值，分隔了预测的匹配和未匹配。随着 θ的减小，匹配分布减少，而未匹配的分布增加。08 实验评估使用来自移动车辆的视频，我们已经开始对敏捷视频查询软件进行用户研究。到目前为止，研究的场景包括：(1)车辆在交叉口与行人互动，(2)车辆在高架桥下行驶，以及(3)车辆进行明显的左转。如图1所示，是第一个场景的快照。(第二和第三个场景的视频快照的版权许可正在等待中。)不出所料，不同的用户与软件的互动方式也不同。对于一些用户，软件激励他们紧密关注特定概念，从而有助于以纪律的方式研究一个明确定义的假设。我们还观察到，软件激励用户扩大兴趣范围，并进行由好奇心驱动的数据探索，与前一类型的用户形成对比。图2显示了两个上述第一类型用户对车辆与过马路行人的查询结果。对于图2a，用户接受与行人互动或停下来给行人让路的任何剪辑作为有效匹配。如图所示，80%的匹配位置正确地位于学习阈值 θ以上，而在阈值以上的剪辑中，有22.5%是错误的正例（即红色x）。对于图2b，用户只接受车辆和行人都在移动的剪辑，并拒绝车辆停下来的剪辑。尽管79%的匹配位置正确地位于学习阈值以上，但误报率为38%。09技术路线通过分析嵌入特征空间中的样本分布的分歧，未来的增强措施将帮助人机协作判断用户的兴趣是否扩大或矛盾，并通过单独处理多个概念来进行操作。我们期望这些增强措施将形成进一步发展的目标引导引导。我们0road map also includes adding a larger set of deep neural nettypes, starting with an image-centric deep net to addressnon-action image recognition needs that have come up re-peatedly in our user studies. We are also working toward agenerative algorithm that will use bootstrapped targets toproduce video clips that hu- mans can easily and intuitivelyinterpret and evaluate. The goal of this capability is to providea human-interpretable view of the machine representations.For our intended pur- poses, the generated video shouldhighlight the actions of interest while also obscuring orsubduing irrelevant features. Our current approach is toleverage both LIME (Ribeiro, Singh, and Guestrin 2016) andneural style transfer tech- niques (Gatys, Ecker, and Bethge2016). LIME computes which pixels are important for any oneprediction made by a DNN image classi�er, presenting amodi�ed image with those pixels replaced with a highlightcolor. With a modi�ed version of LIME, we expect to be able toshow if the machine representation is locking into some-thing unexpected, such as irrelevant trees in the background.If a user sees this happening, then the user can provide fur-ther examples without those features in the next round offeedback to the algorithm. Further along the roadmap, we willresearch adding an explicit ability for users to directly removeirrelevant things revealed by visualizations of the machinerepresentation. Highlighting important pixels is only a partialsolution, however, because it will not reveal what relationsamong pixels are important versus unimportant. Consider, forex- ample, video clips of pedestrians walking in front of a carat an intersection. Highlighting the pedestrians reveals someinformation, but it does not tell the user whether the machinerepresentation prioritizes, say, the pattern on a pedestrian’sshirt or the re�ective stripes on the safety vest of a jogger. Weare investigating using neural style imaging as a way to alter aclip in order to subdues patterns and details that are(6)0不重要以计算相似度分数。我们的假设是这种方法可以提供一种更丰富的人可解释的机器表示版本；例如，修改后的剪辑可能显示出对不关注服装的查询而言乏味、单调的服装，或者相反，如果用户意图查询专注于穿着这样的背心的慢跑者，则可以显示出慢跑者安全背心上的细节。010 致谢我们感谢美国交通部联邦公路管理局和Ana MariaEigen博士在EAR资助项目DTFH6115H00006下的支持和资助。0References Ducoffe, M., and Precioso, F. 2018. Adversarialactive learning for deep networks: a margin basedapproach. CoRR abs/1802.09841. Gal, Y.; Islam, R.; andGhahramani, Z. 2017. Deep bayesian active learning withimage data. CoRR abs/1703.02910. Gatys, L. A.; Ecker, A. S.;and Bethge, M. 2016. Image style transfer usingconvolutional neural networks. In The IEEE Conference onComputer Vision and Pattern Recognition (CVPR).Goodfellow, I.; Bengio, Y.; Courville, A.; and Bengio, Y.2016. Deep learning, volume 1. MIT press Cambridge.Ribeiro, M. T.; Singh, S.; and Guestrin, C. 2016. ”whyshould I trust you?”: Explaining the predictions of anyclassi�er. In Proceedings of the 22nd ACM SIGKDDInternational Conference on Knowledge Discovery andData Mining, San Francisco, CA, USA, August 13-17, 2016,1135–1144. Soomro, K.; Zamir, A. R.; and Shah, M. 2012.Ucf101: A dataset of 101 human actions classes fromvideos in the wild. arXiv preprint arXiv:1212.0402. Wang,L.; Xiong, Y.; Wang, Z.; Qiao, Y.; Lin, D.; Tang, X.; and ValGool, L. 2016. Temporal segment networks: Towards goodpractices for deep action recognition. In ECCV.011 附录：目标引导引导在目标引导引导中，我们希望选择最不受限制的引导引导 frefDNN,j，以满足方程4，以不强迫用户意图中的更多限制。因此，我们选择目标引导引导为0max 02 f bT ∙ f b (5)0such that f ( i ) T ∙ f b = �� f b �� 20for all clips i that the user has validated to be a match.When using bagging, the set of all clips is replaced by aset ran- domly chosen from the entire set withreplacement. As written, this maximization problem is in aform that is dif�cult to handle. To put it in a nicer form, weintroduce the scaled tar0t = f b0∥ f b ∥ 2 2 (7)0In terms of this scaled target, equations 5 and 6become, for each choice of DNN and j0min 02 t T ∙ t (8)0such that f ( i ) T ∙ t = 1 (9)0This is a straightforward quadratic minimization problemwith linear equality constraints. Using the method ofLagrange multipliers, the Lagrangian for equations 8 and 9is0L = 102 t T ∙ t + λ T (F ∙ t − 1) (10)0where λ is a vector of Lagrange multipliers, and0F =0�0�0← f (1) T →← f (2) T →... ← f ( J )T →0�0�� (11)01 J is a vertical vector of m ones, and J is the number of user-validated matchescorresponding to the f ( i ) in equation 9. Setting ∂L0∂t i = 0 to �nd the minimum yields0t + F T ∙ λ = 0 (12) Since F ∙ t = 1 J (equation 9 and ∂L0∂λ = 0 ), it follows that01 J + FF T ∙ λ = 0 , (13) implying λ = − � FF T � − 1 ∙ 1 J(14) Substituting back into equation 12, we derive thesolution for t:0t = F T ∙ � FF T � − 1 ∙ 1 J (15)0Since t, the scaled form of f b given by equation 7, isthe quantity needed for the bootstrapped version ofequation 1, there is no need to convert t back to f b .

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

视频数据概念表征的协作学习

tamdfr:一种用于心血管疾病风险预测的基于时间感知和多类型数据融合表征的学习框

表面缺陷检测中的表征学习

如何用表征学习优化深度学习

视觉表示学习与视觉表征学习

帮我介绍下特征表征的概念

pytorch表征学习

卷积神经网络表征学习

是transformer的出现使得多模态的表征学习成为可能吗？

解释一下多模态特征X首先被嵌入到模态指定表征空间并且模态共享表征空间会通过模态感知表征学习。然后一个基于X的邻接矩阵A会在自适应图学习中被学习到。最终，我们通过基于A和H的GNN获得预测结果。

请简述深度学习与数据特征提取

基于表征学习的ReID方法

图神经网络是专门为学习图结构数据的表征而设计的神经网络架构。

模态指定表征空间可以通过什么实现

在什么情况下，信号IQ数据并不能有效表征个体特征

embedding和表征有什么区别

人工智能对多源异构表征

IQ数据为什么可以表征辐射源指纹特征

详细分析基于融合表征学习与k-means的缺失多视图聚类算法的劣势

复杂装备运行状态表征方法

（3）clip就是一个利用transformer强大的多模态的表征学习能力，由于其可以zero-shot

最新资源