没有合适的资源?快使用搜索试试~ 我知道了~
视频数据概念表示的协作学习Francisco Torres、Hoda Eldardiri、Gaurang Gavai和Chad Ramos帕洛阿尔托研究中心,3333 Coyote Hill Road,Palo Alto,CA USA,torres@parc.com摘要我们提出了一种方法,用于非结构化数据集中体现的概念的表示的协作学习。我们的方法学习机器和专家可解释的表示,其中在本文中,我们专注于挖掘视频数据,但该方法也适用于其他类型的数据。给定大型视频数据集和捕获期望概念的一些概念的专家提供的示例剪辑,我们提出的技术与专家协作以辨别概念,即使在专家的头脑中最初不清楚时由于专家可能正在探索不同的可能性,因此标记大量数据然后训练分类器来识别概念并不是正确的方法,因为它缺乏所需的敏捷性。对于随着概念演变而发生的学习,我们使用我们总结了开发的开源软件来执行协作视频查询,并讨论了我们提出的未来工作的路线图。1介绍许多新兴人工智能技术影响的关键是学习的协作性质。许多系统利用各种互补的参与者,这些参与者合作得越好,学习就越有效率。这些协作参与者包括机器学习程序、人类和物理子系统,每个人都扮演着不同的角色。机器学习方法学习模型,推断处理数据流,挖掘有趣的模式,有时还生成结果的解释。物理子系统感知环境并捕捉不断变化的上下文。人类参与者通过创建教学演示、提供输出反馈以及在必要时战略性地重组机器学习和物理子系统来理想情况下,人类版权归作者所有。以.马丁,K. Hinkelmann,A. Gerber,D.Lenat,F.van Harmelen,P.Clark(Eds.),AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学,帕洛阿尔托,加利福尼亚州,美国,2019年3月25日至27日。用户可以将许多更平凡的工作委托给机器学习和物理子系统,从而允许人类专家专注于高级上下文和目标。1.1学习挑战这项工作的重点是两个球员在一个协作学习的方法:(1)机器学习程序,和(2)一个人类与专业知识的概念正在调查。我们的学习方法能够实现敏捷和探索性的协作,同时解决下面列出的挑战。可以通过协作学习放松的典型机器学习约束包括:预先问题说明。大多数学习方法要求专家预先具体说明他们试图解决的这限制了进行探索性学习的能力。不是机器学习实践者的用户将受益于这样的方法,其中用户呈现一些感兴趣的概念的一到几个实例,然后参与直观的协作。标签数据要求。监督机器学习通常依赖于大量的标记数据进行训练。这是昂贵的,并对专家造成负担。无法解释的模特行为。当一个推理模型生成一个没有解释的输出时,专家可能不理解为什么会生成这个输出期望专家通过观察足够大的示例集的模型行为来填补这一理解空白,在许多现代AI系统的规模和复杂性下是不切实际的在缺乏这种理解的情况下,在狭窄的环境之外使用整个系统是有风险的,但为了实现战略目标或对不断变化的环境做出反应,可能需要更广泛的使用。1.2专家指导的概念协作学习考虑一个领域专家研究一个在大型视频数据集中出现的特定概念。这位专家希望有一种技术,可以定位捕捉概念的视频剪辑,因为手动审查所有的视频是不切实际的。我们的方法是建立一种技术,使用···来设计“解释”步骤。在我们的方法中,专家首先提供一个示例视频剪辑。这个片段将显示所需场景的一些概念,但它也会有目标概念范围内多余的活动和对象。此外,随着算法构建用于识别预期概念的表示并从专家获得反馈,专家可以发展她learn-evolve-explain循环的工作原理如下:学习:学习剪辑所描绘的概念的特征表示。1) 使用在动作识别上预训练的深度神经网络集合来提取示例剪辑的深度特征表示。EVOLVE:协同发展和澄清概念。2) 使用集成评分搜索相似的剪辑。3) 将建议的匹配剪辑呈现给专家。还呈现“未遂”,以便专家看到算法认为超出目标概念范围的动作。4) 获得专家对搜索结果的反馈,然后学习兴趣概念的更好的通过给出反馈,专家还隐含地澄清了算法和她自己的模糊性和不确定性5) 返回步骤1进行另一个学习周期,直到专家满意为止。解释:生成人类可解释的表示。6) 在足够的学习+进化步骤迭代之后,生成算法生成一个“评估”视频剪辑,该视频剪辑7) 专家要么接受这个解释性片段,要么陷入进一步的学习-进化-解释循环。学习算法和专家共同识别感兴趣的目标概念,从一个例子剪辑开始,不需要预先确定具体的问题规范在步骤2至5中,使用专家指导的持续协作方法来学习兴趣概念。作为步骤5的一部分,目标自举算法采用其由专家验证的所有匹配剪辑的内部表示,并形成一致表示,所有这些都是根据机器特征表示。最后,步骤6和7旨在创建人类可理解的表示,解释目标概念的内部模型表示。1.3科技元素这项工作的技术要素可归纳如下:• 视频剪辑表示方法(第3节)• 搜索算法(第4节)在专家用户反馈的情况下改进搜索的方法(第5节)一种在专家用户协作反馈下改进目标概念的机器表示的方法(第6节)一种生成只捕捉概念的剪辑的方法,同时不强调其他细节(我们建议的路线图的未来工作,第9节)2相关工作我们的方法使用迁移学习,因为它使用来自预训练的深度神经网络的嵌入,而不是原始训练目标。在训练目标之外的背景下使用来自预训练的深度神经网络的嵌入2016年)。此外,主动深度学习在某些方面与我们在本文中描述的专家指导的协作学习相似;两者都旨在充分利用专家的时间。例如,Gal等人(Gal,Islam和Ghahra-mani2017)利用贝叶斯神经网络等专业模型来构建高效的深度主动学习范式。有趣的策略,如深度对抗主动学习(Ducoffe和Precioso 2018),也减少了所需的专家输入量。虽然主动学习方法专注于有效地使用专家输入,但它们通常假设已经识别出兴趣的概念我们的方法可以作为一个积极的学习工具时,类是事先很好地理解,但我们的主要重点是在合作学习的概念,这是没有指定的前面,从一个例子少专家开始我们确实看到了将现代主动学习算法(Gal,Islam和Ghahramani2017)和(Ducoffe和Precioso 2018)与本文讨论的协作学习相结合的潜在价值。3视频剪辑表示为了准备数据以供使用,我们将视频数据集划分为片段,并使用深度学习神经网络的集合计算每个片段的签名。目前,我们定义一个剪辑为10秒长,尽管探索这个参数和重叠的剪辑是在我们的路线图。下面我们讨论我们的集成模型方法的特征表示。我们的整体设计捕捉了每个视频剪辑中内容的两个属性:外观和运动。我们使用一个公开的视频数据集来预训练我们的集合,该数据集包含一组广泛的人类动作。3.1定义• 视频剪辑:一小段视频,例如,一个10秒的剪辑。视频剪辑签名:一组对剪辑特征进行编码的深嵌入特征特征向量:使用神经网络计算的视频剪辑的嵌入特征的向量;通常是剪辑和神经网络的函数。Stream:一种深度神经网络模型,使用以多种方式处理的视频数据,作为多流架构中的流集合的一部分。··········f¨¨3.2学习深度神经网络的集成模型我们一直在研究的集成包括三个RGB和三个扭曲的光流深度网络,这些网络采用了Wang等人(2016)的时间段网络(TSN)工作。对于每种模式,三个网络都是在UCF-101数据的三个已发布的分割上进行训练的(Soomro,Za-mir和Shah 2012)。这里报告的结果对应于六个深度网络中的六个1024元素全局池嵌入式特征向量,这些特征向量是将输出分类为101个UCF类的最终层计算完成后,我们将视频剪辑签名作为结构化数据存储在数据库中,从而实现用于比较签名的结构化查询TSN方法采用短视频,将其划分为指定数量的片段,使用空间(RGB)卷积神经网络和时间(光流)神经网络分析每个片段,然后应用consensus函数以最终确定动作。光流显示像素的速度,并且扭曲的光流试图抑制背景运动,例如相机而不是演员移动的效果。而Wang et al.(2016)报道,光流神经网络在他们的工作中表现得几乎与变形光流神经网络一样好,并且需要更少的计算时间来准备,我们一直在使用变形光流神经网络以增加对相机运动的与UCF-101数据集不同,我们的用例集中在安装在移动车辆上的摄像机上,我们的初步测试表明,扭曲的光流比单独的光流性能更好我们选择TSN建模是因为TSN工作中使用的UCF-101数据集的平均剪辑长度为7.2秒,与我们感兴趣的剪辑长度相当。行动概念,如TSN停车标志和停车灯之间的差异是图像差异,而不是动作差异。在迄今为止的用户研究中,我们发现用户经常希望在搜索中包含此类另一个不同的神经网络可能有用的例子是研究面部表情和头部运动的情况。根据面部表情而不是UCF-101数据集中的动作训练的神经网络可能会做得更好,例如,拍摄人们开车时的脸部视频3.4深度网络嵌入的选择取决于兴趣的概念,来自深度网络中最终隐藏层以外的不同层的嵌入可以更有用地集成到整体模型中。例如,如果正在寻找更基本的运动,如向左与向右转向,则较低的层可以更好地区分这些动作。相比之下,我们目前的UCF-101训练的TSN网络在到达更高层时可能不具有左与右运动的区分,因为这些网络被训练为预测不考虑左与右运动的正确动作。在未来的工作中,我们计划研究包括更多的层,并让人类算法合作辨别在集成中对较低层和较高层的权重。4搜索相似剪辑如上所述,搜索算法使用深度神经网络嵌入的集合。通过计算示例剪辑和可能匹配的嵌入特征向量的点积来量化剪辑的相似性。然后将各个点积组合成整体分数。4.1单次嵌入相似性度量的选择为了计算参考剪辑的嵌入特征与第二个剪辑i的相同嵌入特征的相似性,我们使用强调分析短动作的视频片段,而不是创建一个不断发展的长期记忆(i)TrefDNN DNN2(一)活动我们的方法论旨在用于以下任务参考文献识别一辆测试车辆在行人穿过它前面时停下来,我们不希望它能很好地推断出视频中的一系列动作是否对应于某人在接孩子之前做了一些购物。后者涉及一系列动作和抽象的意图感,这是一种不同类型的视频机器学习任务。这里提出的方法可能是一个更大的机器学习技术的一个组成部分,它可以支持后一种活动,但它不能单独实现这一目标3.3流类型任何合适的深度网络都可以使用,不同类型的问题将使用不同的深度网络模型做得更好。例如,如果与图像有关的概念比与视频动作有关的概念更重要,则添加Image Net流可能会有所帮助,例如,如果有人有兴趣找到在停车标志处过马路与在停车灯处过马路的的DNN2其中f是特征向量,T表示转置,并且DNN表示深度神经网络类型(例如,RGB或扭曲光流)。相似性对应于结果与1的接近程度。在到目前为止的实验中,我们发现这种相似性度量在集成模型中工作得很好,而单独使用单个神经网络的结果似乎具有显著更高的方差。注意,等式1不同于余弦相似性。(The分母是参考坐标系的嵌入特征的L2范数的平方,而不是两个特征的范数的乘积我们使用这种参考嵌入的方向,而不是正交超维方向的不同。注意,两个嵌入的特征向量可以在它们的超维空间中相距很远(例如,根据欧几里德或其它距离度量),并且仍然具有良好的相似性得分。FDNN,jDNN,jDNN,jDNN,jB¨=fFDNN,jDNNDNN,jDNN,j¨F¨有θ我=1。任何此类fB对应于一个超-¨图1:驾驶场景的实验评估:车辆在交叉口与行人交叉.来自布鲁克林市中心的视频https://www.youtube.com/watch? reload=9&v=cjs3RxuKo6c在时间3:53。4.2相似之处5细化搜索为了决定向用户呈现哪些剪辑以供查看,计算相似度θi以获得wDNN的值的最新最佳猜测(在这里呈现的示例中为wRGB和w扭曲光流选择具有比阈值的当前估计更好的相似性的少量剪辑,以及具有接近但低于阈值的相似性的少量剪辑。然后用户给出反馈,算法计算新的wDNN估计值和θi阈值。在我们的实验中,我们倾向于看到更好的结果时,匹配和“差点错过”都提交审查。 这可能类似于人们通过同意概念的正面和负面例子来建立共同理解。6精炼机表示:目标自举在本节中,我们将讨论如何在专家反馈的情况下改进目标概念目标是由于视频剪辑的签名是特征集,替换fref使用新的自举集fb的使用在多个数据分割上训练的多种类型的深度神经网络(DNN)计算,我们需要指定如何与所有用户验证的匹配最一致,捕获所有匹配的相似之处,忽略不同之处。回到等式3,在数学术语中,我们正在整合所有的相似性度量。我想找到fb,使得对于所有用户验证的对数据分割的包围对于每种类型的DNN和匹配的剪辑。任何一组fb为此对于每个候选剪辑i,我们计算相似度·(一)TDNN,j·fDNN,jBDNN,j2(四)3(i)T1ref对于用户确认的匹配集合中的所有剪辑i,所有分割j(i)DNN,jfDNN,j(二)并且所有DNN类型对应于自举引用N,jDNN,j垂直于它的平面,包含其中f(i)是给定DNN的分割j的特征(一)DNN,j对于所有用户验证的匹配,i.F22DNN3j=1ref对fDNN,jDNN,j和fWDNNWΣΣ类型,为剪辑i和fref计算是相应的存在无限数量的这样的超平面,因为DNN,j参考剪辑的特征当剪辑i也是参考时,f的维数DNN,j高得 多(1024)参照系,n(i)=1,更一般地,无论何时一个用户的匹配数比一个用户的匹配数更有价值。过时了作为引导的起点,我们计算f(i)的投影refDNN,j等于L2最大(在L2范数意义下)自举fb的fref范数,被加数等于1,即使f(i)满足等式4,因为它在术语上限制最少减少任何一个超维度对refDNN,j是不平等的。这是我们所期望的行为,相似性度量θi。这样,我们就不会强迫更多的人--在第3.1节中讨论。在DNN流上的包围下一步是阻止-挖掘整体相似度得分。为了做到这一点,我们使用了一个欧盟-其中每个DNN对应于一个维度。沿其测量的尺寸(i)。在这个空间里,对用户意图的限制,而不是推断用户意图所
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功