基于多类浏览器查询的视频检索和识别的人工智能模型

154 浏览量更新于2023-12-06 收藏 3.36MB PDF 举报

视频检索

版权信息

身份认证购VIP最低享 7 折!

30元优惠券

农业中的人工智能5（2021）262基于多类浏览器查询的浏览器视频检索V.K. Jyothia，V.N.Manjunath Aradhyab，Y.H.Sharath Kumarc，D.S.大师Aa印度卡纳塔克邦迈索尔570 006迈索尔大学Manasagangothri计算机科学研究系b印度卡纳塔克邦迈索尔JSS科技大学计算机应用系c印度迈索尔Maharaja理工学院信息科学与工程系（MITM），Manday 571438，卡纳塔克邦a r t i c l e i nf o文章历史记录：收到2020年8月25日2021年11月6日收到修订版2021年11月6日接受2021年11月14日网上发售保留字：花卉感兴趣区域（FRoI）线性判别分析（LDA）低分辨率视频检索多类支持向量机内容a b s t r a c t从大量的视频数据中搜索、识别和检索感兴趣的视频是一个即时的要求。这一要求已被公认为是计算机视觉、机器学习和模式识别的一个活跃研究领域。花卉视频的识别与检索在园艺、园艺等领域具有重要意义在本文中，我们提出了一个模型的检索视频的浏览器。最初，视频用关键帧表示，并且关键帧中的字幕从其背景中分割然后，该模型进行了分析，从关键帧的下一个区域提取的一个线性判别分析（LDA）适用于区分特征的提取多类支持向量机（MSVM）分类器用于识别查询视频的类别实验已经在我们自己的相对较大的数据集上进行，该数据集由从三种不同设备捕获的30种不同种类的蜻蜓的7788个视频组成。通常，通过使用由单个物种的查询器组成的查询视频来解决查询器视频的检索。在这项工作中，我们试图开发一个系统，包括检索相似的视频查询视频组成的不同物种的蜘蛛。版权所有© 2021作者。出版社：Elsevier B.V.我代表科爱通信公司，公司这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1.导言. 2632.相关作品2632.1.工作2632.2.对拟议工作的3.工作计划2643.1.预处理2643.1.1.高斯混合模型（GMM）2643.1.2.提取较低的感兴趣区域（FRoI）2653.2.特征提取3.2.1.纹理特征2653.2.2.尺度不变特征变换（SIFT）2653.2.3.整个关键帧2673.2.4.所有感兴趣的下层区域2673.2.5.最大关注区域2673.2.6.线性判别分析（LDA）2713.3.检索：要求类2734.实验与结果2734.1.数据集2734.2.所有FROI的2744.3.最大FRoI 274*通讯作者。电子邮件地址和电话号码：我是你的朋友。mc a@ gmail. com（V. K. 我的意思是，我的意思是，梭in（V. N. M. Arad hy a），d sg @c ompsci。我是你的朋友。梭在（D. S. Guru）。https://doi.org/10.1016/j.aiia.2021.11.0012589-7217/© 2021作者。出版社：Elsevier B.V.我代表科爱通信公司，公司这是一篇CC BY-NC-ND许可证下的开放获取文章（http：creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表农业中的人工智能杂志主页：http://www.keaipublishing.com/en/journals/农业人工智能/V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工2634.4.最大FRoI，LDA 2754.5.拟议工作与先前工作的比较研究4.6.结果分析和讨论2754.7.在视频中使用多个类查询器进行查询5.建议的工作和深度学习模型之间的比较研究2766.未来的工作2767.结论277参考文献2771. 介绍由于最近的视频捕获设备（诸如相机、移动设备、存储介质）的容易获得性，用户可以容易地捕获和存储大量视频。视频比图像包含更多的信息一个视频比成千上万的图像更能捕捉现实近年来，视频数据库变得越来越大，因此需要一种自动分析和检索系统，其本质上需要最少的人工干预视频已成为通信环境的重要组成部分。由于网络技术，用户可以搜索和共享所需的视频，这使得开发一个自动化的系统来搜索和检索视频。这是一项有趣而活跃的研究（Shen et al.， 2016年）。视频被分类到不同的领域，例如体育、新闻、监视、商业广告、医疗等，领域特定视频再次被分类为不同的子类别/类（Geetha等人， 2009年）。具有最新技术进步的数据采集工具允许研究人员/科学家以图像和视频的形式从不同的应用领域采集数据，这些数据在本质上是大而复杂的（Mufti等人， 2021年）。有机生命的一个重要方面是其杰出的多样性。世界上存在非常大量的蝗虫物种，估计蝗虫物种的范围在2，20，000和4，20，000之间（Chaitra等人， 2021年）。要识别植物的分类信息，需要有专门的知识.植物鉴定技能和分类学知识仅限于有限数量的植物鉴定（J yothetal.， 2018 ，W äl dchen eta l.， 2018年）。为了解决分类学家对植物低等种的识别需求，在人工智能和视频/图像处理领域，人们对低等种的识别和检索进行了大量的研究工作。开发分布式视频检索系统是一个应用广泛的领域它是一种在商品性行业的蔬菜栽培领域的应用。花卉栽培是农业中重要的商业贸易之一（Guru等人， 2010年）。对农民的需求与日俱增. 花卉栽培涉及苗圃、花卉贸易、花卉种子生产（Guru等人， 2011年）。此外，发现它在园艺中有用，对了解装饰、化妆品和药用等的植物名称感兴趣（Das等人，1999a，1999 b）。由于商业技术的发展，交易员可以存储大量的视频。用户可以在购买整个苗圃及其种子之前对其进行分析，而不是访问苗圃寻找他们想要的此外，他们还可以查看不同种类的猫头鹰以及每个物种的不同变种。此外，它还可用于医药、化妆品、从植物中提取油的工业用途和脱色等，（Das等人，1999a，1999 b）。在这种情况下，开发一个自动化系统来搜索和检索用户感兴趣的视频是必不可少的因此，建议的研究动机，设计一个自动化的系统，检索用户所需的视频播放器。设计检索系统涉及的水下视频的挑战是照明：光变化因不同角度和不同的海洋时间而不同;视点变化：具有水下者的不同视点的视频改变水下者的大小、形状、姿势和旋转的外观;杂乱的背景、类内和类间的变化、视频中水下者的多个实例等。设计一个视频检索系统中，两个主要的突出的方法来提高检索性能。首先是找到更合适的特征来描述视频，其次是选择最具鉴别力的特征的合适的降维2. 相关作品通常，视频检索系统基于实例查询来检索相似视频示例可以是图像、关键字、草图、对象、视频、视频帧等，（Hu等人，2011年）。在文献中，我们发现了基于对象的视频检索（Morand等人，2010），框架（Shekar等人，2016）、视频（Geetha等人，2009; Gao等人，2009; Han 等人， 2014; Liang 等人， 2012 ），关键词（ Priya 和Domnic，2014）。对于视频的检索，特征和算法，诸如光学马尔可夫张量和隐马尔可夫模型（HiddenMarkovModels，HMF）（Gao等人，2009）、多模态谱聚类和排序算法（Han等人， 2014）、逐块强度比较（Geetha等人，2009）、尺度不变特征变换（SIFT）（Zhu等人， 2016）、Bag-of- Features（Cui等人， 2016）、具有颜色和边缘描述符的动态加权相似性度量（Liang等人， 2012年）使用。当使用一组特征来表示视频时，则特征的维度可能很高。如果特征向量的维数较高，则视频检索系统消耗更多的计算时间。它可以减少与特征降维技术。降维技术如主成分分析（PCA）（Geetha等人，2009）、Fisher判别比（Shen等人， 2016）、Lin-ear判别分析（Gao等人， 2009）、半监督线性判别分析（Wang等人， 2016）、监督线性降维（Cui等人，2016）、非参数判别分析（Khanet al.， 2012）被用来减少其他视频检索系统中的特征维度。2.1. 以前的工作在所提出的工作中，为了设计一个具有先前工作（Guru等人，2018a，2018 b），如GLCM（Haralick等人， 1973）、LBP（Ojala等人， 2002）和SIFT Lowe（2004）。不是从整个关键帧提取特征，而是以两种不同的模式从视频的每个关键帧提取特征首先，从所有花感兴趣区域（FRoI），其次，从最大花感兴趣区域（Max.FRoI）。提出了一种基于最大熵的特征降维方法。FRoI，更大程度地提高系统性能在以前的工作中（Guru等人，2018a，2018 b）查询视频由单个类别的查询器组成。在目前的工作中，随着单类的查询视频，查询视频也包括多类的查询。本工作中考虑的数据集相对较大。与以前的工作进行了比较研究，以显示所提出的工作的有效性2.2. 拟议工作的贡献现将这些捐款概述如下。V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工264a) 创建一个相当大的数据集，其中包括应公开供研究使用的视频。b) 提出了特征融合策略，提高了现有模型的性能c) 视频检索算法模型的建议使用所有下层感兴趣区域的下层d) 一种具有最大感兴趣区域的视频检索模型的建议e) 采用降维的方法来提高ef-系统的灵活性f) 解决了即使当查询视频包含多于一个类别的视频时，也能g) 将该模型与早期提出的模型和深度学习模型进行了比较。3. 拟议工作该模型包括三个阶段，即预处理，提取的特征和检索。所提出的基于花卉感兴趣区域（FRoI）的自主视频检索系统的框图如图所示。1.一、（见表1）3.1. 预处理预处理阶段包括关键帧的选择、图像分割和低层感兴趣区域的提取等过程。所提出的系统首先将视频转换为帧。假设较低视频数据集“X¼ fx v1，x v2，x v3，. . ，x vi，.. . ，x vng1令低分辨率视频xvi由'F-N'个帧的有限集合组成，并且它被定义为然后，使用基于GMM聚类的算法模型（Guru等人，2018年a、2018年b）。在这里，从视频的每一帧中提取分块熵特征，并使用高斯混合模型将相似的帧分组在一起，并选择靠近每个聚类质心的帧作为视频的关键帧。GMM的解释见第3.1.1节。当关键帧的集合是从xvi中选择的时，则视频xvi被表示为关键帧的数量，并且被定义为，Ky¼.k1，k2，k3，. . . ，ki，. . . ，ky3使用统计区域合并算法（Nock和Nielsen，2004）将关键帧中的噪声从其背景中分割出来。分割后的关键帧可以定义为S Ky¼. sk1，sk2，s k3，. . . ，s ki，.. . ，sky43.1.1. 高斯混合模型高斯混合模型（GMM）是一种统计的无监督学习模型。GMM（Stauffer和Grimson，1999）保留了场景的内容，GMM背后的思想是描述像素，其中一些表示背景，而另一些表示场景中的前景有限数量的高斯分布的混合物用于生成数据点。它保留了子采样属性;它导致聚类数据点。使用最大期望算法从数据中估计GMM参数GMM是几个高斯密度的加权和因此，在本工作中创建集群GMM用于选择关键帧。通过用“n”个特征拟合数据（x）上的高斯分布来创建聚类，高斯函数被定义为（Chen et al.， 2015年）。f x1e−x−μ25x vi¼ fF 1，F 2，F 3，.. . ，F i，.. . ，F NgðÞ¼σp2ﬃﬃﬃπﬃﬃﬃ2σ2ð Þ图1.一、所提出的基于类的视频检索系统的框图。V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工265表1所提及的技术和在相关工作中的应用的总结SL.号算法应用参考1视频的光学马尔可夫和隐马尔可夫模型检索Gao等人， 20092视频的多模态谱聚类和排序算法检索Han等人， 20143主成分分析特征降维Geetha等人， 20094.Fisher判别比，线性判别分析，半监督线性判别分析，监督线性降维，非参数判别分析特征降维Shen等人， 2016Gao等人，2009Wang等人，2016Cui等人，2016Khan等人，2012其中μ是平均值，σ是数据（特征）“x”的标准差。4.1.1. 下感兴趣区域（FRoI）的提取在关键帧的分割过程之后，使用连通分量分析来选择所有较低区域，并且所选择的较低区域被命名为感兴趣的花区域（FRoI）（参见图11）。①的人。然后，从每个关键帧的FRoI的，如灰度共生矩阵，LBP和SIFT特征提取进一步处理。3.2. 特征提取视频视觉特征，如颜色、纹理、局部不变特征等，在视频的检索中起重要作用（Hong等人， 2014; Li等人，2015年）。一些不同种类的兰花颜色相似例如，我们可以找到红色的玫瑰，芙蓉，三角梅属于三个不同的物种。因此，颜色特征不能区分一个物种与另一个物种。数据集中存在较大的类内变异性和类间相似性由于这一点，在选择特征以在视频中描述宿主时有两个主要动机首先，单个种类的植物的纹理是相似的，因此纹理特征被用来描述视频中的植物其次，视频中的噪声包括视点和光照的变化，在这种情况下，考虑从尺度不变特征变换Lowe（2004）中3.2.1. 纹理特征图像/帧的纹理包含独特的视觉图案。纹理特征描述了物体表面，这些特征与物体颜色无关Hu et al.（2011）。播放器的视频包括大的类内变化，例如播放器颜色的变化。因此，要描述低层区域，纹理特征起着至关重要的作用。在这项工作中，纹理特征，即灰度共生矩阵和局部二进制模式。3.2.1.1. 灰度共生矩阵。 GLCM是用统计信息描述电力系统的结构。在当前的工作中，系统提取统计值的14个不同灰度共生（Haralick等人，1973年）从每个FRoI中提取。这些特征被表示为特征向量。3.2.1.2. 局部二进制模式（LBP）。LBP描述的纹理描述的下一个区域的局部特征。一种识别图像纹理的局部二进制模式及其出现历史图的方法证明了LBP是一种强大的纹理特征（Ojala等人， 2002年）。它在灰度的变化和变换方面是鲁棒的在所提出的工作中，系统提取LBP特征（Ojala等人， 2002），其对FRoI中的局部灰度变化不变。LBP纹理特征提取采用3 × 3邻域中心像素值，对8个邻域的像素值进行阈值化。在3× 3邻域内，中心像素LBP值由阈值化的二值值按2的幂加权求和得到。3.2.2. 尺度不变特征变换SIFT在用于分析视频内容的视频检索中起着至关重要的作用（Zhu等人， 2016年）。在SIFT中，图像特征集在 4个阶段中生成Lowe（2004）。在第一阶段，该模型搜索所有尺度和图像位置，以识别对方向和尺度不变的兴趣点在第二阶段，在每个位置，模型被确定的比例和位置，这被称为关键点定位。在第三阶段中，基于局部图像梯度方向，将方向分配给每个关键点位置。最后，在每个关键点周围区域的选定尺度上，它生成描述符，其内核为8个bin的4 × 4直方图这些直方图计算16× 16像素区域中梯度的方向和幅度组织图结果以描述符的形式表示在目前的工作中，这些特征描述符用于描述FRoI的Lowe（2004）。为了设计所提出的模型，诸如灰度共生矩阵（GLCM）（Haralick等人，1973）、局部二进制模式（LBP）（Ojala等人， 2002）和Lowe（2004）提出的尺度不变特征变换（SIFT）。最初，我们提出通过考虑分割后的整个关键帧来完成提取这些特征（Guru等人，2018年a、2018年b）。随后，我们采用的特征提取的视频的每个关键帧的所有较低的区域。最后，通过在关键帧的所有较低区域中选择最大花区域来实现这些特征的提取，以便检索。图二、从所有下层感兴趣区域提取特征。V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工266图3. 最大感兴趣花区域的提取（最大FRoI）。图四、来自30类视频的具有较大类内变化的视频样本。V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工26711我vi我JJyviJJGLCM+LBP+ SIFT来提高系统的性能。令Rr是等式（1）中的关键帧ski的所选择的较低区域的数量。（4）、然后，将具有较低区域的数量的ski定义为。sk i 1/2，R 1 SK i，R 2 SK i，R 3 SK i，. . ，R r SK ig8然后，将所有区域的特征向量表示为R 1 SK i1/4/2f11，f12，f13，... . ，f1M]，R2 SKi四分之一f21，f22，f23，.. . ，f2M]，. ，R 1 SK i1/2fr1，fr2，fr3，. . ，frM]最后，关键帧的所有区域的特征向量ski，如等式1所（8）表示为，F1M1d<$f11;f12;f13;然后，关键帧ski的所有区域被定义为，F1MdRiSKi∈ski9其中F1Md是视频xvi的EQ。（一）由等式中的关键帧ski的所有区域组成（八）、然后，视频xvi的所有关键帧的所有FRoI的特征向量可以被定义为。FM dx Þ ¼∀F Md∈SKð10Þ其中FMd（xvi）是等式（1）的视频xvi的特征矩阵。由视频的所有“y”个关键帧的所有特征矩阵组成，如等式（1）（4）、视频的特征维度xvi，即，FMd（xvi）由从视频xvi的每个关键帧的所有区域提取的特征组成。类似地，针对数据库“X”的所有视频获得的特征向量DD D D D图五、查询获取多类主机视频的类标识。3.2.3. 整个关键帧在该方法中（Guru等人，2018 a，2018 b），该模型提取特征，如灰度共生矩阵（GLCM）（Haralick等人，1973）、局部二进制模式（LBP）（Ojala等人， 2002）和尺度不变特征变换（SIFT）Lowe（2004）从分割后的整个关键帧中提取特征，并生成特征向量。然后，在所提出的模型中，采用了 GL CM+ LBP 、 GLCM+SIFT 、 LBP+SI FT 、GLCM+LBP+SIFT等方法来提高系统的性能。视频xvi被表示为一组特征并且被定义为，x vi¼ff1，f2，f3，.. . ，fi，.. . ，fNg然后，xvi=FiMi，其中FiMi={fi，f2，f3，（1）定义为，F1M1xv1;F2M2xv2;F3M3xv3;ð7Þ其中，F1 M1（xv1）、F2 M2（xv2）、F3 M3（xv3）、（一）.3.2.4. 所有下层感兴趣所提出的系统提取诸如 GLCM （ Haralick 等人， 1973 ）、 LBP（Ojala等人，2002）和SIFT Lowe（2004）从关键帧的所有较低区域中提取，并且如图2所示。在该模型这些特征被融合成类似于GLCM+LBP、GLCM+SIFT、LBP+SIFT，R¼FMxv1;FMxv2;FMxv3;3.2.5. 最大最小感兴趣区域在该方法中，诸如GLCM（Haralick等人， 1973）、LBP（Ojala等人， 2002）和SIFT Lowe（2004）是从Maximum Flower Regionof Interest（Max. FRoI），然后采用GLCM+LBP、GLCM+SIFT 、LBP+SIFT、GLCM+LBP+SI FT等特征进行融合，以提高系统的性能。图3示出了所选择的下部区域。最大FRoI通过选择最大功率区域来获得，即，下区域具有高像素密度，并且是每个关键帧中的所有区域中的最大面积当关键帧中只有一个较低的区域时，将被视为最大值。 FRoI如图所示 3.与所有FRoI相比，它降低了所提出的检索系统的特征维数通过麦克斯FRoI模型，可以提高效率在选择“最大”（Max）后，将提取特征。来自Eq.（4）、因此，在Eq.（8）在这种情况下可以定义为，MFi MdMaxRi SKi∈ski 12其中，MFi Md是等式1的视频xvi的特征矩阵（1）由等式（1）中的关键帧sk i的Max（R i SK i）最大下行区域组成。（八）、最后，对Max.视频的所有关键帧的FRoIxvi可以定义为F Mdx。MFMd<$∈SKy<$13<$SL.号号的视频中的课程多类花视频花感兴趣区域正确识别？12是的是的22是的没有32是的是的42是的没有52是的是的62是的是的72是的是的83是的是的没有V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工268图第六章从SGGP数据集的所有FRoI中提取的特征：（a）30%训练-70%测试，（b）50%训练-50%测试，（c）70%训练-30%测试。图第七章从Sonycyber Shot数据集的所有FRoI中提取的特征：（a）30%训练-70%测试，（b）50%训练-50%测试，（c）70%训练-30%测试。V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工269图八、从Canon数据集的所有FRoI中提取的特征：（a）30%训练-70%测试，（b）50%训练-50%测试，（c）70%训练-30%测试。图第九章从SGGP数据集的Max FRoI中提取的特征：（a）30%训练-70%测试，（b）50%训练-50%测试，（c）70%训练-30%测试。V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工270图10. 从Sonycyber Shot数据集的Max FRoI中提取的特征：（a）30%训练-70%测试，（b）50%训练-50%测试，（c）70%训练-30%测试。图十一岁从Canon数据集的Max FRoI中提取的特征：（a）30%训练-70%测试，（b）50%训练-50%测试，（c）70%训练-30%测试。V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工271JJ表2（一）. SGGP数据集：训练30%-测试70%。（b）. SGGP数据集：训练50%-测试50%。（c）.SGGP数据集：训练70%-测试30%。表4（一）. Canon Shot Dataset：训练30%-测试70%。（b）. Canon Shot Dataset：训练50%-测试50%。（c）. Canon Shot Dataset：训练70%-测试30%。（一）（一）特征精度精度召回F-measure特征精度精度召回F-measureGLCM（Haralick等人，（1973年）0.20.180.150.17GLCM（Haralick等人，（1973年）0.540.530.510.5LBP（Ojala等人，（2002年）0.130.110.070.09LBP（Ojala等人，（2002年）0.630.680.640.6402 TheDog（2004）0.990.9910.9902 TheDog（2004）0.990.990.990.99GLCM+LBP0.160.150.10.12GLCM+LBP0.810.830.780.8GLCM+SIFT0.990.990.990.99GLCM+SIFT0.990.990.990.99LBP+ SIFT1111LBP+ SIFT1111GLCM+LBP + SIFT0.990.990.990.99GLCM+LBP + SIFT1111（b）第（1）款（b）第（1）款特征精度精度召回F-measure特征精度精度召回F-measureGLCM（Haralick等人，（1973年）0.220.210.180.19GLCM（Haralick等人，（1973年）0.560.550.520.53LBP（Ojala等人，（2002年）0.130.120.080.09LBP（Ojala等人，（2002年）0.660.70.670.6702 TheDog（2004）0.990.990.990.9902 TheDog（2004）0.990.990.990.99GLCM+LBP0.190.180.120.14GLCM+LBP0.820.860.80.82GLCM+SIFT0.990.990.990.99GLCM+SIFT0.9910.990.99LBP+ SIFT1111LBP+ SIFT1111GLCM+LBP + SIFT0.980.980.980.98GLCM+LBP + SIFT1111（c）第（1）款（c）第（1）款特征精度精度召回F-measure特征精度精度召回F-measureGLCM（Haralick等人，（1973年）0.330.310.30.29GLCM（Haralick等人，（1973年）0.630.640.610.6LBP（Ojala等人，（2002年）0.150.160.10.11LBP（Ojala等人，（2002年）0.690.730.710.702 TheDog（2004）0.990.9910.9902 TheDog（2004）0.990.990.990.99GLCM+LBP0.20.20.10.16GLCM+LBP0.850.870.860.86GLCM+SIFT0.990.9910.99GLCM+SIFT0.9910.990.99LBP+ SIFT1111LBP+ SIFT1111GLCM+LBP + SIFT0.990.9910.99GLCM+LBP + SIFT1111表3（一）. Sonycyber Shot数据集：训练30%-测试70%。（b）. Sonycyber Shot数据集：训练50%- 测试50%。（c）. Sonycyber Shot数据集：训练70%-测试30%。其中FMd（xvi）是等式（1）的视频xvi的特征矩阵。（1）由视频的所有“y”个关键帧的最大较低区域特征矩阵组成，如等式（1）所示。（4）、视频的特征维度xvi，即，FMd（xvi）在等式（13）由从视频xvi的每个关键帧的最大最低区域提取的特征组成。类似地，数据库“X”的所有视频的特征向量RD¼FMdxv1;FMdxv2;FMdxv3;此外，即使与所有FRoI相比，Max.FRoI降低了所提出的检索系统的特征的维数，为了提高检索系统的效率，来自Max.FRoI的最具鉴别力的特征也可以被用于检索系统的特征。FRoI使用LDA获得，并在第3.2.4节中讨论视频的特征维度Xvi如等式（1）所示（13）表示为从Max.FRoI使用LDA，它可以定义为FMdx我的天MFMd∈SKð15Þ其中，j = 1至视频xvi的“y”个关键帧，如等式（1）所示。（4）、最后，数据库“X”的所有视频的缩减特征向量研发部D R.FMdxv1DR.FMdxv2D R.FMdxv3.D R.FMdxviDR.FMdxvn163.2.6. 线性判别分析LDA是一种有监督的降维方法（Belhumeur等人， 1999年）。1936年，Ronald Fisher提出了判别分析，从原始特征空间中寻找新的特征空间LDA起着至关重要的作用，以最大限度地提高类可分性，并保持内部v1y（一）特征精度精度召回F-measureGLCM（Haralick等人，（1973年）0.210.20.170.18LBP（Ojala等人，（2002年）0.380.410.370.3702 TheDog（2004）0.990.990.990.99GLCM+LBP0.450.440.430.42GLCM+SIFT0.990.990.990.99LBP+ SIFT1111GLCM+LBP + SIFT0.970.990.960.97（b）第（1）款特征精度精度召回F-measureGLCM（Haralick等人，（1973年）0.240.240.20.22LBP（Ojala等人，（2002年）0.370.380.40.3502 TheDog（2004）0.990.9911GLCM+LBP0.490.510.50.47GLCM+SIFT0.990.9911LBP+ SIFT1111GLCM+LBP + SIFT0.990.9910.99（c）第（1）款特征精度精度召回F-measureGLCM（Haralick等人，（1973年）0.280.440.20.3LBP（Ojala等人，（2002年）0.390.370.50.4302 TheDog（2004）0.990.9911GLCM+LBP0.540.540.50.53GLCM+SIFT0.990.9911LBP+ SIFT1111V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工272图12个。从SGGP数据集的整个关键帧提取的特征：（a）30%训练-70%测试，（b）50%训练-50%测试，（c）70%训练-30%测试。图十三. 从Sonycyber Shot数据集的整个关键帧中提取的特征（a）30%Train-70%Test（b）50%Train-50% Test（c）70%Train-30%Test。V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工273图14个。从Canon数据集的整个关键帧中提取的特征：（a）30%训练-70%测试，（b）50%训练-50%测试，（c）70%训练-30%测试。类相似性。它最大化类间的投影数据之间的距离，并最小化类内的可预测数据之间的距离（Gyam fi等人， 2018; Wang等人， 2016），因此在当前的工作中，我们已经应用LDA来减小特征尺寸。特征向量的降低的维度定义如下，DRFMV iff 1，f 2，f 3，. ，fg17岁对于视频检索，该模型利用降维后得到的减少的特征FMVi的简化特征向量由30个特征组成。3.3. 检索：声明类标识的查询最初，对于给定的查询视频“Q V”，系统使用多类支持向量机（MSVM）获取类的身份。然后从预测类中检索相似视频。对于查询视频的检索，使用两组不同的特征来在第3.2.2节和第3.2.3节中进行了解释，实验结果在第4节中示出。支持向量机（SVM）是用于监督学习的计算上强大的工具（Kumar和Gopal，2011，以及Khan等人，2012年）。支持向量机是一种基于向量空间的线性和非线性数据分类方法SVM分类器的基本思想是寻找两类之间的最优分离超平面欲了解更多信息，请参考（Vapnik（1998）和Duda等人， 1997年）。4. 实验和结果4.1. 数据集数据集是测试任何自动化系统效率的基本要求。为了进行实验，需要相对较大的数据集由于标准的低层视频数据集尚未公开，因此我们创建了低层视频数据集。为了创建更低的视频数据集，我们使用了三种设备，即三星Galaxy Grand Prime（SGGP）手机，Sonycyber Shot相机和佳能相机。表5通过70%的训练和30%的测试，获得了具有不同特征提取模式的特征组合的准确度SL. 号特征提取模式特征组合数据集（结果%）SGGPSonyCyber Shot佳能1整个关键帧GLCM+LBP + SIFT53.8360.1865.732所有FROIGLCM+LBP + SIFT53.8363.5652.363最大FRoIGLCM+LBP + SIFT60.5967.0775.794最大带LDA的LBP+ SIFT100100100V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工274¼¼¼¼图15个。所提出的工作与深度学习模型之间的比较研究（Jyothi等人， 2018年，SGGP数据集。SGGP数据集由2611个8 M像素的视频组成Sonycyber Shot摄像机时代的数据集由2521个1410万像素的视频组成和佳能相机COSISTS的265616万像素的视频拍摄的视频持续时间从4秒到60秒不等。我们已经从三个装置中捕获了30种不同种类的存在小的类间变化和大的类内变化。在夏季、雨季和冬季的真实环境中拍摄的视频。视频涉及的挑战，如视点变化，照明，杂乱的背景，和多个实例的猫头鹰。我们创建的数据集中具有较大类内变化的花卉视频样本如图所示。四、除了上面提到的三个数据集之外，我们还创建了一个视频中包含多个类别的数据集，用于查询。的精确度检索到的相关检索到的视频总数召回检索到的视频总数相关数据库中类似视频的总数F−措施2“精确""回忆”精确度4.2. 所有FROIð19Þð20Þð21Þ数据集包含两个和三个不同的类的多线程。这些视频的样本如图所示。五、所提出的模型的性能进行了分析，在不同的模式提取的从所有FRoI提取的特征的结果如第4.2节所示，从最大FRoI（MFRoI）提取的特征如第4.3节所示，并且从具有LDA的最大FRoI（MFRoI）提取的特征如第4.4节所示而且，在从整个关键帧提取特征的先前工作中获得的结果（Guru等人，2018a，2018b）见第4.5节。我们创建的数据集用于进行实验。为了评估系统，使用了准确率、精确率、召回率和F-测度等指标，如下所示结果以不同的训练和测试视频制成表格用该方法训练检索系统的结果分析表明从所有FRoI中提取的图如下图所示。图6. 7和图SGGP、Sonycyber Shot和Canon数据集分别为8。从结果中，我们可以观察到，在70%的训练和30% 的测试中，该方法中的系统的准确度对于 SGGP 数据集达到53.83%，对于SonycyberShot达到52.36%，对于Canon数据集达到4.3. 最大FRoI用从最大最低感兴趣区域提取的特征训练所提出的检索系统的结果分析示于下图中： 9，Fig. 10和图SGGP、Sonycyber Shot和Canon数据集分别为11个。从结果中，我们可以观察到，在这种方法中，系统的准确度达到60.59%，准确度正确检索的视频总和查询视频ð18ÞSGGP数据集，Sonycyber Shot数据集为67.07%，Canon数据集为75.79%，70%训练和30%测试。此外，根据结果，我们V.K. Jyothi，V.N.M.Aradhya，Y.H.Sharath Kumar等人农业人工275图十六岁所提出的工作与深度学习模型之间的比较研究（Jyothi等人， 2018年，SonyCyber Shot数据集。可以看出，Max。对于所有三个数据集，FRoI给出了比所有FRoI更好的结果4.4. 最大带LDA的FRoI在本节中，我们从Max获得判别特征 FRoI使用LDA传递给模型。它通过识别查询视频的类别来提高检索性能表2（a）至表2（c），表3(a)到表3（c）和表4（a）到表4（c）示出了用从Max.FRoI如等式所示（14）分别用于SGGP、Sonycyber Shot和Canon数据集此外，表格显示从Max.FRoI与LDA给出了良好的结果比从其他建议的模式获得的4.5. 拟议工作与以往工作的比较研究在以前的工作中（Guru等人，2018a，2018 b）的特征，如灰度共生矩阵（GLCM）（Haralick等人， 1973）、局部二进制模式（LBP）（Ojala等人， 2002）和尺度不变特征变换（SIFT）Lowe（2004）。通过这些特征的融合，模型取得了良好的性能。先前工作的检索准确性（Guru等人，2018a，2018b）分别达到53.83%，60.18%和65.73%，如图所示。 12，Fig. 13和图SGGP、Sonycyber Shot和Canon数据集分别为14个。在所提出的工作中，为了进一步提高检索性能，GLCM（Hara

下载后可阅读完整内容，剩余1页未读，立即下载