跨浏览器多类视频检索与识别的人工智能模型

113 浏览量更新于2024-06-18 收藏 3.36MB PDF 举报

本文主要探讨了基于多类浏览器查询的视频检索和识别的人工智能模型在农业领域的应用，特别是在园艺和昆虫学中的潜在价值。研究团队由V.K.Jyothia等人来自印度卡纳塔克邦的几所高校，如迈索尔大学、JSS科技大学和Maharaja理工学院的信息科学与工程系，他们聚焦于提升视频数据处理能力，尤其是在低分辨率和复杂背景下识别花卉视频的能力。文章的核心技术包括以下几个步骤： 1. **视频表示与关键帧提取**：首先，视频被分解为关键帧，这些关键帧有助于捕捉视频的主要内容。关键帧中的文本（如标签或字幕）被分离出来，以便后续处理。 2. **特征提取与区域分析**：利用线性判别分析（LDA）对关键帧进行分析，从视频的不同区域提取区分特征。这种方法有助于降低冗余信息并突出关键特征。 3. **多类支持向量机（MSVM）**：作为一种分类器，MSVM被用来识别不同类别的视频，这在处理多类查询视频时尤为重要。研究者尝试突破传统方法，不仅局限于单一物种的查询，而是扩展到不同物种的蜘蛛视频检索。 4. **预处理技术**：使用高斯混合模型（GMM）进行数据预处理，以增强数据的准确性。此外，通过提取较低的兴趣区域（FRoI），研究人员能够聚焦于视频中与查询相关的部分。 5. **纹理与尺度不变特征变换（SIFT）**：纹理特征和SIFT算法结合，提供了一种稳健的特征表示方法，能够在不同尺度和视角下保持视频特征的一致性，这对于跨浏览器和设备的视频检索至关重要。文章指出，这项研究是在一个包含30种不同种类蜻蜓的大型视频数据库上进行实验的，共有7788个视频，涵盖了多种设备拍摄的数据。成果展示了在实际应用场景中，使用这种人工智能模型进行多类视频检索的可行性，对于园艺和昆虫学等领域的信息检索有着显著的贡献。本文的研究成果不仅提升了视频检索的效率和准确度，而且遵循了Creative Commons Attribution-NonCommercial-NoDerivatives (CC BY-NC-ND) 许可证，促进了开放获取和知识共享。

V.K. Jyothi

，

V.N.M.Aradhya

，

Y.H.Sharath Kumar

等

人

农业人工

265

表1

所提及的技术和在相关工作中的应用的总结

SL.

号

算法应用参考

视频的光学马尔可夫和隐马尔可夫模型检索

Gao

等人，

2009

视频的多模态谱聚类和排序算法检索

Han

等人，

2014

主成分分析特征降维

Geetha

等人，

2009

Fisher

判别比，线性判别分析，半监督线性判别分析，监督线性降维，非参数判别分析

特征降维

Shen

等人，

2016

Gao

等人，

2009Wang

等人，

2016Cui

等人，

2016Khan

等人，

2012

其中μ是平均值，σ是数据（特征）“x”的标准差

。

4.1.1.

下感兴趣区域（

FRoI

）的提取

在关键帧的分割过程之后，使用连通分量分析来选择所有较低区域，

并且所选择的较低区域被命名为感兴趣的花区域（FRoI）（参见

图

）。①的人。然后，从每个关键帧的

FRoI

的，如灰度共生矩阵，

LBP

和

SIFT特征提取进一步处理。

3.2.

特征提取

视频视觉特征，如颜色、纹理、局部不变特征等，在视频的检索中

起重要作用（Hong等人， 2014; Li等人， 2015年）。一些不同种类的

兰花颜色相似例如，我们可以找到红色的玫瑰，芙蓉，三角梅属于三个

不同的物种。因此，颜色特征不能区分一个物种与另一个物种。数据集

中存在较大的类内变异性和类间相似性由于这一点，在选择特征以在视

频中描述宿主时有两个主要动机首先，单个种类的植物的纹理是相似

的，因此纹理特征被用来描述视频中的植物其次，视频中的噪声包括视

点和光照的变化，在这种情况下，考虑从尺度不变特征变换 Lowe

（2004）中

3.2.1.

纹理特征

图像/帧的纹理包含独特的视觉图案。纹理特征描述了物体表面，这

些特征与物体颜色无关Hu et al.（2011）。播放器的视频包括大的类内

变化，例如播放器颜色的变化。因此，要描述低层区域，纹理特征起着

至关重要的作用。在这项工作中，纹理特征，即灰度共生矩阵和局部二

进制模式。

3.2.1.1.

灰度共生矩阵。

GLCM是用统计信息描述电力系统的结构。在当

前的工作中，

系统提取统计值的

个不同灰度共生

（Haralick等人， 1973

年）从每个FRoI中提取。这些特征被表示为特征向量。

3.2.1.2.

局部二进制模式（

LBP

）。

LBP描述的纹理描述的下一个区域的

局部特征。一种识别图像纹理的局部二进制模式及其出现历史图的方法证

明了LBP是一种强大的纹理特征（Ojala等人， 2002年）。它在灰度的

变化和变换方面是鲁棒的在所提出的工作中，系统提取 LBP特征

（Ojala等人， 2002），其对FRoI中的局部灰度变化不变。LBP纹理特

征提取采用3 × 3邻域中心像素值，对8个邻域的像素值进行阈值化。在3

× 3邻域内，中心像素LBP值由阈值化的二值值按2的幂加权求和得到。

3.2.2.

尺度不变特征变换

SIFT在用于分析视频内容的视频检索中起着至关重要的作用（Zhu等

人， 2016 年）。在 SIFT 中，图像特征集在 4 个阶段中生成 Lowe

（2004）。在第一阶段，该模型搜索所有尺度和图像位置，以识别对方

向和尺度不变的兴趣点在第二阶段，在每个位置，模型被确定的比例和

位置，这被称为关键点定位。在第三阶段中，基于局部图像梯度方向，

将方向分配给每个关键点位置。最后，在每个关键点周围区域的选定尺

度上，它生成描述符，其内核为8个bin的4 × 4直方图这些直方图计算16

× 16像素区域中梯度的方向和幅度组织图结果以描述符的形式表示在目

前的工作中，这些特征描述符用于描述FRoI的Lowe（2004）。

为了设计所提出的模型，诸如灰度共生矩阵（GLCM）（Haralick

等人，1973）、局部二进制模式（LBP）（Ojala等人， 2002）和

Lowe（2004）提出的尺度不变特征变换（SIFT）。最初，我们提出通

过考虑分割后的整个关键帧来完成提取这些特征（Guru等人，2018年

a、2018年b）。随后，我们采用的特征提取的视频的每个关键帧的所有

较低的区域。最后，通过在关键帧的所有较低区域中选择最大花区域来

实现这些特征的提取，以便检索。

图二、从所有下层感兴趣区域提取特征。

剩余15页未读，继续阅读

cpongm

粉丝: 6

跨浏览器多类视频检索与识别的人工智能模型

基于内容的多媒体检索

视频识别，深度学习，人工智能

图像数据库浏览器模型的研究.rar

构建基于人工智能的文件检索系统

AI大模型应用实践：油猴脚本优化知网检索体验

人工智能-项目实践-信息检索-学术论文检索系统

基于人工智能和机器学习的API调用

基于人脸识别和GPS定位的智能考勤系统设计与实现.pdf

基于人工智能技术的数字图书馆个性化信息服务研究.pdf

基于领域本体的农药信息智能查询系统设计.pdf

最新资源