注的样本数据来训练两个独立的分类器,然后作为初始化学习。之后,这两个分类器都被用
于未被标注的数据样本。被第一个分类器成功分类的样本用于增加第二个分类器的训练样本
数据并且修剪去不好的数据样本。然后不断迭代上述过程。协同学习的方法能够在特征空间
独立的情况下获得最好的效果,比如文本分类[1](文本和超链接)或者生物识别系统中[47]
(外貌识别,语音识别)。在可视目标检测中,协同学习的方法也被用于车辆监控和运动目
标识别[49]。我们认为协同学习在目标检测中并不是最优的,因为样本数据(图像块)是从
单一的情形下来采样获得的。而从单一情形下提取到的特征有可能是相互依赖的,而这违背
了协同学习的方法的前提假设。
2.4 大部分的相关方法
在某种程度上来说,很多的方法都融合跟踪,学习,检测。在[50],一个离线的训练分
类器被用来证实跟踪器的跟踪轨迹。如果一旦错误,就会立即对图像进行详尽的搜索来寻找
目标物体。其他的方法都是在粒子滤波[51]的架构下整合了检测器。这样的技术已经被用于
低分辨率[52]下的人脸跟踪,多个曲棍球运动员下的跟踪[53],和行人跟踪[54][55]。和我们
的方法相比,这种方法需要依赖一个离线的检测器,然而,这种离线的检测器在检测运行过
程 中 是 不 会 有 再 发 生 变 化 的 , 即 其 性 能 也 不 会 有 提 升 的 。 自 适 应 的 判 别 跟 踪 器
[29][30][31][32][33]也具备跟踪,学习,检测的能力。这些方法通过一个可以在线学习的检
测器来实现跟踪。这些可以在线学习的检测器能够从背景环境中判别出目标物体。换言之,
一个单一的过程同时具备了跟踪和检测。而我们的方法却是相反的,在我们的方法中,跟踪
和检测是分别独立的过程。彼此之间可以通过学习来交换信息。通过保持跟踪和检测的独立
性,我们的方法没有必要在跟踪和检测中作出折中让步,我们完全可以让两者的效果都能达
到最好。
TLD 是一个用于针对视频中未知物体长期跟踪的架构。其框图组成由图 2 示。架构的
组成部分描述如下:跟踪器估计出连续的视频帧之间目标发生的运动。这里我们假设目标物
体首先是可见的,其次物体的运动不是非常的剧烈。如果当目标移出视野之外,跟踪器有可
能会跟踪失败而且再也不会恢复。检测器将每一帧都看做是独立的,然后对图像进行全局扫
描来确定出并局部化过去所有扫描到的和学习到的特征。和其他的检测器一样,也会出现以
下两种类型的错误:错误的正样本和错误的负样本。学习器根据跟踪器和检测器的结果来估
计出检测器的错误,并修正训练样本使之不再出现类似错误。学习器假设跟踪器和检测器都