B. Chen,中国粘蝇D.Wang,P.Li,
S.Wang,H.陆
尝试利用RL技术进行视觉跟踪。在[10]中,Yun
等人
提出了一种基于RL的动作
决策网络,它学习一个好的策略来从动作池中选择一系列动作(包括平移移
动,缩放变化和停止的11个候选动作)。然后,跟踪器决定顺序动作,以搜索
当前帧中跟踪对象的最佳位置,然后去处理下一帧。在[43]中,Huang
等人
利用
RL学习早期决策策略,用于在跟踪过程中自适应地选择有效特征。基于学习的
策略,采取八个离散的动作来决定跟踪器是否将跟踪对象定位在早期层上或继
续处理子序列层。该方法可以有效地加速深度跟踪器而不损失准确性,因为它
鼓励跟踪器处理具有廉价特征的简单帧,同时仍然处理具有昂贵深度特征的困
难帧。在[44]中,跟踪器被建模为主动代理,以在线决定代理是否仍然要在[45]
中,RL方法被用于构造模板选择策略,鼓励跟踪器在每帧中从有限的候选模板
中选择最佳模板与上述方法不同,我们提出了一种新的
3
通过
“演员-评论家”网络进行的测试
3.1
概述
视觉跟踪的目的是在给定其在第一帧中的初始位置的情况下推断任意对象在每
个后续帧中的位置在这项工作中,我们试图在一个新的“演员-评论家”框架内进
行跟踪“Actor”模型旨在给出一个连续的动作,以直接使跟踪器将边界框移动到
当前帧中的对象位置。它可以通过基于深度强化学习的“Critic”网络进行有效的
离线训练。在跟踪过程中,“评论家”模型结合了“演员”产生的动作,以确定动
作的质量,并有助于提高跟踪性能。我们的跟踪框架的细节如下所示。
3.2
问题设置
考虑 到跟踪作为一个顺序的决策问 题,我们的算法遵循马 尔可夫决策过程
(MDP)。MDP的基本组成部分包括状态s
∈
S、动作
′
a
∈
A
,状态转移函数
s
=
f
(
s
,
a
),报酬
r
(
s
,
a
)
.
在我们的
MDP
框架中,跟踪器被视为代理,以推断
在每帧中跟踪对象 该智能体通过一系列观察
s1
,
s2
,
...
与环境交互
s
t
,动作
a1
,
a2
,
...
, 并且
奖励
r1
,
r2
,
…R
t
. 在第t帧中,智能体根据当前的
′
状态
s_
t
,并获得跟踪结果为
s_
t
。在这项工作中,动作
a
t
被定义为
被跟踪对象的相对运动指示其边界框应如何移动