在学习和转移学习中,方法[21,18,32,35]采用转移概率来修改损
失函数,使得它们可以对有噪声的标签具有鲁棒性。在[26,22]中已
经提出了通过添加过渡层来修改深度神经网络的类似策略然而,这是
第一次将这种想法应用于有偏见的互补标签学习的新问题。与标签噪
声不同,这里,转移矩阵的所有对角项都是零,并且转移矩阵有时可
能不需要在经验上可逆。
3
问题设置
在多类分类中,设
Rd
是特征空间,并且 =
[
c
]
是标
签空间,其中
d
是特征空间维度;
[c]
=
l
, ,
c
;并且
c
>
2是类的数量。 我们假设变量(
X
,
Y
,
Y
)在空间上定义
为
u
re
P
(
X
,
Y
,
Y
′
)(
P
X
YY
′
f
or
s
h
or
t
)
。
实际上,真正的标签有时很昂贵,但补充标签很便宜。因此,这
项工作研究了这样一种设置,在这种设置中,我们有一个带有偏见的
互补标签的后者仅用于估计转移概率。我们的目标是学习最佳分类器
的例子与真正的标签,利用互补标签的例子。
对于一
个xample
(
x
,
y
)
, 一 个 comple
m
e
n
aryl
ab
el
y ?
从 该
comple
m
e
te
set
中
选择
y
.
我们
可 以
轻松地找到可以选择的方式,即
:
例如
,
P
(
Y
¯
=
y
¯
X
=
x
,
Y
=
y
)
。
在
此版
本中,我们假设Y ¯s
是 一个 独 立的 可 用 的
fe
at
re
X
c
i
t
id
on
turue
l
el
Y
,
即
。
例
如
,
P
(
Y
¯
=
y
¯
|
X
=
x
,
Y
=
y
)
=
P
(
Y
¯
=
y
¯
|
Y
=
y
)
。
这是一
个简单
的概念
仅取决于类别的偏差,例如,如果注释者不熟悉
当她在一个特定的类的特征,她可能会分配互补的标签,她更熟
悉。 我们将所有的概率归纳为
在
ri
x
Q
∈
Rc
×
c
处 的 转 移m ,
其中
r
e
Q
i
j
=
P
(
Y
¯
=j
|
Y
=
i
)
且d
Q
ii
=
0
,
i
,
j
∈
[
c
]
.
其中
,
Qij
表示Q的第i行和第j列中的条
目值注意
转移矩阵在马尔可夫链[7]中也得到了广泛的应用,并且在机器学习中
有许多应用,例如使用标签噪声进行学习[21,26,22]。
如果互补标记均匀地选自互补集合,则
i
,
j
[
c
]
和
i
=
j
,
Q
,
i
,
j
=
1
。
以前的工作
[13]
已经证明,可以在均匀假设下找到最佳分类器。有
时,由于人类的偏见,这在实践中并不正确因此,我们关注Q
ij
,
i
=
j不同的情况。我们主要研究以下几个问题:如何修改损失函
数,使得用这些有偏的互补标签学习的分类器可以收敛到用真实标签
学习的最优分类器;收敛的速度;以及如何估计转移概率。
4
方法
在本节中,我们将研究如何使用有偏见的互补标签进行学习我们首先
回顾如何从具有真实标签的示例中学习最佳分类器然后,