g(x)=g(x1,x2,⋯,xn)的 联合 概 率密 度 函 数, 则 变换 函 数 ,l(x)=f(x)g(x)g(x)≠0 是使
AUC 达到最大的变换函数中的一种。
AUC=P(X>Y)=P(l(X)>l(Y))=J(l(x)) 可 以 表 示 成 泛 函 AUC=J(l(x)) 关 于 宗 量
l(x)(泛函中的函数变量称为宗量)的最大值问题
[42
]
。该变分问题的表达式十分
烦琐,不宜用变分法直接求解。根据 AUC 的等价定义,使 AUC 达到最大相当
于 ROC 下的面积达到最大。若对任意 FPR,对应 ROC 上的每一点 TPR 的值最
大,则 AUC 达到最大。
FPR=∫∞μgY(x)dx=∫E(l(x)>μ)g(x)dx (7)
TPR=∫+∞μfX(x)dx=∫E(l(x)>μ)f(x)dx (8)
其 中 , g
Y
(x) 是 Y=l(Y)的 概 率 密 度 函 数 ,
E(l(x)>μ)={x∈ℝn:μ∈ℝ,l(x)>μ} , f
X
(x) 是 X =l(X) 的 概 率 密 度 函 数 ,
m{x:l(x)=C,∀C∈ℝ}=0(m 为集合的测度)。
问题转化为确定函数 l
FPR
(x)和 μ
l,FPR
,使
∫E(lFPR(x)>μl,FPR)f(x)dx=maxl(x),μl∫E(l(x)>μl)f(x)dx (9)
即证明满足式(9)的 lFPR(x)=f(x)g(x)。
该结论与奈曼皮尔逊准则
[43
]
等价。附录 2)的证明中可以看出定理 1 的直观
几何解释。
图
给出了定理 1 的几何解释和证明思路。设网络中有连边的节点对得分服
从分布 f(x)=0.64exp(−2(x−1.8)2)+0.32exp(−8(x−2.8)2),如图 2(a)的曲线 1 所
示;无连边的节点对得分服从分布 g(x)=1.56xexp(−x0.8)(x>0),如图
(a)的曲
线 2 所示;对 f(x)的错误估计 ˆf(x)如图
(a)的曲线 3 所示。则存在简单函数列
ψ
α
(x)→ f(x),ϕ
α
(x)→g (x)。取简单函数 α=9,ψ9(x)=9∑i=1aiχHi(x)逼近 f(x);取
φ9(x)=9∑i=1biχHi(x)逼 近 g(x) ; 取 ˆψ9(x)=9∑i=1ˆaiχHi(x)逼 近 f(x) 的 错 误 估 计
ˆf(x),得到简单函数逼近密度函数的示意和对应的把简单函数当作密度函数的
ROC 曲线,如图
(b)所示。
ROC 的横坐标表示对 g(x)的积分,纵坐标表示对 f(x)的积分。选择不同的
变换函数 l(x)表示对 f(x)、g(x)的积分区域选取的顺序不同,但无论如何选取
l(x),ROC 的横纵坐标都是对 g(x)和 f(x)的积分,证明中采用简单函数列逼近原
概率密度函数的方法,使简单函数对应的 ROC 逼近原密度函数对应的 ROC。
由于对于任意 α,∫
ℝ
ψα(x)dx<1,∫
ℝ
φα(x)dx<1,因此将 ψ
α
(x),ϕ
α
(x)乘以对应常数,
使˜ψα(x)=kψαψα(x), ˜φα(x)=kφαφα(x),满 足 ∫
ℝ
˜ψα(x)dx=1,∫ℝ˜φα(x)dx=1 后,再
按照对应区域积分绘制简单函数列˜ψα(x),˜φα(x)对应的 ROC。随着简单函数 α 取
值的不断增大,对应的 ROC 逐渐逼近原密度函数对应的 ROC,如图