分布分离方法的广义分析与熵相关度量

167 浏览量更新于2024-07-15 收藏 461KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"分布分离方法的广义分析探讨了如何从混合模型中分离两种概率分布，这在信息检索（IR）和其他应用中至关重要。分布分离方法（DSM）被提出用于从混合分布中提取不相关性分布，以逼近相关性分布，特别是在伪相关反馈（PRF）任务中。该文扩展了DSM的理论分析，将其与熵相关的度量，如KL散度、对称KL散度和JS散度联系起来。此外，它还研究了混合模型反馈（MMF）与DSM之间的关系，表明DSM的线性分离算法可以简化MMF的EM算法，从而凸显DSM的优势。" 本文深入研究了分布分离方法（DSM），这是一种在信息检索领域中用于从混合分布中区分相关性和不相关性分布的技术。在IR中，混合分布包含了我们需要估计的相关性分布和需要消除的不相关性分布。DSM通过分离不相关性分布来近似相关性分布，特别适用于查询扩展的PRF任务。文章的核心贡献之一是对DSM的理论分析进行了扩展。最初，DSM基于皮尔逊相关系数，但现在作者将其与熵相关的度量联系起来，包括Kullback-Leibler散度（KL散度）、对称KL散度和Jensen-Shannon分歧（JS散度）。这些度量是衡量两个概率分布相似性的常见工具，它们提供了更丰富的分析视角，使得DSM能够适应更多种类的数据和问题。此外，文章对比了DSM与混合模型反馈（MMF）方法。MMF是另一种处理混合模型的策略，作者证明了MMF同样满足线性组合假设，这意味着DSM的线性分离算法可以有效地应用于MMF，简化了原本复杂的期望最大化（EM）算法。这一发现强调了DSM在算法效率上的优势，同时也揭示了这两种方法之间的内在联系。通过这些理论分析和经验评估，作者证实了DSM方法的有效性和适用性。文章的实验部分可能包含对不同度量和方法的比较，以及在各种IR任务上的性能评估，这些都进一步支持了DSM作为一种强大且通用的概率分布分离工具的观点。这篇论文不仅深化了对DSM的理解，还促进了DSM与其他相关方法的融合，为信息检索及其他领域的概率分布处理提供了新的见解和工具。

资源详情

资源推荐

Entropy 2016, 18, 105 5 of 21

distribution I

can be minimized. Here, we further analyse the effect of DSM on the KL-divergence

between

l(R, I

) and I

Speciﬁcally, we propose the following Proposition 2, which proves that if

λ decreases, the

KL-divergence between

l(R, I

) and I

will be increased monotonously.

Proposition 2. If

λ (

λ > 0) decreases, the KL-divergence between

l(R, I

) and I

will increase.

Proof. Using the simpliﬁed notations in Table 2, let the KL-divergence of between

l(R, I

) and I

formulated as:

l(R, I

), I

) =

∑

i=1

l(R, I

)(i) log(

l(R, I

)(i)

(i)

) =

∑

i=1

l(i) log(

l(i)

(i)

)

(5)

Now, let ξ = 1/

λ as we did in the proof of Proposition 1 (see [6]). According to Equation (2), we

have

l(R, I

) = ξ × M + (1 − ξ) × I

. It then turns out that:

l(i) = ξ × (M(i) − I

(i)) + I

(i). (6)

Based on Equations (5) and (6), we get:

l(R, I

), I

) =

∑

i=1

(ξ × (M(i) − I

(i)) + I

(i)) log(

ξ × (M(i) − I

(i)) + I

(i)

)

(7)

Let D(ξ) = D(

l(R, I

), I

). The derivative of D(ξ) can be calculated as:

(ξ) =

∑

i=1

[M(i) − I

(i) + (M(i) − I

(i)) log(

ξ × (M(i) − I

(i)) + I

(i)

)]

(8)

Since

∑

i=1

M(i) = 1 and

∑

i=1

(i) = 1,

∑

i=1

[M(i) − I

(i)] becomes zero. We then have:

(ξ) =

∑

i=1

(M(i) − I

(i)) log(

ξ × (M(i) − I

(i)) + I

(i)

)

∑

i=1

(M(i) − I

(i)) log(

ξ × (M(i) − I

(i))

(i)

+ 1)

(9)

Let the i-th term in the summation of Equation (9) be:

(ξ)(i) = (M(i) − I

(i)) log(

ξ × (M(i) − I

(i))

(i)

+ 1)

It turns out that when M(i) > I

(i) or M(i) < I

(i), D

(ξ)(i) is greater than zero. When

M(i) = I

(i), D

(ξ)(i) is zero. However, M(i) does not always equal to I

(i). Therefore,

(ξ) =

∑

i=1

(ξ)(i) is greater than zero.

In conclusion, we have D

(ξ) > 0. This means that D(ξ) (i.e., D(

l(R, I

), I

)) increases after ξ

increases. Since λ = 1/ξ, after

λ decreases, D(

l(R, I

), I

) will increase.

Table 2. Simpliﬁed notations.

Original Simpliﬁed Linear Coefﬁcient

l(R, I

)(i) l(i) λ

l(R, I

)(i)

l(i)

λ (estimate of λ)

(R, I

)(i) l

(i) λ

(lower bound of

λ)

剩余20页未读，继续阅读

weixin_38624746

粉丝: 3
资源: 946

分布分离方法的广义分析与熵相关度量

foubiu.zip_广义形态分量_形态分量分析_独立分量分析

多个广义高斯分布相加还是广义高斯分布吗

请详细介绍非广义高斯分布

怎么实现广义s变换时频分析方法

噪声服从柯西分布信号服从高斯分布怎么用广义似然比检测到信号是否存在

matlab广义帕累托分布

广义判别分析python

广义泊松分布和负二项分布的关系

matlab广义泊松分布

广义线性模型分析R语言

libmr拟合广义帕累托分布

python从广义pareto分布的多轴外推模型

matlab广义正态分布拟合

广义判别分析matlab

广义极值分布累积概率分布

matlab生成广义泊松分布随机数

广义线性模型结果如何分析

广义极值分布累积概率分布matlab代码

广义线性回归 pandas

时频分析 s变换与广义s变换

最新资源