处理嵌套删失数据的高斯混合聚类算法研究

版权申诉

106 浏览量更新于2024-06-27 收藏 1.04MB DOCX 举报

"这篇文档是关于嵌套删失数据下期望最大化（EM）算法在高斯混合聚类中的应用。高斯混合聚类是模式识别和数据分析中的常见模型，尤其在医疗健康和故障诊断领域。然而，数据的不完整性，如删失数据，会降低聚类精度。例如，在医疗决策中，数据的删失会影响智能推理的准确性。在疾病诊断如恶性淋巴瘤的案例中，流式细胞仪数据受限于测量范围，导致删失现象。删失数据的处理方法分为随机缺失（MAR）和非随机缺失（MNAR），其中贝叶斯推断和似然法是常用方法。针对非随机缺失，文献提出了惩罚验证标准来避免模型过拟合。" 高斯混合聚类是一种广泛应用的统计模型，它假设数据是由多个高斯分布混合生成的。每个观测值都可能属于其中一个高斯分布，而这些高斯分布的权重、均值和方差共同构成了聚类模型的参数。在遇到删失数据时，传统的处理方法可能会导致推断偏差，因为它们通常假设数据是完整的。在处理删失数据时，首先需要理解数据的缺失机制。随机缺失（MAR）指的是数据的缺失与观测值本身独立，而非随机缺失（MNAR）则意味着缺失与观测值有关。对于MAR，可以通过样本抽样、贝叶斯推断或似然法来处理；但对于MNAR，需要更复杂的策略，因为它涉及到数据缺失的原因。贝叶斯推断利用先验信息更新对后验概率的估计，而似然法则基于观测数据的最大化来估计参数。针对非随机缺失，文献提出了新的方法，包括惩罚验证标准，它通过对包含过多未知参数的模型施加惩罚来避免过拟合。在处理删失数据时，尤其是嵌套删失（即数据的缺失依赖于其他已知或未知的变量），这种方法显得尤为重要。嵌套删失数据，例如在保险理赔计算中的免赔额问题，不能简单地用一般处理非随机缺失的方法，因为其缺失机制更加复杂。在高斯混合聚类中，删失数据的参数估计是关键挑战。文献可能探讨了如何在EM算法框架内处理这种删失数据，通过迭代优化来估计模型参数，同时考虑数据的删失情况。EM算法在处理不完整数据时具有优势，因为它既能处理观测数据，也能处理未观测数据（在这种情况下，即删失数据）的期望值。这篇文档详细讨论了删失数据在高斯混合聚类中的处理方法，特别是嵌套删失数据的情况，强调了正确处理这类数据对提高聚类精度和分析结果可靠性的重要性。通过理解和应用这些方法，可以更好地从删失数据中提取信息，支持决策制定。

2.2 删失数据的似然函数

这里给出删失数据的定义, 并详细阐述删失数据的缺失机制和似然函数. 在数据空间

RdRd 中, [a,b]d[a,b]d 为一个超矩阵

[11]

, 其中上边界 b=(b(1),⋯,b=(b(1),⋯,b(d))T,b(d))T,下边界

a=(a(1),⋯,a(d))Ta=(a(1),⋯,a(d))T.

定义 3. 删失数据(Censored data) 是指 yiyi 的观测值满足分段函数:

y∗i=⎧⎩⎨⎪⎪a,yi≤ayi,a<yi<bb,yi≥byi∗={a,yi≤ayi,a<yi<bb,yi≥b

其中, a<yi<ba<yi<b, 是指 yiyi 在所有 dd 个维度上, 其对应的元素都存在于超矩阵的

两个边界元素之间, 此时 y∗i=yiyi∗=yi, 意为观测值等于真实值; 若 yi≤ayi≤a, 是指 yiyi 在所

有 dd 个维度上, 其对应的元素都小于超矩阵的下边界元素, 则 y∗i=ayi∗=a, 意为观测值被

赋予区间下界值, 此时数据类型为左删失数据; 若 yi≥byi≥b, 是指 yiyi 在所有 dd 个维度上,

其对应的元素都大于超矩阵的上边界元素, 则 y∗i=byi∗=b, 意为观测值被赋予区间上界值,

此时数据类型为右删失数据.

换言之, yiyi 中的缺失部分 y(mi)iyi(mi)被分别赋予 aa 或 bb 对应维度上的元素值. 为分

析概率密度和估计参数, 假设 y(ob)iyi(ob)的元素个数为 J1,y(mi)iJ1,yi(mi)的元素个数为 J2,J2,

且 J1+J2=d.J1+J2=d.不妨进一步假

设, y(ob)i=(y(1)i,yi(ob)=(yi(1),y(2)i,⋯,y(J1)i),y(mi)i=(y(J1+1)i,y(J1+2)i,⋯,y(d)i).yi(2),

⋯,yi(J1)),yi(mi)=(yi(J1+1),yi(J1+2),⋯,yi(d)).对于删失数据, A=[a,b]d.A=[a,b]d.为简化, 令

δij=1−δij=1−1A(y(j)i)1A(yi(j)), 当 δij=1δij=1 时, 表示 y(j)iyi(j)因删失而存在缺失数据, 其对

应观测值被赋予边界值; 相应地, δij=δij=00, 表示 y(j)iyi(j)不存在缺失数据, 即观测值等同

于真实值. yy 观测值的样本删失率 pce=(∑i∑jδij)/nd.pce=(∑i∑jδij)/nd.对于一维数据, 删失率

pce=nce/n,pce=nce/n,其中 ncence 是存在删失的样本数.

根据删失数据的定义, y1:ny1:n 的部分真实值(如序数为 n1+1,⋯,nn1+1,⋯,n 的值) 被修

改. 那么, 其被修改后的数据(不存在缺失部分的值、和缺失部分的修改值)构成新数据集,

记为 x1:nx1:n. 对于∀i,∀j∀i,∀j, 有

x(j)i=y(j)i1[a(j),b(j)](y(j)i)+a(j)1(−∞,a(j))(y(j)i)+b(j)1(b(j),∞)(y(j)i)xi(j)=yi(j)1[a(j),b(j)](yi(j))+a(j)1(−∞,a(j))(yi(j))+b(j)1(b(j),∞)(yi(j))

其中, 当 y(j)i∈A,1A(y(j)i)=1,yi(j)∈A,1A(yi(j))=1,否则 1A(y(j)i)=0.1A(yi(j))=0.且

(−∞,a(j))(−∞,a(j))表示小于 aiai 的真实值所在的超矩阵, (bi,∞)(bi,∞)表示大于 bibi 的真实值

所在的超矩阵. 因此,

a(j)≤x(j)i≤b(j),i=1,⋯,n,j=1,⋯,da(j)≤xi(j)≤b(j),i=1,⋯,n,j=1,⋯,d

与缺失数据机制对应, 但因每一个样本 yiyi 的删失模式会不一样, 而使用 imim 和 ioio

分别表示删失和未删失数据的坐标序号集, 故 yi∈imyi∈im 和 xi∈imxi∈im 分别指删失部分

的缺失值(缺失时的真实值)和删失后的改写值(简称删失值), yi∈ioyi∈io 和 xi∈ioxi∈io 分别

指原数据不存在缺失的部分与删失型数据对应的部分值, 尽管没有删失时它们值等同. 那么

y∗i=[y(ob)i,y(mi)i]T=yi∗=[yi(ob),yi(mi)]T=[yi∈io,yi∈im]T.[yi∈io,yi∈im]T.同

时, xi=[xi∈io,xi∈im]Txi=[xi∈io,xi∈im]T.

为简化, 将 yy 的数据空间划分为 {Yt|t=0,{Yt|t=0,1,⋯,T},1,⋯,T},其中当

y(j)i∈Y0=Πdi=1[a(j),b(j)]yi(j)∈Y0=Πi=1d[a(j),b(j)], 此时数据不存在删失; 而当

剩余18页未读，继续阅读

罗伯特之技术屋

粉丝: 4461
资源: 1万+

处理嵌套删失数据的高斯混合聚类算法研究

Python实现K均值与LVQ及高斯混合聚类算法源码与项目说明

基于密度峰值的高斯混合模型聚类算法研究

Matlab高斯混合聚类在鸢尾花数据集中的应用

融合密度峰值的高斯混合模型聚类算法.docx

各种密度聚类算法.docx

基于高斯核优化的密度峰值聚类算法.docx

matlab实现Kmeans聚类算法.docx

一种快速山峰聚类算法.docx

有限混合密度模型及遥感影像EM聚类算法.docx

用C#实现k均值聚类算法.docx

最新资源