稀疏广义特征值问题的求解方法及其应用

40 浏览量更新于2023-10-17 收藏 985KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6113ǁ ǁ ≤∈∈∈∈ǁ·ǁ稀疏广义特征值问题袁干钊1、3、4，李申2，郑伟世3、41量子计算中心，鹏程实验室，深圳5180052腾讯人工智能实验室，中国深圳3中山大学数据与计算机科学学院，中国4机器智能与先进计算教育部重点实验室（中山大学）网址：yuanganzhao@foxmail.com，mathshenli@gmail.com，网址：www.example.com，wszheng@ieee.org摘要稀疏广义特征值问题出现在许多标准和现代统计学习模型中，包括稀疏主成分分析、稀疏Fisher判别分析和稀疏典型相关分析。然而，这个问题很难解决，因为它是NP-难的。在本文中，我们考虑一个新的有效的分解方法来解决这个问题。具体来说，我们使用随机或/和交换策略，找到一个工作集，并执行全局组合搜索的小子集的变量。我们考虑一个二分法和一个坐标下降法求解二次分式规划子问题。此外，我们提供了一些理论分析所提出的我们对合成数据和真实数据的实验表明，我们的方法显着和consistently优于现有的解决方案的准确性。1. 介绍本文主要研究如下稀疏广义特征值问题（minx/=0，x∈f（x），h（x），其中f，{x|x稀疏性约束的可满足性因此，它等价于以下问题：minxxTAx，s。t. xTCx=1，x0s.此外，在没有稀疏约束的情况下，问题（1）简化为最小广义特征值问题，并且它具有几个等价公式[4]：minx0 （ xTAx ） / （ xTCx ） =min{xTAx ：xTCx=1}=max{λ：A−λC≥0}=λmin（C−1/2AC−1/2），其中λmin（X）是给定矩阵X的最小特征值，X ≥ 0表示X是半正定的。问题（1）与文献[13，11，1]中的经典矩阵计算密切相关。对解施加额外的稀疏约束减少了过度拟合，并提高了模型对高维数据分析的可解释性。[18]的工作连续地选择了一个稀疏主方向，该方向通过使用有界的范数来强制稀疏约束来最大化方差[45]的工作将主成分分析问题重新表述为弹性网络正则化岭回归问题，可以使用最小角回归有效地求解。文[9]提出了一种基于半定规划的稀疏主元分析解决问题（1）的一个困难来自基数约束的组合性质。解决此问题的传统方法是简单地替换g（x）h（x），1xTAx，g（x），1xTCx.（一）范数的凸松弛。最近，非凸22近似方法，如Schatten Schmidp norm，re-这里，xRn，0是一个计算向量中非零元素个数的函数。ARn×n和CRn×n是一类对称矩阵。我们假设C是严格正定的，s [1，n]是正整数。（1）中的稀疏广义特征值问题描述了计算机视觉和机器学习中的许多感兴趣的应用，包括对象识别[26]，视觉跟踪[21]，对象检测[27，28，31]，pix-el/part selection [25]和文本摘要[44]。我们注意到，(1) 是尺度不变的（将x乘以正常数不会改变目标函数的值，为了获得更好的精度，已经提出了加权的N1范数，CappedN1函数[32]。然而，所有这些逼近方法都不能直接控制解的稀疏性相比之下，迭代硬阈值处理通过以梯度下降方式迭代地将小元素（幅度）设置为零来保持解的稀疏性。由于其简单性，它已被广泛使用并纳入截断功率法[41]和截断瑞利流法[35]。解决问题（1）的另一个困难是由于目标函数的非凸性。一个常用的方法来克服这个困难是删除样方-6114Σm结构为：（）∈12×12R。C-∈∈·- xAx。YYyx00天ǁǁ ≤∈∈利用半定规划提升技术的ic. 1、B（i）=j;0，别的，（UN）j，l=.1、N（l）=j;0，别的.所以我们并将（1）重新公式化为以下低秩稀疏运算：有xB=UTx和x=Ix=（UBUT+UNUT）x=B B N最小化问题：minX0tr（AX）/tr（CX），s. t. X≥2UBxB+ UNxN。最后，Ck表示位置的数量0，rank（X）= 1， x0的S. 我们注意到，射函数是拟线性的（因此，拟凸和准凹），并且可以使用问题的尺度不变性质将分母约束为正常数。最近，凸半定规划方法放弃了秩约束，并考虑了稀疏约束[9，8，20，43]的α1它已被证明，实现强有力的保证下，适当的解释。然而，这样的矩阵提升技术将招致昂贵的计算开销。n从n中选择k个项目的可能组合。2. 广义特征值问题许多标准的和现代的统计学习模型可以被公式化为稀疏广义本征值问题，我们在下面给出一些例子。• 主成分分析（PCA）。考虑一个数据矩阵Z∈Rm×d，其中每一行代表一个整数，依赖性样本。计算协方差矩阵总之，现有的解决问题（1）通过=1m−1Mi=1（zi−µ）（zi−µ）T∈Rd×d，其中受到以下限制。（i）半定规划方法[9，8，20]由于其特征值分解的高计算复杂性而不可扩展。（ii）凸/非凸逼近方法[34，36，33]无法直接控制解的低秩和稀疏性。（iii）硬阈值方法[41，19]只能获得弱的最优性保证，并且在实践中导致精度差[3，40]。最近，文[5]的工作考虑了一个新的最优性cri-zi表示Z的第i列，µ=i=1ziRd. P-CA可以转换为以下优化问题：minx=0（−xT<$x）/（xTx）。• Fisher判别分析（FDA）。鉴于观察-具有两个不同类的变量，其中μ（i）和μ（i）是类i的均值向量和协方差矩阵（i= 1或2）。FDA寻求一个投影向量，使得类间方差相对于类内方差较大，导致以下问题：T T基于坐标最优性（C-minx/=0−x（（µ（1）−µ（2））（µ（1）−µ（2）xxT（n（1）+n（2）） xWO）条件进行稀疏优化。事实证明，C-WO条件比基于硬阈值的最优性准则更强文[40]给出了一般离散优化问题的一个新的块k最优条件它比CWO条件更强，因为它包含了CWO条件作为k= 1的特殊情况。在这些工作的启发下，我们提出了稀疏广义特征值问题的一种新的分解方法，典型相关分析（CCA）。给定两类数据XRm1×d和YRm2×d，X和Y样本之间的协方差矩阵可以是一致的。xx阿吉CA通过解决以下问题来利用样本之间的关系：t.uTxu=vTv = 1，其中A，（0xy），C，（xx0）R（m1+m2）×（m1+m2），且x，[uTvT]T。可以重写长期使用基于CWO [5]的贪婪方法，找到工作集。CCA是以下等式问题：不TCx贡献：本文作出如下贡献。（i）我们提出了一种新的分解算法来求解稀疏广义特征值问题（见第3节）。（ii）我们讨论了两种策略来找到我们的分解算法的工作集（见第4节）。（iii）我们提出了两种方法来解决稀疏二次分式规划子问题（见第5节）。（iv）提供了分解方法的收敛性分析（见第6节）。（v）我们的实验表明，我们的方法在准确性方面优于现有的解决方案。(see第7节）。符号：所有向量都是列向量，上标T表示转置.xi，j表示矩阵X的第i，j个元素，xi表示向量的第i个元素结合稀疏性约束，应用-上面列出的情况成为（1）中的一般优化模型3. 提出的分解算法本节介绍了我们求解（1）的分解算法，该算法基于以下一般非凸约束优化的块k最优性[40定义1.（块k最优解与块k最优性测度）（i）我们把B∈ Nk表示为一个包含k个选自{1，2，…， n}。我们定义N，{1，2，...，n}\B，x=UBxB+UNxN，令X. ei是单位向量，第i个条目为1，al为0。其他条目。diag（x）是一个对角矩阵，P（B，x），argminxBf（UBxB+UNxN），（二）x作为其主对角线。对于索引向量[1，2，...，n]转化为[B ，N] ，其中B∈Nk ，N∈Nn−k，我们定义UB∈Rn×k，UN∈Rn×（n−k）为：（UB）j，i =S.T. （UBxB+ UNxN）∈ N。解x<$是block-k最优解当且仅当x<$B=P（B，x<$）对于所有|B|=k。在其他领域中，一种解决方案.6115n2}MMB∈--关于我们n关于我们不ZJ•SZN2B2Nβ，2，s.t.β≥L22n∀≥是块k最优解，当且仅当大小为k的每个块（二）以保证算法1的充分下降条件和全局收敛性（见引理2和定理2）。（iv）我们定义M（x），1克朗CnP（B（i），x）−xB2002年，当维数n较小时，参数设置ki=1K（一）当θ= 0，k=n时，（3）中的子问题是等价的C{B（i）i=1即索引的所有可能组合问题（1）。向量从n中选择k项，其中（i）对于所有i，N k。（x）是问题1的最优性度量，在这个意义，（x<$）=0当且仅当x<$是block-k最优解。我们描述了分解方法的基本思想在每次迭代t中，索引1，2，.，n个决策变量被分成两个集合Bt和Nt，其中Bt是工作集，Nt=1，2，...，nB t. 为了简化符号，我们用B代替B t。因此，我们可以将问题（1）中的h（·）和g（·）重写为：h（xB， xN）=1 xT ABB xB +1 xT ANN xN +N xB，ABN xNN x，4. 查找工作集本节展示了如何找到工作集（参见算法1中的步骤S1）。这一问题具有挑战性，主要表现在两个方面。（i）与可以使用一阶最优条件或KKT原始-对偶残差[17，7]找到工作集的凸方法不同，没有找到非凸问题工作集的一般标准（ii）对于大小为k的工作集，有Ck种可能的选择组合。我们不能期望使用循环策略并交替地最小化所有可能的组合2B2Ng（x，x）=1xTCX+ 1xTCx+ 科克斯角x。C（即，{B}n）由于其高计算复杂度B N 2BBBB2NNNNB BN N(i)i=1当k很大时我们提出以下两项战略，向量xN是固定的，因此目标值变为变量xB的子问题。我们所提出的算法找到工作集：• 随机策略我们一致地选择一个组合-C迭代地解决小规模优化问题，（其中包含k个坐标）从{BK}n. 在前-关于变量xB，如（3）中所示，直到收敛。我们在算法1中总结我们的方法。算法1稀疏广义特征值问题的分解算法如（1）。1：指定工作集参数k和近端项参数θ。找到一个初始可行解x0，并设置t= 0。第二章：而不收敛第三章：（S1）使用某种策略找到一个工作集B其大小为k。定义N，1，2，...，nB.4：（S2）使用组合搜索用变量xB求解以下子问题(i)i=1pectation，我们的算法仍然保证找到块-k驻点交换策略我们将（x）和（x）分别表示为x的非零元素和零元素的索引。基于当前解xt，我们的方法通过将两个坐标从零/非零改变到非零/零来枚举导致最大下降D i，j的所有可能的对（i，j），其中i∈ S（xt），j∈（x），如下所示Di，j= minβf（xt+ βei− xtej）− f（xt）。（四）然后，我们通过测量D ∈ R来选择导致最大下降的顶部坐标对|S（x）|×|Z（x）|. 具体说明xt+1arg minh（xB，xt）+θ<$xB−xt <$2N我们对D中的元素按DP1，S1排序 ≤DP2，S2≤BxBg（xB，xt）（三）DP3、S3≤，...，DPn，Sn，其中P∈Nn和S∈Nn是S.T. xB5：（S3）将t递增1。6：结束while备注。(i)[40 ]中已经引入了块k最优性的概念。本文将他们的凸函数极小化方法推广到一般的非凸问题。索引向量。假设k是偶数，我们简单地分别选取序列P和S的顶部（k/2）个非重叠元素作为工作集。我们现在讨论如何求解（4）以获得Di，j。我们从下面的引理开始。引理1. 我们考虑以下一维优化问题：射函数（ii）算法1依赖于求解如（3）中的然而，使用目标函数的特定结构和β*= arg minβ1a<$β2+<$bβ+c<$1r（五）稀疏性约束，我们可以开发一个有效的和实用的算法来解决它的全局。（iii）我们提出了一个新的邻近策略，解决子问题时，在（3）。注意，邻近策略仅应用于数值而不是整个目标函数。这是假设βL<$，τ，1r<$β2+s<$β+t<$>0，最优解有界。我们有：（i）问题（5）admits一个封闭形式的解决方案：βf= arg minβf（β），β ∈1例如，流行的坑道具数据集[16，24]只包含13个维度。K6116Ky，，2r¯22J22J Jβ我211√关于我们−-∈J22情况1壳体2壳体3{（β1），（β2）}，其中β1=（−−2−2πι）/π，β2=（−+2−2πι）/π，π，a−，，a−c，i，问题（6）同样是NP-难的，因为组合约束条件为n≤q.受[40]工作的启发，我们t<$b+c<$s<$，和m ax（L<$，β）. （ii）问题（5）载有唯一的最优解开发穷举树/组合搜索算法来解决它具体而言，我们考虑解决以下问题-最优化问题：minz∈Rk p（z），s. t. zK=0，证据（ i）删除绑定约束并设置0=′（β）=（（a<$β+其中K具有qi=0C i坐标的可能选择。<$b）（1r<$β2+s<$β+t<$）−（1a<$β2+<$bβ+c<$）（r<$β+s<$））/τ2。注意-我们系统地枚举K的完整二叉树，获得z的所有可能的候选解，然后选择当τ >0时，我们得到如下的一阶最优控制：n的条件：0=（a<$β+<$b）（1r<$β2+s<$β+t<$）−（1a<$β2+<$bβ+将导致最低目标值的最佳值作为最优解。换句话说，我们需要解决2c）。可以简化为：0=21β2π+β 2π+1。二次分式规划问题解这个方程，我们有两个解β1和β2。我们选择一个在α（β1）和β（β2）之间，导致m，k − |K|变数：一个较低的目标值作为最优解。（二）可以y*= arg minu（y） 1yTQy+pTy+wL（），（7）2用矛盾来证明。我们忽略单侧界yq（y）1yTRy+cTy+v约束，因为它不影响最优解的唯一性假设存在两个最优解x和y到（1），导致相同的目标值。根据一阶和二阶最优条件，[10，42]，我们有：（a<$− r<$$>）x=−<$b+s<$$>，（a<$−r<$）y=−<$b+n <$s<$，（a<$− n <$r<$）>0，这导致以下的翼逆-其中y∈Rm。（6）的最优解可计算为zK =0，zK=y，其中K<$=1，2，...，KK. 因此，如果我们找到（7）的全局最优解，我们也求出（6（7）中的非凸问题仍然具有挑战性。为了解决这个问题，我们提出了两种方法，即二分法，措辞：s<$−<$b=xa<$r<$y=s<$−<$b。因此，（11）包含a<$r<$搜索方法和坐标下降方法，唯一的最优解请参见图1。图1：一维二次分式问题的几何解释。使用l'Hopital法则，我们有一个limβ→+∞（β）=limβ→−∞（β）=a<$。由于最优解是有界的，且问题最多包含两个临界点，因此我们只存在上述三种情况。显然，存在唯一的最优解。设v，xt−xte，我们得到：min f（v+βe）=独立的研究兴趣。5.1. 一种二分法本小节提出了一种寻找问题（7）的全局最优解的二分搜索方法。我们现在讨论这个分数规划问题和下面的参数规划问题[10]之间的关系：J（α）=0，其中J（α），minyu（y）−αq（y）这是一个关于 α 的可行性问题：（ α ） =u（y<$（α））αq（y<$（α））= 0，其中y<$（α）Rm定义为 y<$ （ α ）， argminyu （ y ）αq（y）。下面的定理为以下问题提供了一些理论上的启示：在（7）中的原始非凸问题最小β1（v+βei）TA（v+βei）. 通过应用引理1，其中L<$=TC（v+βei）2−∞，a<$=Ai，i，<$b=（Av）i，c<$=1vTAv，r<$=Ci，i，s<$=定理1. 我们有以下结果。(i)它能-证明了：λmin（Z）≤minyL（y）λmin（O），其中O，（Cv）i，t<$=1vTCv，我们得到全局最优解对于（4）.R−1/2QR−1/2，γ，2v− ε R−1/2c2>0，g，R−1/2p−R−1/2QR−1c，δ，cTR−1QR−1c−2cTR−1p+2w，以及5. 解决子问题.0g/kgZ，gT/γδ/γ. (ii)设O= Udiag（d）UT是算法1中的子问题（3）（参见算法1中的步骤S2）简化为以下二次分式特征值分解函数（α）可以是重写为61172B2N2B2N2一个编程问题：∗1zTQ<$z+p<$Tz+w<$2J（α）=2δ−2αγ−1 Σm2我i，其中a= UTdi−αg（8）z=argmin<$z<$0≤qp（z），1zTR<$z+c<$Tz+v<$、（6）并且在λmin（Z）≤α λmin（O）. 最优解可以计算为：其中z∈Rk，Q<$=ABB+θI，p<$=ABNxN−θxt，w<$=1xTANNxN+θxt2，R<$=CBB，c<$=CBNxN，，v<$=y=R−1/2（u−R−1/2c），其中u=−（O−αI）−1g而α是方程J（α）= 0的唯一根1xTCNNxN，q=s− N xN<$0。λmin（Z）≤ α <λmin（O）。611822J2∈J÷--2222222222221T T121T−1αγ证据（i）首先，不难注意到程序（7）等价于以下问题：注意足够小的机器精度参数。由于单调递减的性质，miny L（y）=mind= min1（R−1/2d）TQ（R−1/2d）+pT（R−1/2d）+w1（R−1/2d）TR（R−1/2d）+cT（R−1/2d）+v1dT Od+ dT（ R−1/2 p）+w（α），我们可以通过检查左边的符号在哪里变化来求解（8）。具体而言，我们认为以下几点-对于J（α），在α≤α≤α范围内有三种情况：2d12二分之一2d2+dT（R−c）+v（a）J（α）≥J（α）≥0，（b）0≥J（α）≥J（α），和（c）= min1dTOd+dT（R−1/2p）+wJ（α）≥0 ≥ J（α）。对于情况（a）和（b），我们可以直接2d+R−c2+v−2 <$R−c2分别返回α和α作为最优解我们现在= min1uTOu+uTg+1δ 、（9）考虑情况（c）。根据罗尔中值定理，2 2u1212-硫嘌呤2+2γ其中第一步使用变量替换y =R−1/2d;第三步使用变换u=d+R−1/2c。我们注意到，分母对于所有决策变量都是严格正的。在（9）中设u = 0，我们得到1γ>0。我们自然地得到minyL（y）的上界：1uTOu+δη1uTgη+δη2总是存在一个α[α，α]，（α）= 0。因此，在本发明中，我们可以定义并初始化下限lb=α，上界ub = α。然后，我们执行以下循环，直到找到最优解 αd=mid ，其中 J （ mid ） ≥0 ： {mid=（lb+ub）/2，如果（J（mid）>0）lb=mid;否则ub= mid;}。这样的二分方案保证在O（log2（（α −α）/ε））次迭代内找到ub ≤ lb + ε的最优解[6]。minyL（y）=minu，η=ηγ2γ2γ1μ2+1η2备注。据我们所知，这是第一个算法-1uTOu+δη1uTgη+δη2无约束二次分式规划≥min u，η2γ2γ1μ2+1η2全局最优保证[12]的工作也讨论了一个1 [uT|ηT]TZ [uT|ηT]二分搜索法的比例跟踪问题，但它= minu，η21212=λmin（Z），不能解决我们的一般二次分式规划2μ πι 2+2η其中，第一个不等式使用fact，对于所有f（·）和f∈ f（x），minxminx∈f（x）。f（x）≤问题.经典的Dinkelbach我们的结果是基于We n w deriv eminyL（y）的上界。以来目标函数J（α）总是有界的，则一定存在α，Q−αR<$0 ，使得 y的值最小化函数（ u （ y ） − αq（ y ））。因此，我们有 Q−αR<$0<$Q−αR1/2IR1/2<$0<$R−1/2QR−1/2−αI<$0<$α<λmin（O）。(ii)使用（9）的结果，我们可以将J（α）重写为：约束区域上相伴参数规划问题（ii）无约束分式二次规划可以用线性半定规划求解到最优性，它与二次约束二次规划的S-引理有关[29]。在本文中，我们表明，它可以解决使用二分法搜索方法。这种方法的优点是，J（α）=minu2uOu+ug+2δ−α. 121 Σ2-硫嘌呤2+2γ简单易行。此外，它是有效的，它不需要迭代的特征值分解=minu1uT（O−αI）u+uTg+1δ−αγ。求解关于u的二次优化，我们有u=−（O−αI）g。因此，我们可以将J（α）压缩为：J（α）=−g（O−αI）g+δ−。因为它能-如半定编程提升技术中（iii）矩阵O是Z的一个n×n主子矩阵。利用[ 13 ]中的定理4.3.17，始终保持λ1（Z） ≤λ1（ O） ≤λ2 （Z ）≤…… 。 ≤λn−1 （ Z）≤λn−1（O）≤ λn（Z），其中λ（X）表示X的特征值，证明gT（OαI）−1g=gTUTdiag（1（dα））Ug表示两个元素之间的元素划分向量，我们得到（8）。注意到一阶和J（α）相对于α的二阶梯度可以是der. 因此，α的界是紧的。5.2. 坐标下降法计算为：J′（α）= − 1（ai）2−，J（α）=mγ′′Σ m232idi−α2′本小节介绍了一个简单的坐标描述--i（ai/（di−α））且γ>0，则得到J（α）00. 我们有以下结果。L（x）i= .L（x），x >L-1;ˆ（x）是一个向量，(i) 当使用随机策略来寻找工作时，min（0，μ L（x）i），xi=L;在x处的梯度。注意，（x`）=0意味着x`是一阶稳定点。现在我们给出解（10）的坐标下降法的收敛性结果，它是[37]中定理4.1的推广。一些证据可以在附录中找到。1.提案当采用循环序策略时，保证了坐标下降法收敛于 P 问题（ 1 0 ）的一个坐标最小值，使得=argminα≥L<$L（y_i+αe_i）。备注。(i)坐标下降的收敛性t方法在每个最小化步骤中需要唯一解;否则，它可能无限期地循环。一个简单但有趣的例子是[30]。（10）中的非凸问题的一个好的特征是（11）中的其相关联的一维子问题仅包含一个唯一的最优解（参见引理1中的部分（ii））。这与[ 38 ]的工作不同，在[38]中，他们的一维子问题可能有多个最优解并导致发散。（ii）坐标下降法保证产生比全梯度投影法更强注意2这在稀疏非负PCA中很有用[2]。集合，我们有limt→∞E[xt+1xt] = 0，算法1按期望收敛到块k平稳点。(ii) 当使用交换策略来寻找具有k的工作集时，2，我们有limt→∞ xt+1Xt= 0并且算法1确定性地收敛到块2稳定点。备注。(i)由于分母是正的，目标函数是二次分式，所以即使在非凸的情况下，我们的算法仍然保证收敛。（ii）我们提出使用交换策略来找到工作集，该工作集枚举所有坐标对的所有可能的交换以找到最大下降。该策略的一个好的特点是它实现了最优性保证，这不比Beck和Vais-bourd的坐标最优性条件[ 5 ]差7. 实验本节通过考虑三个重要因素来证明所提出的分解算法的有效性。测试应用（即，稀疏PCA、稀疏FDA和稀疏C-CA）。• 数据集。（i）我们考虑四个真实世界的数据集：“a1a”"w1a“" w2a”和“madelon”我们随机选择一个y我6121×∈∈--× ×××联系我们−≤-0.5-1-1.50 12-0.2-0.4-0.6-0.83TRFDEC-B（R6S0）DEC-B（R10S0）DEC-B（R0S6）DEC-B（R0S10）DEC-B（R4S4）DEC-B（R6S6）1 2 340-0.1-0.2-0.30 123 4 5时间（s）(a) 稀疏PCA，时间（s）(b) 稀疏FDA，时间（s）(c) 稀疏CCA，-1-1.5-2-2.5TPMCWADEC-B（R6S0）DEC-B（R10S0）DEC-B（R0S6）DEC-B（R0S10）DEC-B（R4S4）DEC-1 2 3 4 56时间（s）-0.2-0.4-0.6-0.8-1-1.2TRFDEC-B（R6S0）DEC-B（R10S0）DEC-B（R0S6）DEC-B（R0S10）DEC-B（R4S4）DEC-B（R6S6）1 2 34时间（s）0-0.05-0.1-0.15-0.2TRFDEC-B（R6S0）DEC-B（R10S0）DEC-B（R0S6）DEC-B（R0S10）2 4 6时间（s）(d) 稀疏PCA，(e) 稀疏FDA，(f) 稀疏CCA，图1稀疏PCA（左列）、稀疏FDA（中列）和稀疏CCA（右列）的不同方法的收敛行为来自原始数据集的示例的子集3.实验中使用的数据集大小为2000 119，2000300、2000300、2000112、分别（ii）我们还使用与[5]中类似的方法来生成合成的高斯随机数据集。具体来说，我们生成特征矩阵 XRm×d 和标签向量 yRm 如下： X= randn（m，d），y= sign（randn（m，1）），其中randn（m，d）是一个函数，返回大小为m d的标准高斯随机矩阵，sign是一个正负号函数。我们固定m=300，并考虑d= 100，500，1500，2000的不同值。我们将数据集表示为基于X和y，我们为不同的应用生成问题（1）中的矩阵A和C（见第2节）。注意，稀疏广义特征值的结果大小稀疏PCA、稀疏FDA和稀疏CCA的问题分别为d、d和m。我们改变稀疏参数s四，八，十二，40并报告目标值，问题（1）.• 比较方法。我们比较以下几种方法。（一）截断功率法（TPM）[41]4相对地和极大地降低了目标，而主要是-通过硬阈值截断来保持解的期望稀疏性（ii）坐标智能算法（Coordinate-Wise Algorithm，CWA）[3，5]5迭代地执行关于两个坐标的优化步骤，其中需要改变的坐标（iii）截断瑞利流（TRF）[35]使用广义瑞利方程的梯度迭代更新解，并执行截断操作以实现稀疏性。（iv）二次优化方法（QMM）[32]6通过连续的代理函数近似N0-范数，并通过迭代优化代理函数。3https://www.csie.ntu.edu.tw/二次可分函数，它在每次迭代中归结为一个正则的广义特征值问题。使用不同的光滑非凸逼近函数，他们开发了不同版本的 QMM （QMM-exp ，QMM-log，QMM-QMP，QMM-QMM0）。由于他们的方法只解决了一个正则化的问题，并未能控制解决方案的稀疏性，我们使用一个简单的二分法搜索，以找到最佳的调节参数和报告的最低目标值后，硬阈值。（v）为了进行比较，还包括了建议的分解方法（表示为DEC）。我们使用DEC-B（Ri-Sj）和DEC-C（Ri-Sj）分别描述了我们的基于B分区搜索方法和坐标下降方法的方法，以及使用随机策略选择i坐标和使用S遍历策略选择j坐标。在每次迭代中，我们计算rt=（f（xt）f（xt+1））/f（xt）。我们让算法- m 1运行到T次迭代，并在迭代t

下载后可阅读完整内容，剩余1页未读，立即下载