没有合适的资源?快使用搜索试试~ 我知道了~
970用于疫苗不良事件检测的多实例域自适应0Junxiang Wang GeorgeMason University Fairfax,Virginia, United Statesjwang40@gmu.edu0Liang Zhao George MasonUniversity Fairfax, Virginia,United Stateslzhao9@gmu.edu0摘要:检测疫苗不良事件对于发现和改进有问题的疫苗至关重要。为了实现这一目标,传统的正式报告系统如VAERS支持准确但延迟的监测,而最近社交媒体已被用于及时但嘈杂的观察。利用这两个领域的互补优势来提高检测性能看起来很好,但由于它们的数据特征存在显著差异,包括:1)正式语言与非正式语言,2)每个用户的单条消息与每个用户的多条消息,以及3)单一类别与二进制类别,现有方法无法有效实现。在本文中,我们提出了一种名为多实例域自适应(MIDA)的新型通用框架,以在社交媒体用户的疫苗不良事件检测任务中最大化这两个领域之间的协同效应。具体而言,我们提出了一种广义最大均值差异(MMD)准则,用于测量这两个领域的异构消息在共享的潜在语义空间中的语义距离。然后,通过新提出的混合实例核将这些消息级别的广义MMD距离综合为用户级别的距离。最后,我们最小化这两个领域中部分匹配类别的样本之间的距离。为了解决非凸优化问题,我们开发了一种基于交替方向乘子法(ADMM)和凸凹过程(CCP)的高效算法来精确优化参数。广泛的实验证明,我们的模型在六个度量标准下优于基线。案例研究表明,MIDA提取的正式报告和与不良事件相关的推文具有关键词和描述模式的相似性。0关键词:多实例学习,迁移学习,不良事件检测0ACM参考格式:Junxiang Wang和LiangZhao。2018年。用于疫苗不良事件检测的多实例域自适应。在WWW2018:2018年Web会议上,2018年4月23日至27日,法国里昂。ACM,纽约,纽约,美国,10页。https://doi.org/10.1145/3178876.31860510允许个人或课堂使用者制作本作品的数字或硬拷贝,无需支付费用,但不得为了盈利或商业优势而制作或分发拷贝,并且拷贝必须带有本通知和第一页的完整引用。必须尊重本作品第三方组件的版权。对于其他用途,请联系所有者/作者。WWW2018,2018年4月23日至27日,法国里昂©2018版权由所有者/作者持有。ACM ISBN978-1-4503-5639-8/18/04.. https://doi.org/10.1145/3178876.318605101引言近几十年来,从社交媒体数据(如Twitter数据)中提取信息在医疗保健应用中取得了成功[19][14][28]。与现有的不良事件报告系统相比,社交媒体具有以下优势:(1)消息的及时性:与健康专家的有意识检查不同,后者可能需要几个月才能发布报告,关于疫苗不良事件症状描述的消息可以立即由便携式移动设备发布[40]。(2)传感器的普遍性:社交媒体可以从社交传感器中捕获到普遍的疾病信息,因为它们反映了公众的情绪和趋势,这可以用于检测疫苗不良事件。然而,社交媒体仍然面临两个挑战:1.高昂的标记工作:为了获得准确的标签,必须检查所有用户的所有消息。例如,假设一个用户平均有100条消息,标记1000个用户相当于检查10万条消息,这是无法手动完成的。2.类别不平衡:在实践中,其消息指示不良事件的正面用户的比例非常低。因此,分类器对负面用户有偏见,导致高假阴性率。因此,正式报告准确但及时性差,而社交媒体及时但更不平衡且需要更多的劳动力来标记。为了克服各自的缺点,我们创新地提出了整合它们互补优势的方法。然而,这两个领域的整合受到它们特征之间的几个显著差异的严重挑战:1.正式语言与非正式语言。一般来说,正式报告和社交媒体中的词语使用完全不同:健康专家或医生倾向于在正式报告中使用正式词语或术语,而社交媒体消息中常见的是非正式词语。表1给出了正式报告和推文的两个示例,关键词以粗体显示。正式报告中经常使用医学术语,如“腮腺”、“腺体”和“不适”,而社交媒体用户倾向于使用“该死”和“哎呀”等非正式词语。即使一些在正式报告和社交媒体消息中都常用的关键词,如“头痛”和“疼痛”,在词频上也存在差异。2.单一文本与多条消息。正式报告和社交媒体在结构上也存在差异:每个报告者通常只写一份报告,而每个社交媒体用户可以发布成千上万的帖子。表1中显示的第一个Twitter示例表明,该用户有多个推文,而每个症状文本只属于一个正式报告。3.二进制类别与单一类别。通常,社交媒体用户由少量正面用户和大多数负面用户组成,而正式报告只属于正面类别。正如所示的0跟踪:2018年4月23日至27日,法国里昂的Web健康Table 1, the first and the second Twitter user belong to the negativeand the positive class, respectively.In order to simultaneously deal with these challenges, we pro-pose a novel Multi-instance Domain Adaptation (MIDA) frameworkfor vaccine adverse event detection by maximizing the synergy offormal reporting systems and social media data such as Twitter data.Specifically, given commonly used keywords both in formal reportsand social media messages (e.g., tweets), a generalized MMD-based[24] criterion is proposed to measure the difference between theheterogeneous messages from these two domains. These message-level distances are then synthesized to user-level by a novel mixedinstance kernels induced by a max rule. Finally, a partial class-matching strategy is leveraged to optimize the seamless integrationof the two domains with different number of classes for accurateadverse event detection. The parameter optimization of MIDA is anonconvex problem, an Alternating Direction Method of Multipliers(ADMM) [4] based algorithm combined with the Convex-ConcaveProcedure [21] has been developed to optimize variables in a dis-tributive manner. One real vaccine adverse event detection datasetdemonstrated that the MIDA outperformed all the baselines.The main contributions of our research are summarized asfollows:• Design a generic framework MIDA for cross-domainadverse event detection. The adverse event detectiontechniques from formal reporting systems and social me-dia mining focus on different but complementary aspects.Since their advantages complement with each other, MIDAis proposed to integrate the strengths of them to achievea synergy.• Propose new models for multi-instance domain adap-tation. To model the word frequency differences betweenformal reports and social media data such as tweets, wepropose a generalized MMD-based criterion and new ker-nels induced by the max rule in the multi-instance learningsetting.• Develop an efficient nonconvex optimization algo-rithm. The optimization problem is non-convex due tothe introduction of the generalized MMD. An effectiveapproach based on ADMM is developed to optimize it,where the non-convex subproblem is efficiently solved bysufficiently exploring its convex-concave property usingCCP [21], which ensures local convergence.• Conduct extensive experiments for performance eval-uations. The results on the real-world adverse event datasetdemonstrate that MIDA consistently dominated the per-formance. Sensitivity analysis and scalability analysis on980表1:两个正式报告和推文示例,分别为:(+)表示正式报告或推文,(-)表示负面推文。关键词以粗体显示。0正式报告推文0患者开始感到瘙痒感觉。(+)01. 下午1点到5点在市政厅接种流感疫苗。(-)2. 只需12美元就能接种流感疫苗。(-)0肿胀的腮腺,发烧,头痛,不适感。(+)01.哎呀!我的手臂好痛!该死的流感疫苗!(+)0几个因素进行了彻底讨论。案例研究表明,MIDA提取的正式报告和提取的与不良事件相关的推文在关键词和描述模式上具有相似性。0本文的其余部分组织如下。第2节总结了与本文相关的最新研究工作。第3节介绍了问题的形式化。第4节提出了新颖的MIDA框架。第5节开发了一种有效的基于ADMM的优化算法。第6节进行了广泛的实验,以验证我们模型的有效性。第7节通过总结整篇论文来结束。02 相关工作0本节介绍了几个研究领域的相关工作。多实例学习。多实例学习是传统机器学习方法的一种变体,其中数据点被表示为多个实例的集合。多实例分类器分为实例级别和包级别[1]。实例级别分类器对每个实例进行评分,而不考虑整个包的特征。例如,海滩和非海滩的图像分类是根据它们的视觉内容确定的[1];Kumar和Raj基于一系列音频录音检测音频事件[18]。包级别比实例级别更常见。例如,Dietterich等人评估一种药物是否有效,取决于其与靶结合位点的结合情况[1][8]。Andrews等人在他们的支持向量机(SVM)设置中提出了实例级别和包级别的公式化作为最大间隔问题[2]。Zhou等人开发了两种用于区分包标签的方法,利用了图论[41]。然而,据我们所知,很少有工作将多实例学习框架应用于社交媒体应用。迁移学习。迁移学习的思想在于通过从源领域的知识转移来学习目标领域中的对象[27][36]。通常,迁移学习方法被归类为同质或异质。在同质模型中,源和目标共享相同的领域空间,但概率分布完全不同[36]。例如,DaumeIII通过特征增强提出了一种简单的领域自适应方法[7]。Pan等人将领域特定词汇与领域无关词汇对齐到统一的聚类中,用于情感分析[26]。Chattopadhyay等人提出了一种新颖的框架,通过最小化多个主题之间的条件概率分布差异[5]。对于异质模型,源和目标由不同的特征空间表示。例如,Duan等人将源空间和目标空间投影到一个公共子空间,然后提出了两个映射函数来增强特征[10]。Kulis等人通过非线性变换将对象模型从源传递到目标[17]。Zhu等人通过矩阵分解方法从注释的源图像中提取的语义概念丰富了目标图像的表示[42]。大多数迁移学习工作都集中在单个实例上,只有几篇论文考虑了在多实例学习环境中的迁移学习:Zhang和Si提出了一种新方法,其中目标分类器是多个源分类器的线性组合[39];Wang等人将跨类别的知识转移以提升目标学习任务的能力,0Track: Health on the Web WWW 2018, 2018年4月23日至27日,法国里昂990表2:重要符号和描述0符号 描述0X u 用户 u 的输入矩阵 Y u 用户 u 的预定义标签 K共同的关键词集合 U 用户集合 R 正式报告集合 β关键词集合的系数向量 c正式报告和Twitter数据的折叠 n u 用户 u 的推文数量U p 正面用户集合 I(u) 用户 u 的索引集合0并且提出了一种数据相关的混合模型,将弱分类器与多个源分类器相结合[33];Wang等人通过域转移字典将目标多实例包映射到包级特征空间,然后应用线性自适应函数到包级特征向量[32]。然而,它们都没有关注两个域之间的距离最小化。不良事件监测和检测。最近,社交媒体上的医疗话题开始引起研究人员的广泛关注。流感监测是一个重要的应用。例如,Lee等人通过对Twitter数据的实时分析检测季节性流感[15];Chen等人根据流感爆发期间用户的推文推断用户的隐藏状态,并按地理区域聚合状态统计[6]。Signorini等人追踪H1N1流感并测量流感活动[30],而Lampos等人利用Twitter微博服务追踪英国的类流感疾病[20]。药物相关的不良事件检测是另一个热门应用。例如,Metke等人讨论了文本处理步骤对药物不良事件检测性能的影响[25]。Yomtov和Gabrilovich汇总了互联网用户的搜索日志,提取与药物相关的不良反应[37]。然而,很少有研究讨论在社交媒体上应用疫苗不良事件检测。03 问题设置在本节中,本研究所讨论的问题在正式报告作为源域,Twitter消息作为目标域中进行了形式化。第3.1节定义了疫苗不良事件检测问题;第3.2节讨论了问题的挑战。03.1 问题定义本文所讨论的问题定义在本节中给出。表2显示了重要的符号和描述。正式报告和Twitter消息分别被视为源域和目标域。K表示一个共同的关键词集,表示两个域中疫苗不良事件的症状描述,R表示正式报告集合。第 i 个正式报告 R i 的第 j 个条目,表示为 R i,j,是第 i 个正式报告 R i 中第 j 个关键词的计数。r是正式报告的数量。推文集合表示为 D = {D u} u ∈U,其中用户集合表示为 U,矩阵 D u ∈ Z n u × |K| 表示用户 u的推文。n u 是用户 u 的推文数量。D u, i 表示用户 u 的第 i条推文。D u, i, j 表示 D u, i 的第 j 个条目,是0图1:框架概述:将Twitter数据与正式报告结合起来检测疫苗不良事件。0第 i 条推文中第 j 个关键词在用户 u 中的计数。用户集合表示为U。Y R = 1 表示由正式报告指示的健康状态,属于正类。Y u ∈ {0,1} 表示用户 u 的健康状态,Y u = 1 表示用户 u被视为正面用户(即该用户遭受疫苗不良事件),而 Y u = 0表示用户 u 为负面用户(即该用户接种安全疫苗)。Y = {Y u} u ∈U 表示所有用户的健康状态。用户 u 的输入矩阵定义为 X u = [1 n u× 1, D u],其中 1 n u × 1 是全一向量。X u 的维度为 n u × (|K| +1)。X u, i 表示 X u 的第 i 行。X = {X u} u ∈ U表示所有用户的输入矩阵。因此,疫苗不良事件检测问题可以如下形式化:问题定义:给定输入矩阵 X = {X u} u ∈ U 和正式报告R,问题的目标是通过学习映射 f 来检测用户 u ∈ U 的健康状态:0f:{Xu,1,Xu,2,∙∙∙,Xu,nu|R}→Yu(1)03.2挑战0为了解决疫苗不良事件检测问题(1),我们仍然需要解决几个挑战。1)分布差异。正式报告集R和推文集D共享相同的关键词空间,但它们在语言形式和词频上有所不同。2)结构差异。根据问题的表述,第i个正式报告Ri由一个向量编码,而推文集Du由nu个向量表示。不同的结构使得距离测量非常困难。3)类模式不一致。所有正式报告都有预定义的标签YR = 1,而Twitter用户u的标签为Yu,其中Yu={0,1}有两种可能性。因此,在下一节中,提出了一种新颖的多实例迁移学习模型,以依次解决这些问题。04多实例领域适应(MIDA)模型0在本节中,我们开发了新颖的MIDA模型。具体来说,讨论了一个简单但有效的max规则和多实例分类器(Section 4.1);Section4.2用于最小化正式报告和推文之间的距离;Section4.3给出了我们模型的完整框架,讨论了几个计算问题,并展示了我们模型与几种先前方法之间的关系。0Track: Health on the Web WWW 2018,2018年4月23日至27日,法国里昂min Dist2(R,Up; β) = min ∥ϕ(R)/r − ϕ(Up)/np ∥2Hmin ∥ϕ(R)/r − ϕ(Up)/np ∥2H= minϕ(R)T ϕ(R)/r2 − 2ϕ(R)T ϕ(Up)/(r × np) + ϕ(Up)T ϕ(Up)/n2p= minKer(R,R)/r2−2Ker(R,Up;β)/(r ×np)+Ker(Up,Up;β)/n2p(4)Track: Health on the WebWWW 2018, April 23-27, 2018, Lyon, France10004.1 Max规则和多实例分类器0我们首先建立社交媒体用户到其发布内容(例如推文)的映射。根据每个用户的所有推文,如果至少有一个推文是正向的,则将该用户标记为正向。否则,该用户被分类为负向。假设pu,i表示用户u的第i个推文是疫苗不良事件的指示(即正向)的概率。根据上述直觉,计算用户本身为正向的概率pu,通过以下max规则计算:0pu = max i = 1,∙∙∙,nupu,i(2)0如图1所示,正向用户由至少一个正向推文组成,用红色圆圈和绿色三角形表示。max规则将图1右侧第一个Twitter用户分配为正标签。max规则导致了从用户到推文的非对称性,因为正向用户仅涉及指示不良事件的推文。我们选择逻辑回归分类器,因为它具有概率输出。假设β是一个系数向量,其中第i个元素βi表示来自关键词集K的第i个关键词的权重,那么pu,i由以下方程表示。0pu,i = loдit(Xu,i,β)0其中,loдit(•)是一个logit函数。由于我们的最终目标是在Twitter领域学习模型,我们采用经验风险最小化原则[31]和用户u的对数损失函数Lossu(β),如下所示的方程。0Lossu(β)= -Yu log(pu)-(1-Yu)log(1-pu)(3)04.2 异构领域适应0为了实现正式报告和社交媒体知识的无缝集成,需要考虑和解决这两个领域之间的异构性。如图1所示,它们的异构性来自三个方面:1)正式报告和社交媒体消息具有不同的语言形式,用圆圈和方块表示;2)正式报告只有正样本;3)每个社交媒体用户有多个实例(即推文),而每个报告者只有一个实例(即正式报告)。为了克服前两个方面,我们提出了一种新颖的潜空间边际距离测量,为了克服第三个方面,我们提出了混合实例核。详细内容如下。1.潜空间边际距离测量。如图1所示,正向Twitter用户离记者越近,决策边界越清晰。假设Up表示正向Twitter用户集,我们的目标是最小化正式报告和正向用户的推文之间的距离Dist2(R,Up;β)。然而,现有的距离测量方法,如著名的非参数准则最大均值差异(MMD)[9,22,24],无法处理我们的问题(即我们提到的异构性的前两个方面),因为它不适用于具有不同类别数和多个实例的两个领域。因此,提出了一种广义的基于MMD的测量方法,该方法在再生核希尔伯特空间(RKHS)H中比较源域和目标域中仅正样本的距离。0图2:混合实例核函数的动机:Ker ( R , U p ; β),用黑色双头箭头表示,由正式报告和正面推文之间的相似性编码;Ker ( U p , U p ; β),用蓝色双头箭头表示,由两个正面推文之间的相似性编码。0其中 n p = | U p | 表示正面用户的数量,ϕ (•) : R ∪ U p → H是一个特征映射。假设 Ker (• , •) 是由 ϕ (•) 引起的核函数,使得 ϕ (x ) T ϕ ( y ) = Ker ( x , y ),广义最大均值差异可以转化为0其中 Ker ( R , R )、Ker ( R , U p ; β ) 和 Ker ( U p , U p ; β )分别表示 R 内部的核函数、R 和 U p 之间的核函数以及 U p内部的核函数。考虑 Ker ( R , R ) 为常数,Ker ( R , U p ; β ) 和 Ker( R , U p ; β ) 为依赖于 β的相似度测量,它们将在后面的部分中定义,方程 (4)表明最小化广义最大均值差异等价于在 Twitter领域内相似度最小化的代价上对跨域相似度最大化 Ker ( R , U p ; β) 进行双重加权。2.混合实例核函数。测量用户和记者之间的上述距离(即包和实例之间的距离)需要对它们的消息(即实例)进行表征,因为用户/记者的极性取决于其消息的极性。从数学上讲,我们需要确定方程 (4)中的核函数 Ker ( R , U p ; β ) 和 Ker ( U p , U p ; β)。如图1所示,Twitter用户的极性由她的所有推文(即多实例情况)共同决定,而记者的极性由她唯一的正式报告(即单实例情况)决定。然而,没有核函数来处理这种多实例和单实例输入的混合。这激发了我们提出新颖的混合实例核函数的动机:如图2所示,由黑色双头箭头表示的核函数 Ker (R , U p ; β )是由正式报告和正面推文之间的相似性编码的,该相似性由方程 (2)中定义的最大规则确定;由蓝色双头箭头表示的核函数 Ker ( U p , Up ; β ) 是由两个正面推文之间的相似性编码的,该相似性也由方程(2) 中定义的最大规则确定。因此,核函数 Ker ( R , U p ; β ) 和 Ker( U p , U p ; β )将用户级别(即包级别)的相似度测量映射到消息级别(即实例级别)的相似度测量。图2中的符号表示如下。Ker(R,Up; β) =Ker(Up,Up;β)=u ∈Upri=1 ∥Du,I(u)−Ri ∥22/(r × np)u1∈Upu2∈Up1, ( 1) − Du2,I(u2)∥2/(n2p)(7)2β∗ =arg minβ,wi�u ∈U Lossu(β)+λ1∥β∥1+λ2m�i=1wiDist2(Fi,Up; β)s.t.m=1 wi = 1,wi ⩾ 0 i = 1,,mβ∗ =arg minβu U Lossu(β) +λ1∥β∥1β∗ = arg minβu U Lossu(β) + λ1∥β∥1 + λ2Dist2(R,Up; β)β∗ =arg minβu ∈U Lossu(β) +λ1∥β∥1Algorithm 1 the MIDA AlgorithmRequire: X , Y , λ1, λ2.Ensure: β1: Initialize β, S, ρ, r = 0, s = 0, k = 0.2: repeat3:Update the index set I(u).4:Update ρk+1 if necessary.5:Update Sk+1 by Equation (10).6:Update βk+1 by Equation (11).7:hk+1 ← hk + ρk+1(Sk+1 − X βk+1).8:r k+1 ← ∥Sk+1 − X βk+1 ∥2. #Calculate primal residual.9:sk+1 ← ∥ρk+1X(βk − βk+1)∥2. #Calculate dual residual.10:k ← k + 1.11: until certain convergence condition is satisfied.12: Output β.5OPTIMIZATIONThe Equation (8) is a non-convex and non-smooth which isvery difficult to be solved by traditional optimization methods. Inmost recent years, ever more work utilizes ADMM to solve non-convex and non-smooth problem effectively and efficiently [13, 34].Here in order to solve Equation (8), we propose a new ADMM-basedalgorithm. To simplify the algorithm, we introduce an auxiliaryvariable S and reformulate the problem to its equivalence as follows:β∗ = arg minβ�u ∈U (log(1 + exp(Su,I(u))) − YuSu,I(u)) + λ1∥β∥1−λ2�u1∈Up�u2∈Up�|K |j=1(Du1,I(u1),j −Du2,I(u2),j)2βj+12/(n2p)+ 2λ2�ri=1�u ∈Up�|K |j=1(Ri,j − Du,I(u),j)2β2j+1/(r × np)(9)s.t. Su,i = Xu,iβTrack: Health on the WebWWW 2018, April 23-27, 2018, Lyon, France1010u ∈ U p0u 1 ∈ U p0min Dist 2 ( R , U p ; β ) = min 2�0其中引入了一个辅助性的索引集合 I ( u ) = arg max i p u , i,它记录了通过最大规则选择的推文的索引。为了降低模型的复杂度,我们引入了三角核函数 Ker ( x , y ) = −∥ x − y ∥ 2 2 [ 11]。将方程 (5) 和 (6) 整合到方程 (4) 中,我们有0� r0其中加权距离度量 ∥ • ∥ 定义为 ∥ x ∥ 2 2 = � | K | i = 1 x 2 i β 2i + 1 ,其中 β 2 i + 1 ( i = 1 , ∙ ∙ ∙ , | K |) 表示第 i个关键词的权重。04.3总体模型上述新距离测量和核方法的考虑导致了一种新的边缘领域适应框架,该框架同时最小化了经验误差和两个异构领域之间的差异:0其中 L ( β ) = � u ∈ U Loss u ( β ) + λ 1 ∥ β ∥ 1 ,其中 λ 1 >0 是 ℓ 1 正则化的参数,由于特征集的高稀疏性,而 λ 2 > 0是调整 L ( β ) 和 Dist 2 ( R , U p ; β ) 之间权重的参数。Loss u ( β) 和 Dist 2 ( R , U p ; β ) 分别由方程 (3) 和 (7) 给出。04.3.1计算问题。初始实例修剪。真实Twitter数据集中的许多正面用户有很多推文,但大多数与不良事件无关,从而增加了问题的复杂性。此外,它们与负面用户的推文相似。因此,有必要将它们作为预处理步骤修剪掉。一种常见的方法是构建核密度估计器(KDE)来建模负面用户的推文分布[29][12]。另一种方法是使用与事件无关的推文构建一个单类分类器,如OSVM[16]。数据拆分。另一个考虑因素是随着正式报告和Twitter数据的快速增长,广义MMD的巨大计算负担。一种直观但有效的方法是拆分正式报告和Twitter数据。假设 R = ∪ c i = 1 R i 和 U p = ∪ c i= 1 U ip 被分成 c 个分区,其中 c 是分区的数量,那么 Ker ( R ,U p ; β ) = � c i = 1 Ker ( R i , U i p ; β ) 和 Ker ( U p , U p ; β )= � c i = 1 Ker ( U i p , U i p ; β ) 。04.3.2模型泛化。我们的模型可以进一步泛化为多源领域,泛化的新颖之处在于加权MMD方案。假设有 m个源正式报告数据,每个数据表示为 F i ( i = 1 , ∙ ∙ ∙ , m ) ,则MIDA模型为0表示为:0其中 w i ( i = 1 , ∙ ∙ ∙ , m ) 是第 i个正式报告数据源的广义MMD权重。04.3.3与先前相关方法的关系。在本小节中,我们将展示几种经典方法是我们模型的特例。1. 逻辑回归的泛化。令 n u = 1 对于 u ∈ U 和R = � 。那么该模型简化为带有 ℓ 1 -范数正则化的逻辑回归 [4]。02. 逻辑回归与迁移学习的泛化。令 n u = 1 对于 u ∈ U。该模型则简化为逻辑回归与迁移学习 [9]。03. 逻辑回归与多实例学习的泛化。令 R = �。那么该模型简化为逻辑回归与多实例学习 [ 1 ]。The augmented Lagrangian function of Equation (9) is:Lρ(S, β,h) =�u ∈U (log(1 + exp(Su,I(u))) − YuSu,I(u)) + λ1∥β∥1−λ2�u1∈Up�u2∈Up�|K |j=1(Du1,I(u1),j −Du2,I(u2),j)2β2j+1/(n2p)+ 2λ2�ri=1�u ∈Up�|K |j=1(Ri,j − Du,I(u),j)2β2j+1/(r × np)+ ρ/2∥Su,i − Xu,iβ + hu,i ∥22where ρ > 0 is a penalty parameter. The MIDA algorithm is shownin Algorithm 1. Concretely, Lines 8- 9 calculate residuals and Lines4-7 update each parameter alternately by solving the sub-problemsdescribed below.Update Sk+1The auxiliary variable S is updated as follows:Sk+1 ← arg minS�u ∈U (loд(1 + exp(Su,I(u))) − YuSu,I(u))+ (ρk+1/2)∥S − Xβk + hk ∥22(10)This subproblem is a logistic regression with an ℓ2 penalty term.A fast iterative shrinkage-thresholding algorithm (FISTA) [3] isapplied to solve this problem because the log loss is differentiableso that each iteration has a close-form solution.Update βk+1The decision variable β is updated as follows:βk+1 ← arg minβ λ1∥β∥1 + ρk+1/2∥Sk+1 − Xβ + hk ∥22−λ2�u1∈Up�u2∈Up�|K |j=1(Du1,I(u1),j −Du2,I(u2),j)2β2j+1/(n2p)+ 2λ2ri=1u ∈Up|K |j=1(Ri,j −Du,I(u),j)2βj+12/(r ×np). (11)l(β) = λ1∥β∥1 + ρk+1/2∥Sk+1 − Xβ + hk ∥22+ 2λ2�ri=1�u ∈Up�|K |j=1(Ri,j − Du,I(u),j)2β2j /(r × np)m(β) = λ2u1∈Upu2∈Up|K |j=1(Du1,I(u1),j −Du2,I(u2),j)2β2j+1/(n2p).βk+1 = arg minβ l(β) − m(β)βq+1 = arg minβ l(β) − ˜m(β)(12)1https://dev.Twitter.com/overview/terms/agreement-and-policy2https://vaers.hhs.gov/data/datasets.html?1020尽管这个子问题是非凸的,但可以通过凸凹过程(CCP)来解决,从而确保局部收敛[21]。我们进一步分割这个目标函数,0然后优化目标变为:0更新 β 的算法如算法2所示。CCP的关键思想是通过线性化函数 ˜m ( β ) 使凹函数 m ( β ) 凸化。现在可以再次通过FISTA[3]来解决以下问题。0应该考虑两个重要问题:一是选择适当的 ρ 和 λ 2。为了保证局部最优解的存在,可以将 ρ 和 λ 2 之间的关系设置为 ρ � 10 λ 2 ,经验上确定。否则,CCP将使 β趋向无穷大。另一个问题是 β的初始值,它影响收敛性和性能。建议从经过训练的逻辑回归分类器的系数中选择 β 的初始点。0算法2 β -更新算法0要求: S , X , λ 1 , λ 2 , ρ 。确保: β 1:初始化 β , q =0 . 2:重复执行 3:通过线性化函数 ˜ m ( β ) ← m ( β q ) + �m ( β q )( β − β q ) ,将凹函数 m ( β ) 凸化。4:通过求解方程(12)更新 β q + 1 。 5:q ← q + 1 .6:直到满足某个收敛准则为止。 7:输出 β 。0在本节中,我们使用一个真实的不良事件检测数据集来评估MIDA,证明了MIDA相对于现有方法的有效性和出色性能。还对几个因素的影响进行了敏感性分
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功