特征和实例联合选择：强化学习解决方案以及实验证明的改进性能.

119 浏览量更新于2024-02-04 收藏 637KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文--特征和实例联合选择：强化学习视角范伟1，刘鲲鹏1，刘浩2，朱恒树3，熊辉4 和Yanjie Fu11中佛罗里达大学，2香港科技大学3百度人才情报中心、4罗格斯大学Weifan，knights.ucf.edu，liuh@ust.hk，zhuhengshu@gmail.com，hxiong@rutgers.edu，yanjie. ucf.edu摘要特征选择和实例选择是数据处理的两项重要技术。然而，这种选择大多是单独研究的，而现有的工作对联合选择进行特征/实例选择粗糙，从而忽略了潜在的细粒度的特征空间和实例空间之间的相互作用。为了应对这一挑战，我们提出了一种强化学习解决方案来完成联合选择任务，并同时捕获每个特征和每个实例的选择之间的交互。特别地，设计了一种顺序扫描机制作为Agent的行动策略，并利用协作环境的变化来增强Agent的协作。此外，一个交互式的范式引入先验选择知识，以帮助代理更有效的探索。最后，在真实数据集上的大量实验证明了改进的性能。1介绍数据预处理是使输入数据最适合模型训练。通常，两种众所周知的预处理技术是特征选择[Liu和Motoda，2012]和实例选择[Brighton和Mellish，2002]。特征选择是选择最重要的特征以提高预测性能（例如，精确度）和减小特征尺寸。实例选择的目标与此相似，即同时提高建模精度和减少实例规模。在以往的文献中，特征选择和实例选择通常被视为两个独立的问题。有限的算法已被提出的联合选择。联合特征和实例选择最初使用遗传算法解决[Kuncheva和Jain，1999]。然后，一些研究通过主成分分析[Suganthi和Karunakaran，2019]或成对相似性的应用[Benabdeslemet al. ，2020]。其他人尝试应用启发式搜索并采用模拟退火算法[DeSouza et al. ，2008]或顺序向前搜索[Garc 'ıa-Pedrajaset al. ，2021]。事实上，每个特征通讯作者各实例之间相互影响，共同决定最终的选择结果。然而，以往的联合选择方法大多对特征/实例进行粗选择，忽略了特征空间和实例空间之间的细粒度交互，这在很大程度上阻碍了对所选数据的预测性能。强化学习（RL）作为一种有效的工具，具有很大的潜力来学习搜索问题的最佳结果，如这样的选择[Liuetal. ，2019]。特别是，不同的代理（i）单独采取行动，一步一步，这是适当的模型每个细粒度的选择选择;（ii）相互交互，可以捕捉特征空间和实例空间之间的相互作用;（iii）联合目标的最佳决策，可以被视为联合选择任务的选定数据为此，我们首次尝试利用强化学习来解决联合特征实例选择问题。为了实现这一目标，出现了若干挑战。首先，如何用强化学习来制定联合特征实例选择任务？特征/实例选择通常重复两个步骤：选择子集并测试性能。如果从RL的角度来看，这个探索过程是一个代理首先选择功能/实例，然后观察所选择的数据，以获得奖励。考虑到这两个选择，我们自然地用双智能体强化学习范式重新制定了联合选择。具体来说，我们创建了两个RL代理：1）一个功能代理的目的是选择最佳的特征子集; 2）一个实例代理的目的是选择最佳的实例子集。这两个智能体感知选择的特征和实例作为环境的状态，收集数据特征作为奖励，并相互交互以搜索最佳选择结果。第二，如何使两个智能体同时合作进行联合选择？一方面，如果特征或实例代理选择子每次设置时，代理需要在n个特征/实例上进行n个二进制选择。这导致动作空间随着特征/实例的数量呈指数增加（2n因此，我们提出了一个顺序扫描机制的动作设计的代理。具体来说，我们组织的选择决定的功能作为一个序列，让功能代理迭代扫描这个序列（去）选择一个功能，每一次。实例代理采用相同的扫描策略。这种机制大大减少了行动arXiv：2205.07867v1 [cs.LG] 2022年5月+v：mala2277获取更多论文⊆⊆--i=1J j=1其中，第i个操作ai= 1或ai= 0表示选择或空间从指数（2n）到二元选择，并将选择转换为一个顺序决策过程，这适用于RL。另一方面，下游模型的性能高度依赖于特征和实例的联合质量。为了实现联合选择的全局最优，两个智能体需要协作学习特征和实例的相互影响。因此，我们开发了一个合作的变化环境的代理。我们把环境看作是选定的数据子矩阵，其中的列（特征）和行（实例）被双重代理的动作同时改变。这种共享的环境捕获两个代理的动作，并在两个维度上共同感知数据质量。第三，两个智能体如何学习先验知识以提高学习效率？交互式RL [Amiret al. ，2016年]通过从人类专家或先验知识中学习，在加速Agent探索方面显示出了优越性。在这方面，我们利用两个外部训练器分别通过交互式强化学习来教导两个Agent：我们引入1）一个随机的基于特征重要性的训练器来教导特征Agent选择特征。2)基于隔离森林的训练器，用于识别实例异常，以教导实例代理如何过滤掉实例。在两个训练器的指导下，两个智能体可以更有效地学习发现和选择质量特征和实例的模式。总之，我们提出了一个双智能体交互式强化学习框架来模拟联合特征和实例选择的交互我们的贡献是：（i）我们用双智能体强化学习来制定联合选择任务;（ii）我们提出了顺序扫描机制和协作变化环境来实现同时和交互式选择;（iii）我们利用交互式强化学习来提高学习效率;（iv）我们进行了广泛的实验来证明我们改进的性能。2背景概念2.1双智能体强化学习是多智能体强化学习的一个双代理强化学习有两个代理协作完成两个不同的任务。例如，它已被应用于交互式生成-或离群值，并找到与下游预测任务的C具有相同性能的实例子集CC[Wilson和Martinez，2000]。定义2.5联合特征和实例选择任务是同时找到最优特征子集F和最优实例子集C，以便在下游预测任务中实现最佳性能。3方法针对上述问题，提出了一种双Agent交互式强化选择（Dual-Agent Interactive Reinforced Selection，DAIRS）框架，对联合特征和实例选择任务进行建模，并将先验选择知识引入到Agent中进行交互式强化学习。3.1DAIRS作为一个基于强化学习的框架，DAIRS框架由双重代理、动作、状态、奖励和训练器组成具体地说，双重代理。这两个代理是：特征代理，其对特征-特征相关性进行建模以选择优化的特征子集;实例代理，其对实例-实例相关性进行建模以选择优化的实例子集。然而，特征或实例选择的局部最优因此，这两个代理需要战略合作，并在特征和实例选择之间传递知识。行动双重代理的行动设计是至关重要的，因为我们需要考虑：（i）行动空间，决定计算的复杂性和学习效率的代理(ii)特征空间和实例空间之间的细粒度交互这两个考虑因素使得不可能直接应用经典的多智能体强化选择[Liuetal. ，2019]来连接特征和实例选择。为了应对这一挑战，我们开发了一种带重启机制的顺序扫描（图1）。具体地说，特征代理的动作：顺序扫描所有m个特征，然后在步骤上重新开始扫描特征，其中每个步骤将选择或删除一个特征。让我们在计算机用F={ai}m表示特征动作记录，其中vision [Guoet al. ，2018]。第i个操作ai= 1或aii=1= 0表示选择或取消选择概念2.2交互式强化学习是为代理提供来自教师般的培训师的行动建议，以便代理在早期探索中更有效地学习最佳决策[Amiret al. ，2016]。定义2.3特征选择。给定输入数据矩阵X∈Rn<$m，n和m表示实例的数目，第i个特征。由于特征代理将重新开始m个特征的顺序扫描，因此在步骤t，特征代理决定选择或重新选择 t（modm）。实例代理的动作：依次扫描所有n个实例，然后按步骤重新开始扫描实例，其中每一步将选择或删除一个实例。特征分别;xij是第i行中的元素，j-让我们将实例动作记录表示为aI={ai}n，th列。我们表示输入特征F={f}m，其中i=1第j个特征表示为fj=x1j，x2j，.， xnj. 特征选择的目的是选择一个最优子集FF，使下游预测模型表现良好。定义2.4实例选择。如上所述，对于数据矩阵X，所有实例都表示为C=其中第i个实例ci={xi1，xi2，.，x im}。Tra-将实例ci.在步骤t，实例代理决定选择或删除实例ct（modn）。顺序扫描策略允许同时选择或取消选择功能和实例。双重交互将协调两个代理的扫描动作，以生成一个全局优化的数据子空间，同时，实例选择研究旨在去除数据噪声姿态和特征。+v：mala2277获取更多论文选择扫描功能代理选择扫描样品1样品2样品3样品4…………实例代理样本N…好吧（四）⊗K−←−我我我样品1特征样品2however，代理商动作德什特图1：双代理的动作与顺序扫描。代理迭代地扫描每个特征或每个实例，以使例如样品4代理商动作样本N状态向量选择/删除决定。环境状况而不是分别为功能创建两个环境图2：协作改变环境的状态，与特性代理和实例代理的动作协调。其中kt表示所选数据子集的第i个度量，Agent和实例Agent之间的交互，我们开发了一个共享环境来支持Agent之间的同时交互。国家是要定量地代表的情况，步骤t我.然后，总体奖励步骤t处的r通过下式测量：协作改变环境。然而，这是一个不平凡的任务：在第t步，fea的动作记录-rt=1|K|不我ki∈K用Ft和It表示的真实和实例代理可以分别导出特征子集F′和实例子集C′。这两个子集共同形成输入数据X的子矩阵。挑战在于，所选择的子矩阵X'不能直接被视为状态，因为其维度随时间动态变化，而学习双代理的策略网络需要固定长度的状态表示。为了应对这一挑战，我们开发了一种受图像处理技术启发的动态表示方法[Luand Weng，2007]。具体来说，通过将所选数据子矩阵视为二维图像，我们首先通过用填充标记（零）填充取消选择的位置来固定状态维度形式上，对于输入数据X∈Rnm，在第t步，ht由下式测量：ht=0TTXTT（1）特征Agent和实例Agent的行为共同改变状态，直接决定了奖励度量。然后，奖励在两个代理之间共享，以激发探索。教练.我们将交互式强化学习中的教师式培训师的概念引入到我们的框架中。我们为特征代理开发了一个随机森林训练器，为实例代理开发了一个这两个训练器可以指导代理人探索更好的选择策略。更多细节见以下各节。3.2模型训练图3显示了我们框架的概述。双重代理a我||···||a我奥姆托克斯a F||···||a F阿肯·阿肯克斯有自己的深度Q网络（DQN）[Mnihet al. ，2013;Zhangetal. #20201;的政策。两名外部培训员其中是逐元素乘积，T是给定矩阵的转置，aIt和aFt是特征主体和实例主体在步骤t的动作记录;m是特征的数量;n是实例的数量。然后，我们利用单个卷积层来输出最终表示。形式上，步骤t的状态表示由下式计算：st=Conv（wsht+bs）（2）其中ws，bs是调谐权重参数和偏置，Conv是卷积运算。图2显示了我们提出的双代理协作改变环境的状态表示过程奖励奖励r是激发特征代理和实例代理的探索由于双智能体的动作是顺序扫描的，因此我们根据上一个状态和当前状态之间的特征差异来测量奖励，以便在时间上训练强化学习决策过程[Sutton和Barto，2018]。具体而言，假设存在我们关心的度量集，我们在步骤t处测量性能差异i：分别引导特征代理和实例代理更有效的探索。双智能体的动作是顺序地扫描特征和实例，其协作地决定所选择的数据子矩阵X’。然后从子矩阵中提取环境的状态，并收集反馈，以激励特征Agent和实例Agent进行数据选择。为了评估策略，我们使用前馈神经网络来近似Q值。深度Q学习迭代优化以下损失函数：E（r+γmaxQθ'（s′，a′）Qθ（s，a））~ 2（5）一个'其中r是状态s中动作a的回报;a'是下一状态s'中的下一动作;γ是折扣因子;Qθ'是目标网络。对于函数逼近，Q函数具有参数θ。梯度下降是：θt+1θt+α（r+γmaxQθ'（s′，a′）Qθt（s，a））（6）一个'其中α是学习率，t是训练步长。通过优化θ，构造了智能体的行动策略，t=kt−kt−1（三）以最大化长期回报。…………填充…………………卷积…………填充填充填充填充填充填充填充填充填充填充填充填充填充+v：mala2277获取更多论文选择…数据矩阵（输入）迷你背包随机抽样存储器单元火车政策网络控制microsoft软件功能代理隔离森林训练器行动奖励状态------∈∈----G{|∈}{G G G}----{G G G}迷你背包建议控制建议随机森林训练器实例代理选择选择t选中的数据填充卷积图3：框架概述。两个智能体合作行动和学习。两名培训师前来指导，帮助培训。3.3通过与外部训练器的图3显示了我们如何利用外部培训师的先验知识（即，经典的特征选择和实例过滤方法）来指导特征Agent和实例Agent提高学习效率。用随机森林训练器引导特征Agent。随机森林分类器[RandomForest Classifier]可以学习一组决策树来衡量特征的重要性。我们提出了一个训练器，即随机森林训练器，功能代理。直觉上，特征重要性可以为特征智能体提供决策支持：如果训练者发现一个特征重要，则建议选择该特征;如果不重要，则建议删除该特征。这些建议可以使特征代理更加了解特征空间的特性。我们开发了一个三步算法如下：步骤1：我们在给定的m个特征f1，f2，.上训练随机森林分类器，fm，以获得每个特征的重要性，由imp1，imp2，.，因普山步骤2：基于特征重要性，我们设计选择概率分布pRFp1，p2，.，其中，第i个特征的概率由下式给出：.1杂质i> βM离群检测器，我们提出了另一种训练器称为隔离森林训练器。我们展示了这个训练器如何一步一步地向实例代理提供建议：步骤1：我们首先对实例c1，c2，...进行分组， cn基于它们的标签Yy1，y2，.，在分类任务中的y n。我们将这些实例组记为G=l1，l2，...， Lp 得双曲余切值.不同的标记物l1，l2，...，Lp=set（Y）和组朝向第k个不同标签l k是由lk=ciy i=l k&y iY.第二步：对于G中的每个组，我们利用隔离森林算法来检测和过滤离群点。滤波后的结果是由G IF=IF（11），IF（12），.，如果（lp），其中IF是使用隔离林的筛选操作。步骤3：我们从过滤结果GIF中导出建议操作列表AIF。具体地，对于IF，a1，a2，...， a n，如果c i GIF，则第i个建议动作a i= 1，如果c i / G IF，则a i=0。步骤4：在强化学习探索的几个开始步骤中，实例代理遵循建议并采取建议的行动以进行更好的训练。4实验4.1实验装置数据集和分类器：我们在分类任务中使用了不同领域的四个公共数据集来验证我们的方法： ForestCover（FC）数据集是Kaggle 1中公开可用的数据集，包括荒野地区的特征。pi=Mm impiimpi≤β（七）Madelon数据集是Nips 2003研讨会数据集，包含将数据点分组为32个聚类，并用1和-1标记其中β是控制建议特征的参数。步骤3：基于概率，我们每一步都对建议的行动列表进行采样，由RF表示。特征代理跟随RF在探索的开始步骤处采取动作。使用隔离森林训练器指导实例代理。我们的目标是利用外部训练器的能力，重新识别嘈杂或扰动的数据样本，提供建议，实例代理实例选择。我们潜在的-在特征空间中，坏实例不同于正常实例[Aggarwal和Yu，2001]，代理可以遵循经典实例过滤方法识别它们。我们建议通过一个异常检测算法来识别表现不佳的实例基于隔离林[Liuet al. ，2008年]，[Dua和Graff，2017]。垃圾邮件数据集是垃圾邮件电子邮件[Dua and Graff，2017]。USPS数据集是包括手写数字图像的手写数字数据库[Caiet al. ，2010]。我们报告某些下游模型的准确性和F1分数，以显示所选数据的质量。基线算法：我们比较了我们提出的模型与不同基线的预测性能，包括实例选择方法，特征选择方法和特征实例联合选择方法：DROP。它包括不同的实例缩减算法，我们将DROP 1和DROP 5作为基线[Wilson和Martinez，2000]。GCNN。[Chouet al. ，2006]提出了凝聚最近邻算法所采用的弱准则。拉索。第1https://www.kaggle.com/c/forest-cover-type-prediction/data所选要素协作变化的环境迷你背包ŏ…选定实例+v：mala2277获取更多论文表1：使用逻辑回归作为下游模型的不同选择方法的预测性能。数据集模型FC马德隆垃圾邮件USPS精度F1得分精度F1得分精度F1得分精度F1得分DROP 158.92859.47751.92352.04889.57289.53186.55986.464DROP564.68264.97552.43552.43189.71789.71891.61291.607GCNN61.41961.46053.71753.73290.80390.84693.57093.585Lasso61.68462.70554.23054.22390.65890.69991.89991.937RFE65.82866.43055.25655.26188.77688.86293.76393.786LS2AOD65.05765.66553.97453.98390.94890.97893.29393.343GeneticFSIS65.83466.03355.93855.83790.74290.67593.24293.321IFS-CoCo66.10265.72358.38458.32391.04291.02193.41793.519sCOs66.21366.10457.99257.97690.81090.63293.79293.738DAIRS（我们的）67.32866.90861.28261.28191.74591.38994.12294.071表2：不同数据集上的选择比率。Dataset FC Madelon Spam USPS功能0.8703 0.59800.8771 0.7187实例0.7483 0.8829 0.6770 0.6266[Tibshirani，1996]通过l1惩罚进行特征选择和收缩。RFE（Recursive Feature Elimination）递归特征消除0.6750.6500.6250.6000.5750.5500.5250.500IA FA IA+FA-CE IA+FAsively取消选择最不重要的功能。LS2AOD通过LaplacianScore选择特征，然后通过AOD进行采样遗传学。[Tsaietal. ，2013]应用遗传算法来交替地选择特征和实例。IFSCoCo。[Der-racet al. ，2010]应用协同进化算法选择特征和实例。特别行动官[Benabdeslemet al. ，2020]使用相似性保留来进行特征和实例的共同选择。对于评估，我们使用这些算法来选择特征/实例以获得数据子集，并评估所选数据的质量以进行预测。含义：为了公平比较，我们将下游任务设置为简单分类器逻辑回归。下游任务将选定的数据作为输入并输出分类结果。我们将数据随机分为训练数据（70%）和测试数据（30%），其中分类特征被编码为one-hot。基线模型被设置为与我们的模型相同的选择比率。在经验回放中，记忆单元的大小被设置为300。对于奖励测量，我们考虑准确性，相关性得分和冗余得分[Liuet al. ，2019]。策略网络被设置为两个完全连接的512个中间状态的层，ReLU作为激活函数。在RL探索中，折扣因子γ被设置为0.9，并且我们使用具有等于0.8的折扣因子γ的贪婪探索。4.2整体性能表1显示了逻辑回归对我们提出的DAIRS和比较基线选择的数据的总体预测性能。我们报告了四个不同的数据集的准确性和f1分数，可以观察到我们提出的模型优于其他选择方法，这表明我们选择的数据质量最好，可用于下游预测。除了我们的模型，我们注意到其他联合选择方法（例如，IFS-CoCo）可以比其他基线具有更好的性能，因为这些方法考虑了两个维度（特征选择和实例选择）。因此，如表2所示，我们的模型也可以获得最佳选择比，以实现更高的勘探预测性能，而许多其他方法（例如，DROP，RFE）不能自动学习需要预先定义的比率这证明了我们的方法的优越性，图4：DAIRS变体在FC数据集上的性能。0.650.600.550.500.450.40IA FA IA+FA-CE IA+FA图5：DAIRS变体在Madelon数据集上的性能。自动选择最佳数据，而无需手工调整。此外，在大多数情况下很容易发现，大多数特征和实例对准确预测有用，而少数特征和实例会干扰预测。4.3双主体补强选择研究我们的目标是研究我们的双代理强化选择框架中的不同组件的影响。我们考虑了四种不同的方法：（1）FA删除实例代理，只考虑特征代理，并为选定的特征创建环境[Liuet al. ，2019]。（2）IA去除特征代理，仅考虑实例代理。(3)IA+FA-CE消除了协作变化环境，为每个Agent创建了(4)IA+FA是我们提出的DAIRS模型与两个代理。图4和图5显示了FC和Madelon数据集上这些变体的逐样本比较。与单代理的探索相比此外，虽然特征和实例都决定了所选数据的质量，但当单个Agent进行探索时，特征Agent对预测的影响比实例Agent更大。这表明特征的质量在数据选择中更为重要。我们还发现，共享环境实际上是重要的双代理协调，这可以使更好的性能。从这两个图中，我们观察到蓝线的趋势比黄线更显著;这表明我们的方法在长期学习中取得了更好的效果。4.4交互式强化训练器的研究我们研究了交互式再强化学习的建议培训师的影响。我们考虑四种变体：（1）非训练器删除随机森林训练器（RFT）和孤立训练器，500步1000步五千步500步1000步五千步精度精度+v：mala2277获取更多论文−0.6750.6700.6650.6600.6550.620.610.600.590.580.57表现最佳的前10个点0.60.50.40.30.20.650非培训师RFTIFTRFT+IFT0.560.55非培训师RFT IFT RFT+IFT504055003060006500700075008000 10850090009500250030000(a) FC数据集(b) Madelon数据集(a) FC数据集(b) 垃圾邮件数据集图6：针对不同交互式强化训练器设置的变体的性能图8：FC和垃圾邮件数据集上代理探索过程的可视化。红色的点是前10个执行得最好的步骤。0.660.650.640.630.620.610.600200400600勘探步伐(a) FC数据集80010000.600.590.580.570.560.550.5402004006008001000勘探步伐(b) Madelon数据集用于搜索最佳特征子集的分类器构造（例如，LASSO[Tibshirani，1996]）。实例选择主要有两种方式：(1) 包装方法（例如，基于k-NN的选择）;（2）过滤方法（例如，kd树）。该标准是基于由分类器获得的准确性。大多数的包装方法是基于k-NN分类器。其他方法选择实例的依据是图7：不同交互式强化训练器的变体的探索效率（2）RFT取消IFT，只接受RFT的建议;（3）IFT取消RFT，只接受IFT的建议;（4）RFT+IFT有两个教练员提供建议。图6显示了不同方法的比较。可以观察到，两个训练器都有助于提高数据质量以获得更好的预测性能，而当组合两个训练器时获得最高分数图7显示了每个变体在当前步骤之前探索的最佳准确度方面的效率比较结果表明，在没有训练者帮助的情况下，Agent需要更多的探索步骤才能达到更好的效果，而训练者的共同作用可以提高Agent的探索和学习效率，特别是4.5勘探过程我们还尝试研究和可视化的探索过程中的代理。图8显示了不同步骤中的准确性，这些步骤与FC数据集和Spam数据集上的选定特征编号和实例编号有关。我们将10，000个探索点可视化（蓝色），并将前10个表现最好的点标记为红色。我们很容易观察到，大多数蓝色点都位于数据空间的某个部分，例如左子图的特征数为（30到50），实例数为（5，000到10，000）的空间。这意味着在初始探索之后，探索有效地集中在最佳数据子空间上。然后，代理可以继续搜索，直到最终找到最佳的特征和实例选择结果。5相关工作特征选择包括三种方法：（1）过滤方法基于相关性得分对特征进行排名并选择排名靠前的特征（例如，单变量特征选择）。(2)包装器方法使用预测器，将预测性能视为目标函数（例如，分支定界出租）。(3)嵌入式方法包含特征选择，使用SVM或进化算法，或者通过查找边界实例来完成[Ol v era-L o'pezetal. ，2010]。特征和实例的联合选择也有一定的研究，但同时处理特征和实例选择的算法有限。联合选择首先通过遗传算法进行研究[Kuncheva和Jain，1999]。然后一些研究解决这个问题的贪婪算法[张等人。，2012]、PRIN-UNR成分分析[Suganthi和Karunakaran，2019]或成对相似性的应用[Benabdeslemet al. ，2020]。大多数针对联合选择的现有工作尝试应用启发式搜索;它们采用模拟退火算法[De Souzaet al. ，2008]，合作的共同进化算法[Derracetal. ， 2012] 或顺序向前搜索 [Garc 'ıa-Pedrajaset al. ，2021]。还在临床数据设置中研究了关节选择[Ol v era-Lo′ pezetal. ， 2010] 和社交媒体数据设置 [Tang 和Liu，2013]。强化特征选择将强化学习应用于特征选择任务。一些研究使用单一代理进行特征选择 [Fardet al. ，2013;Zhaoetal. ，2020];其他多智能体强化学习已被用于自动化特征选择[Fanet al. ，2020;Fanet al. ，2021b;Fanetal. ，2021a;Liuet al. ，2019]。在这些工作的启发下，我们将强化学习应用到联合选择任务中。6结论在本文中，我们提出了一个双智能体强化学习框架的特征和实例联合选择任务。我们将联合选择公式化为一个强化学习框架，该框架具有定制的顺序扫描机制和协同变化的环境，以模拟特征空间和实例空间的细粒度交互。利用随机森林训练器和隔离森林训练器的选择知识提高Agent学习的效率。大量的实验证明了该模型在数据预处理方面的优越性，也揭示了联合选择任务中强化学习的可行性设计。准确度F1评分准确度F1评分非教练RFTIFTRFT+IFT非教练RFTIFTRFT+IFT表现最佳的前10个点0.90.80.70.60.50.45040500301000201500200010步进时的最佳步进时的最佳20+v：mala2277获取更多论文确认这项研究得到了美国国家科学基金会（NSF）资助2040950，2006889，2045567，IIS-2040799、IIS-2006387、IIS-1814510。引用[Aggarwal和Yu，2001] Charu C Aggarwal和Philip S Yu。高维数据的离群点检测。在2001年ACM SIGMOD数据管理国际会议的Proceedings中，第37-46页[Amir et al. Ofra Amir，Ece Kestival，Andrey Kolobov，and Barbara Grosz.Agent 培训的交互式教学策略。2016年。[Benabdeslem et al. 哈立德（Khalid）Benabdeslem，Dou El Kefel Mandarin 和 Raywat Makkhongkaew 。scos：通过相似性保持方法的半监督共同选择。IEEETransactions on Knowledge and Data Engineering ，2020。[Brighton and Mellish ， 2002] Henry Brighton and ChrisMellish. 基于实例学习算法的实例选择研究进展数据挖掘与知识发现，6（2）：153[Cai et al. ，2010] Deng Cai，Xiaofei He，Jiawei Han，and Thomas S Huang.用于数据表示的图正则化非负矩阵分解。 IEEE transactions on pattern analysis andmachine intelligence，33（8）：1548[Chou et al. Chien Hsing Chou ， Bo-Han Kuo ， and FuChang.作为数据约简方法的广义压缩最近邻规则。在第18届模式识别国际会议（ICPRIEEE，2006年。[De Souza et al. Jerffeson Teixeira De Souza ， RafaelAugusto Ferreira Do Carmo ， and Gustavo AugustoLima De Campos.一种集成特征和实例选择的新方法。在2008年机器学习和控制论上，第1卷，第374379. IEEE，2008年。[Derrac et al. Joaqu 'ın Derrac ， Salvador Garc' ıa ， andFrancisco Herrera. Ifs-coco：基于最近邻规则的协同进化的实例和特征选择。 Pattern Recognition ， 43（6）：2082-2105，2010.[Derrac et al. Joaqu 'ın Derrac，Isaac Triguero，Sal- vadorGarc' ıa，and Francisco Herrera.基于协同进化算法的最近邻分类器集成 IEEE Transactions on Systems ，Man，and Cybernetics，Part B（Cybernetics），42（5）：1383[Dua和Graff，2017] Dheeru Dua和Casey Graff。UCI机器学习库，2017年。[Fan et al. 范伟，刘鲲鹏，刘浩，王鹏阳，葛勇，傅艳杰。Autofs：通过多样性感知交互式强化学习进行自动化特征选择。2020年IEEE国际数据挖掘会议（ICDM），第1008-1013页。IEEE，2020年。[Fan et al. 2021 a] Wei Fan，Kunpeng Liu，Hao Liu，Yong Ge，Hui Xiong，and Yanjie Fu.在循环中使用决策树进行特征选择的交互式强化学习 IEEETransactions on Knowledge and Data Engineering ，2021。[Fan et al. ，2021 b]范伟，刘鲲鹏，刘浩，阿-马德哈里里，窦德敬，和傅艳杰. Autogfs：通过交互式再增强学习进行基于自动组的特征选择。在2021年SIAM国际数据挖掘会议（SDM）的会议记录中，第342-350页。SIAM，2021年。[Fard et al. Seyed Mehdi Hazrati Fard，Ali Hamzeh，andSattar Hashemi.使用强化学习来找到一组最佳特征。Computers Mathematics with Applications，66（10）：1892[Gar c'ıa-Pedrajasetal. ， 2021]Nicola' sGarc' ıa-Pedrajas ，JuanA Romero del Castillo，and Gonzalo Cerruela-Garc'ıa.Si（fs）2：快速同时实例和特征选择，用于具有许多特征的数据集。模式识别，111：107723，2021。[Guo et al. ， 2018] Minghao Guo ， Jiwen Lu ， and JieZhou.用于可变形人脸跟踪的双智能体深度强化学习。在欧洲计算机视觉会议（ECCV）的会议记录中，第768-783页[Kuncheva和Jain，1999年] Ludmila I Kuncheva和LakhmiC Jain。最近邻分类器：同时编辑和特征选择。Pattern recognition letters，20（11-13）：1149[Liu and Motoda，2012] Huan Liu and Hiroshi Motoda. 知识发现和数据挖掘的特征选择，第454卷。SpringerScience Business Media，2012.[Liu et al. ，2008] Fei Tony Liu，Kai Ming Ting，andZhi-Hua Zhou.隔离森林。2008年第八届IEEE数据挖掘国际会议，第413-422页。IEEE，2008年。[Liu et al. Kunpeng Liu，Yanjie Fu，Pengfei Wang，LeWu，Rui Bo，and Xiaolin Li.通过多智能体强化学习自动化特征子空间探索。在第25届ACM SIGKDD知识发现数据挖掘国际会议论文集，第207-215页[Lu and Weng，2007] Dengsheng Lu and Qihao Weng.提高分类性能的图像分类方法和技术综述国际遥感杂志，28（5）：823[Mnih 等人， Volodymyr Mnih ， Koray Kavukcuoglu ，David Silver ， Alex Graves ， Ioannis Antonoglou ，Daan Wierstra，and Martin Riedmiller.用深度强化学习玩雅达利。arXiv预印本arXiv：1312.5602，2013。[Ol v era-L o'pezetal. ， 2010]JArturoOlv era-Lo' pez ，JArielCarrasco-Ochoa，JFranciscoMart'ınez-Trinidad ， and Josef Kittler. 实例选择方法综述。Artificial Intelligence Review，34（2）：133+v：mala2277获取更多论文[2005年12月]Mahesh et al.用于遥感分类的随机森林分类器。国际远程传感杂志，26（1）：217[Suganthi和Karunakaran ，2019] M苏甘提VKarunakaran。实例选择和特征提取采用乌贼优化算法，主成分分析采用决策树. Cluster Computing，22（1）：89[Sutton 和 Barto ， 2018] Richard S Sutton 和 Andrew GBarto。强化学习：介绍。MIT Press，2018.[Tang and Liu ， 2013] Jiliang Tang and Huan Liu.Coselect：社交媒体数据的特征选择和实例选择。在2013年SIAM国际数据挖掘会议的会议记录中，第695-703页。SIAM，2013年。[1996] Robert Tibshirani.通过套索进行回归收缩和选择皇家统计学会杂志，58（1）：267[Tsai et al. Chih-Fong Tsai ， William Eberle ， and Chi-Yuan Chu.遗传算法在特征和实例

下载后可阅读完整内容，剩余1页未读，立即下载