多标签数据集Mldatagen:生成与分类算法实验

18 浏览量更新于2023-12-10 收藏 792KB PDF 举报

理论计算机科学

多标签数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取理论计算机科学电子笔记302（2014）155-176www.elsevier.com/locate/entcs一个多标签数据集希梅娜·托雷斯·托姆as1，a，2牛顿·斯波拉西奥a，3埃弗顿·阿尔瓦雷斯·切尔曼a，4玛丽亚·卡罗莱纳·莫纳德a，5圣保罗大学数学与计算机科学研究所计算智能实验室13560-970SCristaoCarlos，SP，Brazil摘要基于学习算法所使用的数据集的已知属性的受控环境对于凭经验评估机器学习算法是有用的。合成（人造）数据集用于此目的。虽然有公开可用的框架来生成合成的单标签数据集，但对于多标签数据集来说并非如此，其中每个实例都与一组通常相关的标签相关联。这项工作提出了Mldatagen，一个多标签数据集生成器框架，我们已经实现，向社会公开。目前，在Mldatagen中已经实现了两种策略：超球体和超立方体。对于多标签数据集中的每个标签，这些策略随机生成几何形状（超球体或超立方体），其填充有随机生成的点（实例）。然后，每个实例根据它所属的形状进行标记，这定义了它的多标签。在六个合成数据集中使用多标签分类算法的实验说明了使用Mldatagen。关键词：数据生成器，人工数据集，多标签学习，公共可用框架，Java，PHP1引言经典的监督学习算法是单标签的，其中来自不相交的标签集合L的仅一个标签与数据集中的每个示例相关联。如果L= 2，则该任务称为二进制分类，如果L = 2，则称为多类分类。1 本研究得到了新加坡保罗研究基金会（ F APESP ）的支持，批准号为 2011/02393-4 、 2010/15992-0 和2011/12597-6。作者要感谢Victor Augusto Moraes Carvalho在额外分析中的帮助，以及匿名评论者的有益评论。2电子邮件：jimenat. gmail.com3电子邮件：newtonspolaor@gmail.com4电子邮件：echerman@icmc.usp.br5电子邮件：mcmonard@icmc.usp.brhttp://dx.doi.org/10.1016/j.entcs.2014.01.0251571-0661 © 2014 Elsevier B.V. 在CC BY-NC-ND许可下开放访问。156J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155L>2。然而，越来越多的应用程序中，使用一个以上的标签，如生物信息学，情感分析，媒体语义注释和文本挖掘[15]，需要不同的算法从数据中提取模式。这些应用程序，其中的例子可以同时关联到几个标签，表征多标签学习问题。在实践中，机器学习算法的有效性取决于生成的分类器的质量。这使得机器学习的基础研究具有内在的经验性[6]。为此，社区进行了广泛的实验研究，以评估学习算法的性能[9]。合成（人造）数据集在这些实证研究中很有用，因为它们基于学习算法用于构建分类器的数据集的已知属性提供受控环境[2]。一个好的分类器通常被认为是一个学习以高概率正确识别新示例标签的分类器。因此，可以使用合成数据集来代替真实世界的数据集，以获得学习算法的平均情况性能的严格结果。生成合成单标签数据集的几个框架可公开提供给社区6 78。然而，尽管提出了一些生成合成多标签数据集的策略[17，18，3，11]，但据我们所知，缺乏公开可用的框架来生成用于多标签学习的数据。因此，这项工作有助于弥合这一差距，提出了Mldatagen框架，我们已经实施，它是托管在http：//sites.labic.icmc.usp.br/mldatagen网站。本工作的其余部分组织如下：第2节简要介绍了多标签学习的概念和策略，以生成合成的多标签数据集。第3节介绍了拟议框架，第4节对此进行了说明。第5节提出了结论和未来的工作。2背景本节介绍了与多标签学习相关的基本概念和术语，包括本工作中使用的评估措施，以及文献中提出的生成合成多标签数据集的一些策略。2.1多标签学习的基本概念设D是由N个样本组成的数据集，E i=（xi，Y i），i = 1. N. 每个示例（实例）Ei与特征向量xi=（xi1，xi2，.， xiM）由M个特征（属性）Xj，j= 1.. M，以及标签的子集Y i=L，其中L ={y1，y2，.是q个标签的集合。表1显示了这种表示。在这种情况下，多标签分类任务包括生成一个分类器H，给定一个不可见的实例E =（x，？），能够准确地预测其标签子集（多标签）Y，即，H（E）→Y.6http://archive.ics.uci.edu/ml/machine-learning-databases/dgp-27http://www.datasetgenerator.com8http://www.burningart.com/meico/inventions/datagen/index.htmlJ.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155157表1多标签数据。X1X2...XMYE1X11X12...X1MY1E2X21X22...x2米Y2.... ....ENxN1xN2...XNMYN多标签学习方法可以分为两大类：算法自适应和问题转换[15]。第一种方法包括扩展特定学习算法以直接处理多标签数据的方法，例如多标签朴素贝叶斯（MLNB）算法[18]。第二类是算法独立的，允许使用任何最先进的单标签学习方法。将多标签分类问题转换为几个单标签分类问题的方法，例如二进制相关性（BR）方法，属于这一类。具体来说，BR将多标签数据集转换为q个单标签数据集，分别对每个单标签问题进行分类，然后组合输出。2.1.1评估措施单标签分类器的评估只有两种可能的结果，正确或不正确。然而，评估多标签分类也应该考虑部分正确的分类。为此，提出了几种多标签评价措施，如[15]所述。在下文中，我们简要描述了在这项工作中使用的基于示例和基于标签的评估措施所有这些性能指标的范围在[0.. 1]。假设Δ是两个集合之间的对称差;Yi和Zi分别是真标签和预测标签的集合;I（true）= 1和I（false）=0。汉明损失、子集准确度、精确度、召回率和准确度度量由等式1至5定义。158J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155NΣΣQQ我我我Σ1汉明损耗（H，D）=Σ|Y iΔ Z i|.（一）Ni=1N|L|1子集准确度（H，D）=NI（Zii=1N=Y i）。（二）1精密度（H，D）= Σ|Y i Z i|.（三）Ni=1N|Z i|1回忆（H，D）= Σ|Y i Z i|.（四）Ni=1N|Y i|1精度（H，D）=N|.|.（五）i =1 |Yi Zi|与本节中描述的所有其他评估指标不同，对于汉明损失，值越小，多标签分类器性能越好。此外，值得注意的是，子集准确度是一个非常严格的评估指标，因为它需要预测的标签集和真实的标签集完全匹配。在这种情况下，对于每个单标签yi∈L，q个二进制分类器最初使用文献中提出的任何一个二进制评估度量进行评估，例如准确度，F-测量，ROC等，然后对所有标签进行平均。两个平均操作，宏观平均和微观平均，可以用于对所有标签进行平均设B（TPy，FPy，TNy，FNy）是针对a我我我基于真阳性（TP）、假阳性（FP）、真阴性的数量标记yi假阴性（FN）和假阴性（TN）。B的宏观平均值由公式6定义，微观平均值由公式7定义。1B宏=B.TPy，FPy，TNy，FNy- 是的（六）.格Bmicro=BQi=1ΣTPY，我我我Σ Σ ΣFPY，TNY，FNy.（七）i=1i=1因此，所使用的二进制评估度量首先在单个标签上计算，然后通过宏平均操作对所有标签进行平均，而通过微平均操作对所有实例和所有标签进行全局计算。这意味着宏观平均将更多地受到参与较少多标签的标签的影响，即，，较少的例子，这是适当的非平衡数据集的研究[5]。QQi=1我i=1J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155159在这项工作中，我们使用精确度（PC），召回率（RL）和F-Measure（FM），分别由公式8至10定义，作为二元评估指标。PC（H，D）= TP。（8）RL（H，D）= TP.（九）TP+FP TP+FN160J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155M44FM（H，D）=2TP.（10）2 T P+ F P+ F N2.2生成合成多标签数据集如前所述，在文献中已经提出了一些生成合成多标签数据集的策略在下文中，简要描述了其中一些策略在[3]中，提出了基于特定函数来标记实例的合成多标签数据集，这扩展了早期的单标签学习建议[1]。数据集的许多M= 9特征是根据均匀分布定义的。在文献[11]中生成了具有不同属性的合成数据集来研究多标签决策树。在这项研究中，识别与特征选择任务相关的良好特征的能力[10]也得到了验证。用于生成数据集的策略考虑了几个函数来定义与标签相关的特征值为了说明一种新的多标签学习算法，在[17]中指定了一个合成数据集给定三个标签和协方差矩阵，根据七个高斯分布来标记实例，使得每个分布与一个多标签相关。每个多标签的实例数量是任意定义的。在[18]中，超球体用于生成12个合成数据集。首先，在R2中生成半径为r的超球面HS。对于数据集中的每个标签，一个较小的超球面hs i，i = 1. q也是随机生成的。然后，用随机生成的点（实例）填充这是...这些点的数量随着M的增加而增加不相关的特征，随机值，M冗余的，复制原始特征的。最后，每个在-立场Ei根据它所属的小超球面来标记，这定义了多标签Yi。3提出了合成多标签数据集生成器本节详细描述了我们为生成多标签合成数据集而实施的两种策略，HyperSpheres和HyperCubes，它们基于[18]中提出的建议这两个策略集成在框架Mldatagen中，在Java9和PHP10中实现。该框架输出一个压缩文件，其中包含具有用户指定特征的无噪声合成数据集，以及插入噪声Mldatagen将生成与用户请求的不同噪声水平的数量一样多的噪声数据集每个数据集都是木兰格式11，它由两个文件组成：一个ARFF文件和一个XML文件。这些9http://www.oracle.com/technetwork/java/index.html10http://php.net11http://mulan.sourceforge.net/format.htmlJ.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155161、+110文件可以直接提交到Mulan库中的多标签学习算法[16]。3.1HyperSpheres战略该策略具有9个输入参数以生成数据集，其中M=Mrel+Mirr+M红色特征。• Mrel-相关特征的数量。• Mirr- 不相关特征的数量• M红色-冗余特征的数量。• q-数据集中标签的数量。• N-数据集中的实例数。• maxR-小超球面的最大半径。• minR-小超球面的最小半径。• μ-噪声电平。• name- ARFF文件头中关系的名称如上所述，Mldatagen为每个噪声级别生成一个带有噪声的数据集。此外，可选参数maxR、minR、μ和name在Mldatagen中具有默认值，如第3.3节所述。为防止用户设置无效值，将为参数指定以下约束M rel> 0q> 0minR> 0minR 0μ≥ 0 0minR≤qMred≥0maxR>0Mred≤Mrel<应该强调的是，Mldatagen扩展了[18]通过使用户能够选择不同种类的特征的数量，即，相关、不相关和冗余、小超球体的最大和最小半径以及所生成的数据集的噪声水平生成合成数据集的主要步骤是：(i) 在RMrel中生成超球面HS。(ii) 生成q个小超球面hs i，i = 1.在HS中的q。(iii) 在RM中生成N个点（实例）。(iv) 基于q个小超球体生成多标签，并插入噪声水平μ。在下文中，详细描述这些步骤中的每一个。、162J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155ΣΣΣ3.1.1生成超球面HS创建一个以笛卡尔坐标系的原点为中心，半径rHS= 1的超球面HS，其半径为RMrel3.1.2生成q个小超球面所有的小超球面都是以这样一种方式生成的，即它们在RMrel中的超球面HS内。此外，每个超球面hs i=（ri，C i）由特定半径ri和中心C i=（c i1，c i2，c i3，.，c iMrel）。该半径是随机生成的，范围从minR到maxR。另一方面，Ci坐标必须满足等式11定义的初始要求，以在HS内生成hsi。i ∈ [1.. q] c ij≤（1 − r i），j = 1. Mrel.（十一）然而，该要求不足以确保hsi在HS内。例如，如果生成值c i1=（1-r i），则j = 1的其他c ij值将为零，即，，则剩余的Mrel-1特征必须为零。因此，每个C i的所有坐标，i = 1. q必须在由等式12定义的受限域中。Mrelc ij2≤（1 −r i）2。（十二）j=1图1中的填充区域显示了超球体hsi的Ci坐标域，其中Mrel= 2，使得hsi在HS内部。Fig. 1.定义Ci的域，给定ri，在R2中如等式12所示，设置C i的坐标，i= 1.必须考虑其半径ri以及已经设置的hs i超球面中心的坐标值。对于每个随机生成的坐标c ij，j = 1，该要求由等式13定义。其中仅考虑已经设置的坐标c，si = j。--，（1−ri）2−Mrel （ci s）2≤cij≤，（1−ri）2−Mrel（c是）2.（十三）s=1，s/=js=1，s/=jJ.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155163由于每当设置新坐标时，定义C i的每个坐标的可能范围都会减少，因此在生成超球面hs i的C i坐标时，必须避免确定性，即，以避免总是生成ci1作为第一个坐标，ciMrel作为最后一个坐标。为此，要设置的坐标j的索引，j = 1. M rel是随机定义的。算法1总结了超球面hs i=（ri，Ci），i = 1. Q. 在该算法中，函数random（x，y）输出范围为 x到y是均匀分布的。函数updateminC（x）和updatemaxC（x）分别刷新要使用等式13定义的下一个Ci坐标的下限和上限。这些过程对于避免生成具有空多标签的实例非常有用。算法1小超球面一曰：对于i= 1→q，2：Ci←3：ri←random（minR，maxR）4：maxC←（1 −ri）5：minC← −（1 −ri）6：对于j= 1 →Mrel（j随机定义），7：cij←random（minC，maxC）8：Ci←Ci{cij}9：minC←updateminC（minC）10：maxC←updatemaxC（maxC）11：end for12：hsi←（ri，Ci）13：结束十四：返回 {hs1，hs2，.，hs q}3.1.3生成点在定义了q个小超球面之后，主超球面HS被填充了N个点（实例）。回想一下，在每个实例中，E i=（xi，Y i），i = 1. N，xi表示特征值的向量，Yi表示实例的多标签因此，为了在RM中填充HS，需要生成值（xi1，xi2，.， x iM）和每个实例E i的多标签Y i。为了确保多标签包含q个可能标签中的至少一个，N个实例的生成被定向，使得对于每个实例Ei，具有坐标（xi1，xi2，.，x（mrel）至少在一个小超球面内。通过使用此过程，所有实例都不会有空的多标签。所有小超球面hs i，i = 1.. q，使用该标准填充。此外，由于小超球体的半径是不同的，每个超球体中的实例的分布（平衡）应该保持，即。因此，具有较大半径的超球应该比具有较小半径的超球按比例地更拥挤。为此，该框架使用等式14定义的平衡因子。因此，在每个内部生成Ni=round（f×ri）个点164J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155Σn（x −c）≤r。（15）Ijkj我Σ我Σhyperspherehs i，i = 1.. Q.Nf=qi=1.（十四）Ri与生成小超球中心的过程一样，随机点xk=（x k1，x k2，...，x kMrel）必须服从等式15给出的限制来生成。Mrel2 2我j=1然而，生成xk坐标的域是不同的，并且被减少到hsi内部的区域。由于hsi中心不在原点上，因此需要考虑该中心的坐标。图2举例说明，对于Mrel= 2，随机点xk必须在填充区域内才能属于超球面hsi=（ri，Ci）。图二.定义域xk，给定ri和Ci，在R2中因此，为了随机生成每个坐标x kj，j = 1. M rel，点xk，需要确保|x kj−c ij|≤r i.然而，在极端情况下，如果第一个坐标是xk1=ci1+ri，则剩余的xkj值，j= 1，将必须等于cij，以确保点xk在hsi内。因此，x kjc o纵坐标，Mrel]，应该随机产生，考虑到已经设置的坐标。为此，对于每个随机生成的坐标x kj，j = 1.，范围应如等式16所定义的那样受到约束。M rel，其中只考虑了s×ks，s=k j，一个lready集合.cij−“。，r2−Mrel （xks−ci s）2≤xkj≤cij+<$。，r2−Mrel（xks-cis）2，s=1，s/=js=1，s/=ji ∈ [1.. q] e k ∈ [1.. N]。（十六）正如生成C i坐标的过程一样，在指定点x k的坐标时，需要避免确定性，即，以避免总是生成xk1作为第一个坐标，xkMrel作为最后一个坐标。因此，坐标j的索引，j = 1. M rel也是随机定义的。J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155165算法2总结了实例xk的生成，k = 1. N，在小超球面hs i=（ri，C i），i = 1. Q.类似于算法1，updateminX（x）和updatemaxX（x）函数分别刷新要在对应超球hs，i内定义的下一个x，k坐标的下限和上限。已经设置的坐标也被考虑在内，以随机生成剩余的坐标。算法2超球面内点的生成一曰：对于k= 1→N，2：xk←3：maxX←cij−ri4：minX←cij+ri5：对于j= 1 →Mrel（j随机定义），6：xkj←random（minX，maxX）7：xk←xk<${xkj}8：minX←updateminX（minX）9：maxX←updatemaxX（maxX）10：end for十一日：端十二： return{x1，x2，.，xN}在生成与M个rel相关的N个点之后，通过添加具有随机值的M个irr个不相关特征和M个红色冗余特征来设置M个irr和M个红色特征。随机选择要作为冗余复制的特征最后，N个点在RM中，M = M rel+ M irr+ M red。3.1.4生成多标签任何实例xk∈ [1.. N]具有标签y i，i = 1. q，在它的多标号Y k中，如果xk在超球面hs i内。最终的多标签Y k由满足该条件的所有标签组成，可以根据xk与每个中心C i之间的距离容易地验证，i = 1. Q.如果这个距离小于半径ri，则xk在hsi内，yi∈Yk;否则，yi∈/Yk。将标号i分配给xk ∈ [1.]的多标号Yk。如等式17所定义的那样实现。请注意，仅需考虑Mrel特征.（xkj−cij）2≤ri，（17）i∈[1.. q]，则n∈[1. Mrel]，k∈[1.. N]。在构造该数据集之后，如果用户请求，则生成噪声数据集。为此，对于每个实例E i，将噪声插入到所构造的数据集中的过程将标记yj∈Yi，j=1. q，概率为yμ。换句话说，如果标签yj在多标签Yi中，则机器人将以概率y μ从多标签Yi中移除yj。否则，标签j将以概率μ插入。基于HyperSpheres策略，我们提出了一个类似的策略，名为Hy- perCubes，下面将描述，其中使用超立方体而不是超球体。166J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）15523.2HyperCubes战略这种策略背后的主要动机是，超立方体可以适用于评估多标签学习算法，例如决策树[4]，它通过使用超平面划分空间来分类实例HyperCubes策略还具有9个参数和相应的约束，以生成无噪声和有噪声的合成数据集。然而，与HyperSpheres策略不同，maxR和minR分别表示小超立方体的最大和最小半边（边）。根据Hy- perCubes策略生成合成数据集的主要步骤与HyperSpheres所需的步骤相似。(i) 在RMrel中生成超立方体HC。(ii) 生成q个小超立方体hc i，i = 1. HC内部的q。(iii) 在RM中生成N个点（实例）。(iv) 基于q个小超立方体生成多标签，并插入噪声水平μ。3.2.1生成超立方体HC在RMrel中创建以笛卡尔坐标系的原点为中心的超立方体HC，其中半边eHC= 13.2.2生成q个小超立方体与HyperSpheres一样，HyperCubes生成q个小超立方体hc i=（e i，C i），i = 1.q，使得它们在RMrel中的HC内部。每个小超立方体都被定义为通过特定的半边ei和中心Ci=（ci1，ci2，ci3，.，c iMrel）。这个半边是随机生成的，范围从minR到maxR。另一方面，Ci坐标必须满足等式18定义的初始要求，以在HC内生成hci。i∈ [1.. q] c ij≤（1 −e i），j = 1. Mrel.（18）与HyperSpheres不同，该要求足以确保hc i在HC内部。因此，其中Ci坐标范围的域由等式18给出。图3中的填充区域显示了对于Mrel= 2，超立方体hci，使得hci在HC内部。与HyperSpheres不同，定义每个坐标cij的可能范围对于所有坐标都是相同的。因此，算法3比算法1简单，因为不需要函数updateminC（x）和updatemaxC（x）来生成超立方体hc i=（e i，C i），i= 1. Q.3.2.3生成点正如HyperSpheres所做的那样，在定义了q个小超立方体之后，主超立方体HC被填充了N个点（实例）。为了在RM中填充HC，需要生成值（xi1，xi2，.， x iM）和每个实例的多标签Y iJ.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155167图3.第三章。定义域Ci，givenei，在R2算法3小超立方体一曰：对于i= 1→q，2：Ci←3：ei←random（minR，maxR）4：maxC←（1−ei）5：minC← −（1 −ei）6：对于j= 1→Mreldo7：cij←random（minC，maxC）8：Ci←Ci{cij}9：结束10：hci←（ei，Ci）十一日：端十二：返回 {HC1，HC2，.， hc q}Ei.此外，HyperCubes还面向点的生成，使得每个点至少在一个小的超立方体内。通过使用该过程，没有实例具有空的多标签，并且所有小超立方体hc i，i = 1. Q、人口。为了确保每个小超立方体内的实例分布与相应的半边成比例，该框架使用了类似于与等式14中的一个相同。然而，不是对半径求和，而是对半边因此，N i= round（f × e i）个点在每个超立方体hc i，i = 1. Q.与生成小超立方体中心的过程一样，随机点xk=（x k1，x k2，.，x kMrel）必须如等式19所定义地生成。|≤e i，i ∈ [1..| ≤ei,∀i∈[1.. q]e<$j∈[1.. Mrel]。（19）与3.1.3节类似，生成xk坐标的域是不同的，被简化为hc i内部的区域。由于hci中心不在原点上，因此需要考虑该中心的坐标。图4举例说明，对于Mrel= 2，随机点xk必须在填充区域内才能属于超立方体hci=（ei，Ci）.168J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155图四、Domaintodefinexk，givenei，inR2算法4总结了实例xk的生成，k = 1. N，内部一个小超立方体hci =（ei，Ci），i= 1. Q.该算法比算法2简单，因为坐标范围在相同的域中，所以通过丢弃函数updateminX（x）和updatemaxX（x算法4超立方体内点的生成一曰：对于k= 1→N，2：xk←3：maxX←cij−ei4：minX←cij+ei5：对于j= 1→Mreldo6：xkj←random（minX，maxX）7：xk←xk<${xkj}8：结束9：结束10点整： return{x1，x2，.，xN}正如HyperSpheres所做的那样，在生成与Mrel相关的N个点之后，通过添加具有随机值的Mirr不相关特征和Mred冗余特征来设置Mirr和Mred特征。随机选择要作为冗余复制的特征。最后，N个点在RM中，M=Mrel+Mirr+Mred。3.2.4生成多标签类似于HyperSpheres，任何实例xk∈ [1. N]具有标签y i，i = 1. q，在它的多标号Yk中，如果xk在超立方体hc i内。最终多标签Y k因此，由满足这个条件的所有标签组成，可以根据xk和每个中心C i之间的距离容易地验证，i = 1.. Q.如果这个距离小于半边ei，则nxk在hci内，yi∈Yk;反之，yi∈/Yk。将标签y i赋给xk<$k∈ [1.]的多标签Y k的过程。如等式20所定义的那样实现。请注意，仅需考虑Mrel|≤ e i，i ∈ [1.. | ≤ei,∀i∈[1.. q]e<$j∈[1.. Mrel]。（二十）J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）15516910、、、在构建此数据集之后，如果用户请求，则以与HyperSpheres策略相同的方式生成噪声数据集。3.3Mldatagen框架目前，这两种策略 HyperSpheres 和 HyperCubes （第 3.1 和 3.2 节）都是在Mldatagen框架中实现的，该框架可在http：//sites.labic.icmc.usp.br/mldatagen网站。在这个网站上，用户发现一个简短的Mldatagen简介，以及配置框架参数和下载输出的界面。图5a示出了参数设置界面，该界面考虑了强制参数和可选参数。用户可以在参数μ中设置一个或多个噪声电平，用“;”字符分隔它们。此外，可选参数maxR、minR、μ和name具有默认值：0。8，（q+ 1）/q，{0. 05; 0. 1}和“数据集测试”。在填写字段后，用户应点击(a)Mldatagen参数设置（b）由Mldata生成的数据集的Mulan统计量Gen图五. 框架截图为了避免设置无效值，验证了第3.1节中描述的约束。如果任何约束条件未满足，Mldatagen将显示一条错误消息，指出应检查的参数170J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155执行后，Mldatagen显示有关生成的数据集的信息，例如所使用的几何形状内的实例分布和多标签统计数据，这些信息由Mulan计算，如图5b所示。要下载Mldatagen输出，用户应点击“下载生成的数据集”按钮。输出由一个根据模式_y>_w>_z>.tar.gz其中是策略（HyperSpheres或HyperCubes），、和是分别表示相关、不相关和冗余特征的数量的数字。如前所述，此压缩文件包含用户指定的无噪声合成数据集，以及μ参数中每个噪声水平设置的一个合成数据集。每个数据集都可以直接提交给木兰学习。4说明性示例使用Mldatagen生成6个合成多标记数据集，3个使用超球体策略，另外3个使用超立方体策略。为了生成数据集，使用Mrel、Mirr和Mred参数的不同值选择这些值是为了分析特征的数量（M=Mrel+Mirr+Mred）和不重要特征的数量（Mirr和Mred）如何影响Mulan中可用的多标签BRkNN-b学习算法的性能[13]。在下文中，介绍了有关生成的合成数据集、BRkNN-b和分类结果的信息4.1数据集描述将参数Mrel、Mirr和Mred设置为不同的值。表2显示了这些值和用于每个数据集的生成策略表2六个合成数据集中相关、不相关和冗余特征的数量数据集战略MrelMirrM红M一超球面200020B超立方体200020C超球面105520D超立方体105520E超球面5005F超立方体5005除了这些特征之外，Mldatagen还使用默认值参数执行，除了噪声水平μ、实例数量N和标签数量q，J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155171Σ1|Y|.（21）LD（D）=|D|10其设置如表3所示。表3其他Mldatagen参数的设置q N maxR minR μ1010000.8，（q+1）/q，0表4显示了每个数据集的单标签频率;最低和最高单标签频率，以及第一，第二（中位数）和第三四分位数，如[ 14 ]所示;标签基数（LC），这是与公式21定义的每个示例相关的单标签的平均数量;标签密度（LD），这是归一化基数（LD（D）=LC（D）/|L|由等式22定义。1LC（D）=|D|我Σ|Yi|.（二十二）|D|i=1|i =1|i=1 |L|图6通过箱形图描绘了单标记频率的分散，其中虚线在频率= 500（50%）处。可以观察到，数据集A和B的所有单标记频率均不高于50%。此外，具有较少特征的数据集（E和F）具有较高的单标签频率，第三四分位数位于虚线上方。A B C D E F图第六章单标签频率的箱形图表5示出了对于每个合成数据集，数据集中多标记的百分比，其中标记的数量范围为1至10。例如，在数据集A中，45.90%的多标签只有一个单标签，30.90%有两个单标签，对于6个单标签，这个百分比降低到0.50%。此外，不存在具有超过6个单标签的多标签。可以观察到，在具有M= 20个特征的四个数据集中，单标签的数量越高，多标签中的百分比越低。另一方面，具有M= 5特征的数据集E和F显示出更好的频率分布。这些不同的行为可以用维数灾难来解释[8]，这可能会损害高维数据的分析200600400800172J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155表4合成数据集的单标签频率和多标签统计数据集一BCDEFy16538255310928440y24761306397274633y32499488225729361y4699758867726648y550015578553446810y65720917153210187y715134217775294461y8487746850425855y92216611623657776y10499769319197326最低48666353197 40第一四分位数5994.880.580.5262 103.8第二四分位数110113.5143.5167289 343.5第三四分位数242195.5395.3298.3544.3 590最高500382588553729 810LC1.891.652.372.244.003.60LD0.190.170.240.220.400.364.2多标记BRk NN-b学习算法惰性算法在评估具有不相关特征的数据集时很有用，因为由这些算法构建的分类器通常容易受到不相关特征的影响。多标签学习算法BRkNN是单标签惰性k最近邻（kNN）算法的适应，用于对[13]中提出的多标签示例进行它基于众所周知的二进制相关性方法，该方法将多标签数据集转换为q个单标签数据集，每个标签一个在转换数据之后，kNN分别对每个单标签问题进行分类，然后BRkNN将q个单标签分类器中的每一个的预测尽管算法之间存在相似性，但BRkNN比根据BR方法应用的kNN快得多，因为BRkNN仅对k个最近邻居执行一次搜索。J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155173表5具有不同数量标注的多个标注的百分比|Y|数据集一BCDEF145.9058.6033.70 37.9016.2014.50230.9025.8025.70 29.0016.6016.70314.409.8020.0015.2012.50 20.3046.903.9013.3010.4016.4016.9051.401.705.204.7011.1014.2060.500.201.902.4010.8010.4070.000.000.200.708.206.1080.000.000.000.005.100.9090.000.000.000.002.500.00100.000.000.000.000.600.00为了提高预测性能并直接解决多标签问题，在[13]中还提出了扩展BRkNN-a和BRkNN-b。这两种扩展都基于标签置信度得分，该得分是根据具有该标签的k个最近邻居的百分比来 BRkNN-a使用置信度得分大于0的标签对一个看不见的例子E进行分类。5即，E的k个最近邻的至少一半中包括的标签。如果没有标签满足此条件，则输出具有最大置信度分数的标签。另一方面，BRkNN-b用具有最大置信度得分的[s]（s的最近整数）标签对E进行分类，其中s是E的k个最近邻居的标签集的平均大小。在这项工作中，我们使用了[7]中提出的BRkNN-b扩展，并在木兰中实现，该扩展在k= 11时执行，其余参数为默认值。4.3结果和讨论所有报告的结果均由Mulan使用5x2倍交叉验证获得，该交叉验证随机重复5次2倍交叉验证。使用第2.1.1节中描述的评估措施来评估BRkNN-b构建的分类器。表6示出了评价测量值的平均值和标准偏差（括号中）。基于实例的评估测量在表6中表示为：汉明损失（HL）;子集准确度（SAcc）;精确度（Pr）;召回率（Re）;准确度（Acc）。基于标签的评价指标表示为：微平均精确度（Pμ）;微平均召回率174J.T. 托马斯等人/Electronic Notes in Theoretical Computer Science 302（2014）155（Rμ）;微观平均F-测量（F1μ）和宏观平均召回（RM）。M= 20的数据集之间以及两个数据集

下载后可阅读完整内容，剩余1页未读，立即下载