基于随机森林的特征迁移方法在异质域中的应用

197 浏览量更新于2023-10-30 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

人工智能268（2019）30基于随机森林的有SanatanSukhija，Narayanan C.Krishnan计算机科学与工程系，印度理工学院Ropar，Rupnagar，旁遮普，PB 140001，印度Ar t i cl e i nf o a b st r a ct文章历史：2017年1月18日收到收到修订版，2018年8月17日接受，2018年在线发售2018年关键词：特征迁移学习异构域自适应随机森林一般来说，由于特征的异质性和不同域的数据点之间缺乏对应性，跨异质特征空间的迁移学习在实践中可能是一个非常困难的问题。在本文中，我们提出了一种新的监督域自适应算法（SHDA-RF），将知识从数据丰富的源域转移到目标域，只有很少的训练实例。所提出的方法利用随机森林来识别桥接两个域的枢轴特征。关键的想法所提出的特征转移方法的一个优点是，决策树中通向数据分区的每条路径都与某个标签分布相关联，并且出现在源和目标随机森林模型中的标签分布可以用作桥接两个域的枢轴。该信息用于生成稀疏特征变换矩阵，该矩阵将模式从源特征空间映射到目标特征空间。然后，目标模型与投影的源一起重新训练数据我们在不同维度和稀疏度的不同数据集上进行了广泛的实验，以验证所提出的方法优于其他基线和最先进的传输方法。2018 Elsevier B.V.保留所有权利。1. 介绍监督学习是从标记的训练数据中学习函数的任务，这些数据可以推广到看不见的测试数据。学习的模型必须是鲁棒的，需要足够的训练数据[1]。然而，对于许多现实世界的问题，收集标记的数据往往是非常昂贵和繁琐的。迁移学习算法可以通过利用关于任务的信息来减轻在域（通常称为目标域）中学习任务的这个问题，以及来自单个或多个辅助域（称为源域）的数据。迁移学习算法已经在各种应用中得到了应用，例如活动识别（AR）[2执行传输的一个流行设置是源域和目标域由同一组特征表示[8此设置的目标是最小化源域和目标域的数据分布差异。然而，对于跨不同语言的情感分析[11]和跨不同领域的活动识别[12]等应用，源数据和目标数据使用不同维度的异构特征表示，这些特征可能重叠也可能不重叠。域的异构性防止来自源域的标记数据被直接添加到目标域。这种异质领域的迁移学习可以通过以下方式进行：首先弥合*通讯作者。电子邮件地址：sanatan@iitrpr.ac.in（S.Sukhija），ckn@iitrpr.ac.in（N.C.Krishnan）。https://doi.org/10.1016/j.artint.2018.11.0040004-3702/ 2018 Elsevier B. V.保留所有权利。目录可在ScienceDirect人工智能www.elsevier.com/locate/artintS. 北卡罗来纳州苏希亚克里希南/人工智能268（2019）30-5331i=1j=1∈Y/=∈ ∈Y∈∈Fig. 1. 三个CASAS智能家居的布局在布局和部署的传感器数量方面有所不同。黑色方块代表的传感器。不同领域的特征。本文提出的特征转移方法[13]受到两个应用的启发，即智能家居中的活动识别和跨语言文本/情感分类。基于智能家居的活动识别处理通过一系列传感器观察捕获的智能家居居民的日常活动。在智能家居中识别个人活动的能力具有许多应用，例如促进节能家电的使用，监测和跟踪个人的功能健康状况，开发可以根据活动内容为居民提供帮助的辅助系统。监督算法的使用需要标记传感器读数，这是非常耗时的。利用来自其他智能家居的标记数据的迁移学习算法可以克服一些注释问题。然而，部署在不同地方的传感器的不同布局和类型导致异构特征空间[14]，从而需要特征转移方法。利用从源智能家居到目标智能家居的数据的任务被称为跨域活动识别。图1示出了三个实施例的布局和传感器位置的差异。本文使用的CASAS数据集[15]中的智能家居为了避免标注的文本文档中的可用标记的文档的数量是稀缺的域的注释工作，可以利用相关的辅助域的标记的文档。例如，训练一个模型为了预测用德语撰写的评论的极性，需要足够数量的标记的德语评论来学习该模型。如果数量稀少，迁移学习算法可以帮助利用标记文档中的知识用其他语言比如英语写的这被称为跨语言情感/文本分类。使用来自不同物理源的标记文档会导致词汇差异，这需要迁移学习方法[16]。我们在两个基准数据集上进行实验，即Amazon跨语言情感（CLS）数据集和路透社多语言数据集，比较跨语言传输性能的算法对几个基线和传输方法。给定目标中只有几个标记的实例，我们利用源域和目标域中的公共标签来导出相应特征空间之间的关系。两个域之间的桥梁是公共标签空间。我们的算法的关键假设是，在源域和目标域的特征，具有相似的标签分布的数据分区，必须相互关联。跨两个域的共享标签分布充当用于学习特征空间之间的映射的枢轴。所生成的稀疏映射将目标特征表示为源特征的线性组合。该映射是在不假设源数据点和目标数据点之间的任何对应关系的情况下估计的。1.1. 问题定义让 {X S，Y S}m和 {X T，Y T}n表示源域中的标记实例的集合 S 和靶结构域T其中，m=n。 XSRdS 是一个源数据点，yS是对应的类标签。同样，x T研发是目标数据点，yT是其关联标签。描述x S和x T的特征是异质的，D T.它期望跨域的特征是相关的，以确保跨异质特征空间的正传递我们假设源域和目标域共享一个公共标签空间。设共享标签的数量为k。我们的目标是学习一个映射P：RdS→RdT，使得来自源域的数据可以映射到目标域。这个映射的源数据然后可以与目标数据结合使用，以学习假设h：RdT→Y。1.2. 贡献本文的贡献可归纳如下：1. 该算法产生一个异构的特征空间类不变的映射，假设没有对应的数据点的域共享没有重叠的功能。2. 我们的算法不需要计算用于纠错输出码的最佳码矩阵，这是一项具有挑战性的任务，这是当前监督的最先进特征转移算法的要求[5]。所提出的算法利用决策树模型的叶节点处自然发生的标签分布作为支点，生成映射PSRdS×dT3. 在不同数据集上进行的实验表明，即使在目标域中只有32S. 北卡罗来纳州苏希亚克里希南/人工智能268（2019）30-53：→：→本文讨论的方法和实验是Sukhija等人[17]提出的工作的扩展。我们扩展的初步算法，以增加源和目标之间的枢轴的数量，通过考虑詹森-香农分歧（JSD）之间的标签分布观察到的域。我们还讨论了两个现实世界的跨语言文本分析任务的实验结果。我们在对最先进算法的比较中包括异构特征增强（HFA）[18]，这是最近提出的一种方法此外，我们还研究了在源/目标域中重新训练是否比重用源模型更有好处（第5.3节）。除了更广泛的相关工作部分以及结果和讨论部分之外，其他值得注意的贡献包括通过利用目标特征之间的依赖关系来学习更鲁棒的映射（第5.2节）和量化所学习的映射的适合性（第5.4节）。2. 相关工作传统的监督算法假设训练和测试数据来自相同的分布，并且必须属于相同的特征空间[19]。如果分布差异显著，则采用域自适应来减少条件和边际分布差异[20领域自适应方法不能直接应用于使用异构特征空间表示领域的场景。为了将标记/未标记的知识从源域利用到不同但相关的目标域，第一个任务是桥接异构的do，电源。异构域自适应（HDA）旨在确定将异构特征空间转换为大多数HDA文献依赖于显式特征和实例对应来导出映射[24]。对于跨语言文本/情感分类任务，在对应关系不明确的情况下，使用外部来源，如神谕，字典，社交媒体和翻译器是主要的[25确定异构源和目标特征空间之间的共同特征以用于诸如活动识别和图像分类的现实世界分类任务的任务是一个困难的问题，因为特征对应性不是微不足道的。一些无监督/半监督转移方法通过使用元特征来统一异构特征空间[29 这些元特征可以由领域专家指定，也可以通过算法学习。基于学习的映射类型，HDA的方法可以大致分为三类，即特征重映射、潜在空间变换和混合特征增强。要素重映射方法确定用于将源要素转换为目标要素或将目标要素转换为源要素的映射，即P SXSX T或P TXTX S。产生的映射通常是多对一的。要素重映射可以反过来两种类型：第一种是源域和目标域的各个特征之间存在明确的对应关系，第二种是源或目标特征被表示为来自另一个域的特征的组合（通常是线性的）。一对一源到目标特征重映射的方法包括遗传算法和其他贪婪方法，以获得最佳映射，使用分类准确率或未加权平均召回率作为性能度量[33]。贪婪方法往往是计算密集型的，因为穷举搜索涉及比较每对特征。一些最近的算法依赖于用于对齐特征空间的域独立特征（也称为枢轴）[20，34，35]。这些方法将域的特征划分为独立集和依赖集。目标是通过使用独立特征来学习相关特征之间的映射。光谱分析真实对齐将各个域的特征一起建模为图的节点，并将域独立特征和域特定特征之间的关系建模为边。然后使用谱聚类算法从共同对齐的二分图中获得特征聚类，该二分图用作传输的公共子空间[36]。这种转移算法的适用性仅限于那些主元和主元之间的关系和特定领域的特征是显而易见的。在没有明确的领域独立特征的情况下，领域特定特征的统计特性已被用于导出Meta特征以桥接域[37]。跨语言文本分类方法试图将特定领域的特征与跨领域的一些频繁出现的枢轴特征相关联，以获得映射。结构对应学习（SCL）[38]的动机是存在这样的共享枢轴特征，这些特征在这两个领域中表现出与区分学习相同的方式。在手动定义足够数量的频繁出现的特定于任务的信息枢轴特征之后，SCL试图发现这些枢轴与跨域的其余特征之间的关联[20]。在大多数现实世界的HDA场景中，这些共享的突出枢轴的存在是模糊的。另一种受SCL启发的跨语言文本分类方法利用了显式可用性，跨语言情感分类的特征对应性[26]。源域中对任务具有高频率和最大信息量的特征被选为候选主元特征。一个翻译甲骨文被用来识别跨领域的跨语言单词对应的一对一映射。翻译的语义在目标域的分类任务中受到预言诱导的偏见，假设两个域的特征之间存在一些对应关系。此外，机器翻译是一项耗时且昂贵的任务。稀疏异构特征重映射（SHFR）[5]利用跨域的共享类标签来学习类不变的稀疏映射，可以桥接异构特征空间。针对域之间的公共标签训练的支持向量机分类器的权重向量充当跨域对应。SHFR采用合成生成的纠错输出码（ECOC）来生成更多数量的跨域权重向量对应，以估计鲁棒映射。期望类别标签是独立的，因为由于ECOC生成过程的随机性，无法有效捕获不同标签之间的关系[39]。因此S. 北卡罗来纳州苏希亚克里希南/人工智能268（2019）30-5333·XX选择最佳码矩阵对于SHFR ECOC是一个具有挑战性的问题。由于类标签的数量相对较少，已经观察到ECOC的性能在各种数据集上劣于类二值化方法[40]。在学习了转换之后，SHFR方法重用源模型对目标测试数据进行性能评估。对于可以容忍性能和计算复杂度之间的权衡的离线场景，可以利用目标域中的可用标记数据来进一步增加最终模型的鲁棒性潜在空间变换（LST）方法确定将不同域的数据投影到公共潜在空间上的变换。这类方法试图通过嵌入，投影或统一数据来学习新的特征空间。在智能家居活动识别的上下文中，跨具有不同传感器模态的两个布局来概括共同特征并不是微不足道的。手动统一异构布局的简单方法定义了所有智能公寓共享的公共元特征空间。这些元功能可以通过以下方式手动指定：一个领域的专家或可以从结构，时间，空间或功能的原始特征的相似性[31]。手动映射不是最佳的，并且差的映射会极大地阻碍模型的识别性能对于通用HDA任务，这类方法计算两个投影矩阵PS∈Rds×d和PT∈Rdt×d，源域和目标域，使得投影的源空间B S：（P S · X S）和投影的目标空间B S：（P S · X S）之间的差BT（PTX T）最小化，同时尝试保留原始要素的某些特性空间.等式（1）描绘了用于试图将数据投影到公共潜在空间上的算法族的典型优化框架。在这个等式中，D表示损失函数，R对应于正则化子。目标是在问题设置中定义的约束Q下最小化损失minPS，PTD（BT，BS，PS，PT，W）+R（PS，PT）服从Q（1）根据域之间的特征关系，在正则化项中引入了稀疏性、线性度等属性。半监督子空间共投影（SCP）方法试图通过在其优化框架中利用标记和未标记数据来弥合潜在子空间中的特征发散差距[41]。歧管对齐基于的方法通过做出流形假设来确定变换空间，其中映射使域的数据分布彼此更接近，同时保留局部几何结构并最大化嵌入空间中的对齐[42，43]。在流形对齐框架中，几何属性（诸如双线性（Px=P）和正交性（Bx·B =I））被引入作为优化框架中的约束，用于学习映射.流形对齐算法的可行性受到用于学习鲁棒低维表示的显式跨域实例对应的存在的限制。除了保留全局几何结构之外，另一种半监督流形对齐方法还利用多源HDA的嵌入空间中的标签相似性[44]。然而，这些方法仅适用于表现出强流形属性的数据，即，训练数据不一定来自相对低维的流形。通过非负联合矩阵分解（PJNMF）[45]的分解试图最大限度地减少由于将两个域的数据集体分解为非平凡的共享枢轴（也称为主题）和特定于域的特征而产生的损失。目标函数的正则化子通过保持非平凡域特定特征彼此正交并且与枢轴正交来促进潜在特征之间的独立性。PJNMF的适用性仅限于那些隐含地共享一些共同特征的领域，例如跨语言文本分类。另一个半监督混合异构深度学习框架解决了文本分类任务中Oracle诱导的偏差和源域特征数据偏差的问题[25]。异质性规范tral mapping（HeMap）[46]是一种无监督算法，可共同优化源和目标重建误差以及投影数据中的差异。在没有明确数据对应的情况下，HeMap试图学习使用谱嵌入的两个变换矩阵。由于HeMap直接估计投影数据，估计样本外数据的投影是一个具有挑战性的问题。混合特征增强方法在优化框架中使用零或潜在特征来增强原始特征，以学习用于公共特征表示的变换。特征增强框架的一个局限性是它需要跨域实例对应关系来导出特征映射。异构特征增强（HFA）算法[18]被公式化为具有铰链损失的SVM优化问题。凸优化目标被近似为一个半定规划问题。我们的算法的目标是学习异构特征空间之间的映射，而不显式地映射两个域的特征。我们利用标签信息来导出映射，假设域共享一个共同的标签空间。如果目标域和源域具有不重叠的标签空间，则可以使用归一化Google距离来确定标签空间之间的映射[14]。该算法旨在利用标签空间分布的数据分区，以确定跨域的映射，以解决异构域适应的问题。该算法不需要跨域的实例对应关系来学习鲁棒映射。3. 拟议方法任何异构迁移学习算法的主要目标都是通过利用所考虑的领域之间的相关性来弥合领域之间的差异。对于异构特征空间之间的传输，34S. 北卡罗来纳州苏希亚克里希南/人工智能268（2019）30-53∈PSn22图2. 边界框表示实例空间的分区，其中分区的边界（彩色线）使用特征的子集定义。每个分区包含遵循特定标签分布的训练示例。SHDA-RF通过加权定义分区的特征来估计域中特征对分区标签分布的贡献。遵循相同标签分布的多个分区被分组在一起。源域中特征的估计贡献为WS，目标域中特征的估计贡献为WT。SHDA-RF假设相同标签分布的WS和WT必须彼此相关在具有不同模态（如文本和图像）的两个域上概括共同特征可能是不实际的。我们的新解决方案通过利用源域和目标域之间的公共标签信息作为知识转移的支点，桥接了异构的特征空间。所提出的算法确定源和目标特征之间的映射PS的该算法的视觉表示如图2所示。该算法分为三个步骤。第一步确定跨域具有相似标签分布的数据分区。第二步估计特征对创建数据分区的贡献。最后一步涉及从估计的特征贡献学习变换。3.1. 发现跨域特征转移问题主要是由源域和目标域的数据点之间的对应关系不可用所挑战的。如果有足够的对应关系，我们可以学习一个鲁棒的变换P S RdS×dT，如公式（2）所示，通过最小化变换损耗这里，λ是正则化参数，n是的通信。min 1||XT −XSPS ||2+λ||PS||2（二）在大多数现实世界的HDA场景中，这些对应关系是不存在的。因此，需要识别域之间的一些公共信息，这些信息可以用来桥接它们。我们的方法不假设任何重叠的功能或域/任务相关的信息，可以被利用来桥接域相关的功能。然而，所提出的算法依赖于域之间的公共标签空间，即源域和目标域具有公共标签集。我们的特征转移方法利用公共标签空间来生成对应的特征向量，两个领域。在最简单的场景中，每个共享标签都是一个pivot。如果域之间的公共标签的数量很小，学习特征变换成为一个具有挑战性的问题，因为我们需要足够数量的跨域对应[5]。我们的新标签空间驱动算法克服了这一限制，依赖于自然发生的标签分布在复杂的标签空间，而不是个别标签。共享标签分发是连接源域和目标域的枢纽。由于跨域的公共标签的数量是有限的，我们提取跨域的数据分区，显示类似的标签分布。源特征的估计贡献，朝向相同标签分布的目标特征被认为是跨域对应。为了得到这些标签分布，我们的方法着眼于在数据集上建模的未修剪决策树的叶节点。决策树遵循贪婪策略，基于某些特征值测试递归地划分数据。的路径在决策树中，从根到叶节点包含被选择为分裂函数的特征序列。候选拆分在一个节点涉及一个局部最优分割的基础上一些度量像基尼杂质，信息增益或增益比。决策树的叶节点表征数据的不同分区，每个分区具有特定的标签分布L。训练单个决策树的问题是它过度拟合数据，我们没有得到足够数量的共同点。标签在两个域中的分布。因此，我们训练了一个随机森林[47，48]，以确保有足够数量的关键标签分布来学习域之间的映射。随着树的深度增加，它倾向于过度拟合表现出高方差和低偏差的数据。随机森林模型从众多决策树中进行多数投票，以减少这种高方差而不影响偏差，其中森林中的每个未修剪决策树都是使用具有替换的随机特征子集构建的[49]。我们的算法分别从S和T构造ns和nt树3.2. 估计特征关系WS和WT该算法的下一步分别计算源域和目标域中的域相关特征与共享枢轴之间的关系矩阵WS和WT。由于我们的枢轴是标签分布，我们将这种关系定义为域相关特征对创建枢轴标签分布的贡献。这种关系可以很容易地从决策树结构中提取出来在叶节点处的数据分区的边界可以S. 北卡罗来纳州苏希亚克里希南/人工智能268（2019）30-5335∈∈·∈×PS=Np2我特征x∈X的个数I1从叶子节点获取。i=1我用沿着从树根到叶子节点的路径的特征分割来标识。在构造上，沿着从决策树的根到叶节点的路径的决策函数中的特征有助于创建分区。在决策树中，一个特征可以在从根节点到叶子节点的路径中重复任意次数。的相关性要素的“分割”由要素被选为分割节点的频率来指示。定义特征对创建分区的贡献的一种简单方法是计算该特征在路径中用作候选分裂的频率。我们比较了三种不同的约定的性能，以从决策中生成特征贡献向量。5.1节中的树路径。通常在叶节点处具有重复的标签分布，即，不同的数据分区对应于相同的标签分发。对于重复的类标签分布，对特征相关向量进行平均。该过程维持聚合向量的特征贡献。由于目标域中标记数据的稀缺性和少量的公共标签，我们很可能只有少数相同的标记分布跨域。因此，我们还考虑了相似的标签分布来提高传输性能，其中使用Jensen Shannon散度（JSD）[50]计算两个标签分布的相似性。如果源标签分布L S与目标标签分布LT之间的偏差小于10%，则称源标签分布LS与目标标签分布L T相似。我们稍后改变这个相似性阈值来研究它的影响算法（第5.6节）。因此，在这个过程的最后，对于S和T之间的每个共享关键标签分布，我们也有域与这些枢轴的从属特征关系。基于相似的源和目标类别标签分布，将估计的特征贡献矩阵WSRNP×DS和WTRNP×DT映射为源投影矩阵PS，其中NP为主元数.使用随机森林模型的优点在于，可以从单个模型估计跨源和目标的枢轴以及域相关特征与枢轴之间的关系，从而减少了计算量。转让方式的复杂性。下一节将描述如何从导出的特征贡献矩阵中估计跨域的特征对应关系。3.3. 导出特征变换从跨语言知识迁移的角度来看，一个词可以在不同语言的同一语境中与几个词互换。例如，当从英语到西班牙语进行跨语言迁移时，英语中的“great”一词与西班牙语中的“excelente，fantastica，fantasy，estupendo，fantasy”等极少数词同义。这激励学习稀疏特征映射。在我们的算法的最后一步推导出两个域之间的稀疏变换PS我们的目标是将每个目标特征表示为一小部分源特征的线性组合。最小绝对收缩和选择算子（LASSO）用于学习PS从WS和WT。它被定义为：NpdT最小值 1.W T − W S P Sλ P S 1，S.T.PSi≥0优化问题的第一部分最小化投影的源特征贡献矩阵（WS PS）和目标特征贡献矩阵WT之间的差。第二部分是L1正则化项，得到稀疏变换矩阵.正则化参数λ控制该子集的大小。存在使用最小角度回归（LARS）解决的dT最小化问题[51]。所提出的方法总结在算法1中。一旦映射P SRdS×dT 目标模型与投影的源数据（S）一起重新训练P S）。在获得映射之后，将其应用于目标测试数据通过使用从源数据中学习的假设进行分类3.4. 时间复杂度经典的随机森林模型构建了大量未经修剪的决策树，其中每个决策树都是使用来自训练集的特征装袋和自举聚合构建的，其中x∈Rd。最坏情况下的时间复杂度算法1通过随机森林的监督HDA（SHDA-RF）。输入：源数据： S∈RM×dS 和目标数据：T∈ RN×dT输出：PS∈RdS×dT1. 从源特征XS中构建一个具有ns棵树的随机森林。2. 对于从树中的节点到叶节点的路径，贡献W（.）如果一个函数被估计为W（x）=.v（1/2）v（i）whe e evholdsthel evelS 被选为候选人分裂。对应的标签分布L3. 类似地，使用从T创建的nt棵树来构造目标特征贡献矩阵WT4. 从LS和LT中删除重复项。对于LS和LT中的每个重复条目，WS和WT中的对应特征向量条目被平均。5. 返回相应的WS和WT，其中 JS D（L S，L T）<0. 1.6. 可以通过在从步骤5获得的WS和WT上运行LASSOdT次来获得映射PS36S. 北卡罗来纳州苏希亚克里希南/人工智能268（2019）30-53··+··+ ∈····SS一个未修剪的决策树的随机森林是O（ d N2log（N）） [48]，其中N表示实例的数量。在分别在S和T的标记实例上训练trs和trt决策树之后，下一步从这些决策树模型的叶节点中识别公共标签分布。在未修剪的决策树的最坏情况下，域的每个实例将形成一个叶节点。因此，找到公共标签分布的计算复杂性时间复杂度为O（ n）。对于跨域的Np个公共标签分布，与估计特征相关的成本源域和目标域的贡献向量为O（N p（d sd t））。给定一个带有目标变量Y的数据集RN×1，使用LARS实现的LASSO的计算复杂度为O（d3D2N）[52]。推导的时间复杂度使用多输出回归方法从特征贡献矩阵的变换P支配高维数据集的算法为O（dt·（d3+ d2·NP））。然而，对于具有相对较少数量的特性，SHDA-RF的时间复杂度集中在找出跨域也就是O（m·trs·trt·k）asmn。4. 实验我们将所提出的算法的性能与以下基线分类器和执行转移的方法进行比较。基线算法：随机森林（Random Forest，BRF）[49]：随机森林是决策树的集合，其中每棵树都是使用具有替换的随机特征子集构造的。随机森林中的树木数量设置为100。除了Statlog（Landsat Satellite）数据集之外，在使用特征装袋为目标域训练随机森林时，我们观察到，有些决策并没有从这些数据中学习到任何东西，这是非常重要的。因此，我们必须进行风险评估，以确定特征的数量对于100棵树，我们发现通过将d+5固定为特征装袋步骤给出了最佳结果，其中d是特征的总数[53]。使用纠错输出码的支持向量机（SVM-ECOC）[39]：在我们的实验中，我们使用具有RBF内核的SVM，因为它比具有线性和多项式内核的SVM表现出更好的性能。RBF核的框约束参数（C）以及伽马参数（γ）被设置为1，如Zhou等人所定义[5]一个公平的对比此外，我们使用纠错输出码（ECOC）来获得最佳基线SVM结果（SVM ECOC）。基于交叉验证实验，将ECOC的长度设定为35转移方法：使用ECOC的稀疏异构特征重映射（SHFR-ECOC）[5]：SHFR是一种最先进的传输算法，它通过利用公共标签作为枢轴来桥接两个域。源的SVM权重向量和针对公共标签学习的目标被视为跨域对应。由于很少有共同的标签，ECOC被用来生成更多的对应关系。此后，通过使用LASSO来学习稀疏变换生成的对应关系。异构特征增强（HFA）[18]：异构特征增强（HFA）是另一种转换方法，它将来自两个异构域的数据转换并使用两个不同的投影矩阵将其投影到公共子空间上。我们使用Duan等人提到的SVM超参数的相同值。[18]进行公平比较。异构光谱映射（HeMap）[46]：异构光谱映射（HeMap）[46]是一种无监督方法，将异构特征空间统一到保留原始结构的公共潜在空间上并且相似性被最大化。相似性置信度超参数β被固定为1，新特征空间k的维数在潜在空间中保留了95%的能量功能区（FA）转移[54]：在活动识别数据集之间传输的背景下，可以通过定义由所有智能公寓共享的公共元特征空间来手动统一异构布局。这个想法是将传感器映射到独立的功能区域，如卧室，厨房等。因此，可以通过直接将重新映射的源域数据与目标域数据组合来学习目标域我们选择了不同的数据集，不同的大小和稀疏的功能，调查不同算法的性能。CASAS数据集1[55]是一组智能家居数据集，广泛用于调查活动数据。增强现实算法。活动识别需要从传感器数据中提取特征，其中数据点表示对应于某个长度或周期的离散时间间隔的特征值的映射。它旨在根据一系列传感器观察来识别和预测智能体的动作。我们使用了这个集合中的Horizon House（hh）数据集，这些数据集是来自单个居民智能家居的传感器数据记录来自智能家居的传感器数据用作1 http://ailab.wsu.edu/casas/datasets/。······S. 北卡罗来纳州苏希亚克里希南/人工智能268（2019）30-5337关于我们表1CASAS-HH数据集摘要。数据集要素计数活动计数hh1024329hh1134830hh1184432一个是源，另一个是目标。原始输入数据是一系列传感器事件e，以e ts， s， l的形式存储，其中ts表示时间戳，s是传感器标识符，l是相应的活动标签。使用20个传感器事件的滑动窗口来构建特征向量，该特征向量由滑动窗口内的传感器事件计数以及时间特征（如一天中的时间和一周中的日期）组成[56，37]。用与滑动窗口中的最后传感器事件相关联的活动标签来注释特征向量。每个数据集中的特征和活动标签数量见表1。附近传感器的特征值似乎是相互关联的。这也促使学习稀疏特征映射而不是密集映射。目标训练集由大约7000个样本保持原始类分布。16个这样的随机子集用于评估性能不同的算法。20 Newsgroups2[57]文本集合是一个稀疏的数据集，大约有19000个文档，属于20个类别，遵循标签层次结构。迁移实验是在两个数据集上进行的，每个数据集都包含分别属于rec和talk以及rec和sci的子类别。每个数据集中共有8个类，词汇量超过26000个单词。我们只考虑了对分类任务贡献最大的前10000个特征对于每个数据集，创建两个传输设置。在第一个设置中，源和目标由5000个特征的随机和互斥分区组成。目标训练数据是通过每类随机选择10个样本来创建的。在第二种设置中，源数据集和目标数据集的角色颠倒了。由于基线SVM ECOC模型无法处理高维特征，因此在TF-IDF特征值上保留75%方差的同时进行PCA。数据集的预定义测试分区用于测试方法。Statlog（Landsat Satellite）3[58]图像数据集包括6个类别和36个实值特征。它由4435个训练集和2000个测试集的例子组成。36个特征被随机分为两个相等的组用于创建源域和目标域。为了评估不同的算法，我们使用了多组每组10个标记样本来创建目标训练数据。Amazon Cross Lingual Sentiment（CLS）数据集4[58]由三种不同产品类别（即书籍、音乐和DVD）的英文、法文、德文和日文产品评论组成。英语评论作为源域，其他语言的评论作为目标域。为了处理高维特征，在TF-IDF特征值上保留75%方差的同时执行PCA。每个类构建10个实例的目标域，剩余的实例用于测试模型的性能。这里，源域包含每个类100个标记样本多语言路透社数据集5[59]是以五种语言（英语，德语，法语，西班牙语和意大利语）编写的文档的集合，填充了六个类别。它包含大约13500-21500个文件每类和12000-30000个文件每种语言。为了比较我们的方法与转移和基线方法的性能，我们采用了与Zhou等人[5]相同的设置，其中西班牙语被用作目标域，其他语言被视为源域。每个类随机抽取10个实例，每个类随机抽取100个实例，分别创建目标域和源域。我们从目标域中选择了每个类200个随机样本作为测试数据。由于基线方法无法处理高维数据，我们使用PCA保留TF-IDF值的75%方差。在10次迭代中，在16个随机生成的子集上报告了平均误差和标准差。具体到Amazon CLS和Multi-Lingual Reuters数据集上的跨语言传输任务，我们还比较了建议方法SHDA-RF与以下最先进的跨语言传输方法的性能：跨语言结构对应学习（CL-SCL）[26]：基于SCL [20]，CL-SCL学习转换以映射源语言和目标语言的词袋表示。在这里，Google翻译服务充当翻译预言机，以获得跨语言的单词对应关系。这些双语单词对应关系作为支点来模拟源语言和目标语言词汇之间的相关性。我们执行网格搜索（在Prett等人提到的范围内。[26]）以确定不相交验证集上的最佳超参数m（枢轴数），k（奇异值分解后选择的顶部分量数）和φ（定义枢轴的阈值）。跨语言表示学习（CL-RL）[60]：CL-RL是一种半监督方法，可以学习源和目标词汇的公共嵌入（表示）与不使用标签信息的CL-SCL2 http://qwone.com/~jason/20Newsgroups/。3 https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/satimage/。4 http://www.uni-weimar.de/en/media/chairs/webis/corpora/corpus-webis-cls-10/。5 https://archive.ics.uci.edu/ml/machine-learning-databases/00259/。··38S. 北卡罗来纳州苏希亚克里希南/人工智能268（2019）30-53为了选择主元，CL-RL结合标签信息来学习用于目标预测的更有鉴别力的主元任务与CL-SCL相似，通过在Xiao等人提到的范围内使用网格搜索来确定最佳超参数。[60]。多语言无监督和监督嵌入（MUSE）6[61]：MUSE是一种特征空间重映射方法，通过以非监督方式对齐单语单词嵌入空间来学习两种语言之间的双语词典。该方法使用对抗训练和迭代Procrustes精化来学习从源到目标词嵌入的映射。在我们的实验中，我们使用预训练的fastText7维基百科嵌入[62]源和目标域数据。跨语言单词嵌入映射（vecmap）8[63]：vecmap是一种潜在空间转换方法，将单语单词嵌入映射到公共空间。无监督的方法建立在一个初始的弱映射，利用嵌入空间的结构，结合一个强大的自学习双语词典提取方法。与MUSE实验类似，我们使用fastText单语词嵌入源语言和目标语言。5. 结果和讨论表2报告了不同分类器在数据集上的性能。所有数据集的共同观察结果是基线随机森林（BRF）模型的性能优于其他基线和一些迁移学习方法。这是采用随机森林模型进行传输的另一个动机SHDA-RF算法在CASAS-HH数据集上的性能明显优于所有其他方法约 2 <-3%（p 0 . 05）。05）。在基线分类器中，BRF模型的表现明显优于SVM ECOC。这可以通过考虑数据集中的活动标签是由人类使用基于规则的语法来注释的来解释。还可以注意到，基于SVM ECOC的转移策略SHFR ECOC的性能明显优于SVM ECOC。另一种基于特征增强（HFA）的传输策略的性能明显优于SVM ECOC。这表明，这两个领域之间的知识转移的可能性，这是进一步加强了由SHDA-RF比BRF模型获得的性能改善用于在活动识别数据集上执行传输的另一种常见策略是定义一个映射，该映射聚合传感器以形成布局独立功能区（FA）[54]作为显式元特征空间。例如，“卧室”中的各个传感器都聚集在一个功能下。这样的抽象对于源域和目标域两者是共同的，并且因此可以通过直接将重新映射的源域数据与目标域数据组合来学习目标域的活动模型。从表2中可以观察到，该方法的性能比BRF模型差。由于不同传感器事件的聚合，这种统一策略导致传感器特定信息的潜在丢失，这对于区分同一功能区域中发生的活动至关重要。例如，在所有智能家居数据集中，单个前门传感器用于定义“进入家庭”和“离开家庭”的活动此外，功能区域被定义为布局的分区，其中传感器可以仅属于功能区域中的一个，但这不是一个分区。理想的情况总是。另一方面，FA方法，一种无监督传输方法，表现明显优于其他无监督传输方法，即HeMAP（线性和非线性）。在高维的20个新闻组数据集上，SHDA-RF与所有其他方法相比具有更好的性能。SHDA-RF和下一个最佳分类器SHFR-ECOC的性能差异平均为7-<8%（p值0 . 05）。05）。处理高维稀疏数据，每个类只有几个样本，需要使用SVM ECOC和SHFR ECOC方法的降维技术。尽管Zhou等人[5]提到SHFR-ECOC可以处理高维数据，但实验结果表明并非如此[17]。要注意的是，降维不作为用于转移方法的预处理步骤来执行然而，所提出的方法不需要这样的预处理步骤，并且能够在原始高维空间中很好地学习。从观察结果可以明显看出，无监督特征转移方法HeMAP（线性和非线性）在这些数据集上表现非常差。HeMAP方法试图估计以下之间的直接映射：源数据和目标数据。在源数据和目标数据之间存在显式对应关系的情况下学习这种映射比一般情况下更容易。即使数据点之间有明确的对应关系，无监督传输方法的性能也无法与其他技术相提并论[17]。 SHDA-RF在Statlog数据集上的表现略好于BRF。它只能在两种设置中的一种设置中显著优于BRF模型。虽然SVM ECOC和SHFR ECOC的性能差异不显著，但如果考虑，它的性能更好比SHFR ECOC转移模型更好。较小的改进幅度可以归因于数据集的属性，即密集和实值。对于Amazon跨语言情感数据集，实验结果表明，迁移方法SHFR- ECOC和HFA的平均性能显著优于基线SVM-ECOC，分别为13-<14%和7-8%（p值0 . 05）。05）分别。这表明人们可以成功地跨语言转移知识基线随机森林模型6 https://github.com/facebookresearch/MUSE。7 https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md。8 https://github.com/artetxem/vecmap。··表2性能比较以平均误差（%）表示。与BRF和SHFR-RF相比具有统计学显著性的SHDA-RF结果以粗体突出显示，并分别以小写字母表示。CASAS HH数据集基线结果转移结果S→ TBRFSVM ECOCSHFR ECOCHeMap-LHeMap-NLFAHFASHFR-RF

下载后可阅读完整内容，剩余1页未读，立即下载