专家知识边缘到网络：提升神经网络性能

41 浏览量更新于2023-12-04 收藏 2.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

KINN：在神经网络中解释专家知识Muhammad Ali Chattha123，Shoaib Ahmed Siddiqui12，Muhammad ImranMalik34，Ludger van Elst1，Andreas Dengel12，Sheraz Ahmed11德国人工智能研究中心（DFKI），德国凯泽斯滕2TU Kaiserlestern，Kaiserlestern，德国。3巴基斯坦伊斯兰堡国立科技大学4巴基斯坦伊斯兰堡国家人工智能中心深度学习实验室摘要人工神经网络（ANN）从大量数据中学习精确模式的能力人工神经网络的承诺，自动发现和提取有用的特征/模式，从数据，而不停留在域expertise虽然似乎非常有前途，但代价是高度依赖于大量的准确标记的数据，这往往是很难获得和制定，特别是在时间序列领域，如异常检测，自然灾害管理，预测性维护和医疗保健。由于这些网络完全依赖于数据而忽略了一个非常重要的模态，即专家，因此它们无法从专家知识中获得任何好处，而专家知识在许多情况下是非常有用的。在本文中，我们试图弥合这些数据驱动和专家知识为基础的系统之间的差距，介绍了一种新的框架，将专家知识边缘到网络（KINN）。将专家知识集成到网络中具有三个关键优点：（a）减少训练模型所需的数据量，（b）通过获得两全其美，提供所得分类器性能的下限，以及（c）改进模型参数的收敛性（模型在较少的时期内收敛虽然专家在解决不同的任务方面非常出色，但也有一些趋势和模式，通常只隐藏在数据中。因此，KINN采用了一种新的剩余知识合并方案，该方案可以自动确定专家所做预测的质量，并通过从数据中学习趋势/模式来进行相应的具体而言，该方法试图使用包含在一种模态中的信息来补充另一种模态所遗漏的信息我们评估KINN在现实世界的交通流量预测问题。在孤立评估时，KINN显着超越了专家网络和基础网络（在这种情况下是LSTM）的性能，突出了其在任务中的优越性。深度神经网络（DNN）通过在图像分类（Krizhevsky，Sutskever和Hinton 2012），玩棋盘游戏（Silver等人2016），自然语言处理等应用中表现出令人难以置信的性能，彻底改变了人工智能领域。版权归作者所有。以.马丁，K. Hinkelmann，A. Gerber，D.Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。ing（Conneau et al. 2017）到语音识别（Hinton等，2012年）。其中最大的亮点可能是Google DeepMind因此，取代人类表现的想法开启了人工智能研究和兴趣的新时代然而，DNN的成功掩盖了它的局限性。可以说，最严重的限制是它高度依赖于大量准确标记的数据，而这些数据在许多应用中是不可用的（Sun et al.2017）。在异常检测、自然灾害管理和医疗保健等领域尤其如此。此外，仅基于数据训练网络可能会导致在数据中不常见或不太常见的示例上性能不佳，并且还可能导致违反直觉的结果（Szegedy et al. 2013年）。人类倾向于从特定于问题的示例中学习知识和经验（湖，Salakhutdinov和Tenenbaum 2015）。这使得人类可以仅仅通过获取有关问题的知识来学习，甚至不需要查看与之相关的数据领域专家对属于其专业领域的任务相当精通，因为他们对问题有广泛的知识和理解，这些知识和理解是他们通过相关教育和经验超时获得的。因此，他们在处理问题时依靠由于其深刻的见解，专家预测甚至可以作为衡量DNN性能的基线然而，不可否认的是，除了知识之外，数据还包含一些有用的信息来解决问题。这一点尤其得到了DNN所取得的惊人成果的巩固，DNN仅依赖于数据来查找和利用数据本身所包含的隐藏特征（Krizhevsky，Sutskever和Hinton 2012）。因此，一个自然的进步是将这些独立的知识流，即从数据中提取的知识和专家事实上，为DNN补充专家知识和预测以提高其性能已经得到了积极的研究。在数据中的类之间共享知识的方式已经在零射击学习中被考虑（Rohrbach，Stark和Schiele 2011），其中类之间的语义相关性用于找到与已知的。虽然这些技术采用知识转移，但它们仅限于数据域，并且知识是从数据本身中提取和共享的，而无需专家的任何干预。类似地，使用蒸馏技术将专家知识和意见合并在一起，其中专家网络产生DNN试图模仿的软预测或 DNN 预测的后验正则化形式（Hinton，Vinyals和Dean 2015）。所有这些技术都试图用专家知识来加强DNN。然而，没有考虑专家模型不可靠甚至是随机的情况。此外，直接尝试模仿专家网络预测具有关于专家所做预测的高质量的隐含假设我们认为，理想的专家网络的合并将是一个网络的优势，促进和弱点被抑制。因此，我们引入了一个新的框架，知识集成神经网络（KINN），其目的是集成知识驻留在异构源，在预测的形式KINN可以在专家和DNN的预测一致的情况下以及在它们完全不相交的情况下成功地集成知识。找到最先进的DNN或专家模型不是这里的目标，而是设计一种策略，以便于将专家知识与DNN集成，从而使最终网络实现两全其美。在KINN中采用残差方案将专家知识纳入网络中具有三个关键优点：（a）显著减少了训练模型所需的数据量，因为网络必须学习残差函数，而不是学习完整的输入到输出空间投影，（b）KINN性能的下限基于两个后续分类器的性能，实现两全其美此外，由于DNN本身是数据驱动的，这使得KINN足够强大，可以处理专家模型做出的预测不可靠甚至无用的情况。本文的其余部分结构如下：我们首先提供了一个简要的概述，在过去的专家知识纳入的方向所做的工作。然后，我们解释了建议的框架，KINN，详细。在此之后，我们提出了关于不同的实验，以证明KINN的专家知识整合任务的有效性进行最后，对全文进行了总结.相关工作将领域知识和专家意见集成到网络中是一个活跃的研究领域，甚至可以追溯到90年代初。基于知识的人工神经网络（KBANN）是由Towell和Shavlik 1994年提出的。KBANN使用知识的形式，命题规则集是分层结构。除了将输入直接映射到输出之外，规则还规定：临时结论。该网络被设计为与规则集的元素一一对应除了这些基于规则的连接和神经元之外，还添加了额外的神经元来学习规则集中未指定的特征。也遵循了类似的方法（Tran和Garcez 2018）。虽然这些方法直接将知识纳入网络，但它们也限制了网络体系结构，迫使它与规则库严格对应因此，这限制了使用替代架构或采用不直接遵循规则集定义的结构的网络(Hu等人，2016）使用一阶逻辑规则集成专家知识，通过迭代知识蒸馏将其转移到网络参数（Hinton，Vinyals和Dean，2015）。DNN试图模拟专家网络做出的软预测，将专家知识灌输到网络参数中。因此，专家网络充当DNN（即学生网络）的教师。目标函数被视为模拟教师网络做出的软预测和真实硬标签预测之间的加权教师网络也在每个迭代步骤中更新，目标是找到适合规则集的最佳教师网络，同时也保持接近学生网络。为了实现这一目标，教师网络和学生网络的softmax输出层所做预测的概率分布之间的KL发散这充当对模型后验的约束。建议的框架工作进行了评估的分类任务，并取得了优越的结果相比，其他国家的最先进的模型在当时。然而，该框架强烈依赖于专家网络进行参数优化，并且不适合专家知识不全面的情况。专家知识被纳入关键短语提取（Gollapalli，Li和Yang 2017），其中他们定义了标签分布规则，该规则规定了单词成为关键短语的概率例如，该规则阐明，出现在文档以及标题中的名词有90%的可能是关键短语，并且因此充当为分类任务提供弱监督类似地，由规则集给出的分布与模型估计值之间的KL发散被用作用于优化的目标函数同样，由于模型利用知识来加强网络的预测，它将网络的依赖性从训练数据转移到准确的专家知识，在某些情况下，这可能只是一个有根据的猜测。类似地，（Xu et al. 2017）通过导出语义损失函数将符号知识纳入网络，该语义损失函数充当网络输出和逻辑约束之间的桥梁语义损失函数基于命题逻辑形式的约束和网络计算的概率。在训练过程中，语义损失被添加到网络的正常损失中，从而充当正则化项。这确保了符号知识在更新网络参数中发挥作用。{}−W›→X∈LL l=1L(Wu 等人 2016 ）提出了知识增强混合神经网络（KEHNN）。KEHNN利用知识与网络相结合，以满足文本匹配在长文本。在这里，知识被认为是从其他算法中获得的全局上下文，例如主题，标签等，这些算法从多个源和数据集中提取信息。他们采用twitterLDA模型（Zhao et al. 2011）作为先验知识，在过滤长文本中的噪音方面很有用。在模型中的双向门控递归单元（GRU）上增加了一个称为知识门的特殊门，控制专家知识流入网络的信息量。KINN：提议的框架问题形式化时间序列预测由于其高影响力而具有重要意义，特别是在一个典型的预测设置中，一系列的值 xt1，xt2，.，x tp用于预测时间步长t处的变量值，其中p是用于特定预测的过去值的数量，我们将其称为窗口大小。因此，该模型是从过去的观测值到未来值的函数映射。该参数映射可以写为：xt= φ（[xt−1，xt−2，...，xt−p];W）其中W={W，b}封装了图1：按30分钟窗口分组的交通流量数据数据集我们评估KINN的加州交通绩效测量系统（PeMS）的数据。这些数据包含测量加州高速公路上车辆交通流量的传感器读数记录。由于完整的PeMS数据集在其大小方面是庞大的，包括来自多条高速公路的记录，因此我们仅考虑了其中的一小部分用于我们的实验，即从2016年1月到2016年3月的Richards Ave上的交通流量1。该数据集包含关于每30秒在大道上通过的车辆数量PeMS还包含关于车辆的其他细节，然而，本文中我们仅考虑平均交通流预测问题将数据分组为30分钟窗口。我们的目标是预测在接下来的30秒内，每30秒平均车辆数网络和φ：RpR定义了来自内部的映射，把空间放到输出空间。基于在训练数据集上计算的经验风险来计算网络的最佳参数使用MSE作为损失函数，优化问题可以表述为：W=argmin1（x−φ（[x，.，x];W））2分钟图1提供了分组数据集的概述数据清楚地显示出季节性成分以及峰值的高方差。基线专家和深度模型LSTM在一系列由顺序数据组成的不同域W|X|不x∈Xt−1t−p（一）例如语言翻译（Weiss等人，2017），手写和语音识别（Zhang等人，2017）。2018; Chiu et其中表示训练序列的集合，并且xRp+1。解决包括数千个（如果不是数百万个）参数的该优化问题需要大量数据，以便成功地约束参数空间，使得获得可靠的解。另一方面，人类利用他们的现实世界知识以及他们过去的经验来预测未来。KINN的目的是将这种真实世界的知识以专家的形式注入系统。然而，如前所述，从专家的信息可能是不可靠的，因此，KINN提出了一种新的残差学习框架，将专家知识纳入系统。残差框架根据专家意见调节网络的预测。因此，网络充当用于校正的实体。2018）。由于我们处理的是序列数据，因此，LSTM是我们的基线神经网络模型的自然选择。虽然这项工作的目的是发展一种能够融合包含在两种不同模态中的有用信息的技术，无论其细节如何，我们仍然花费了大量的计算时间来发现最佳网络超参数。这是通过网格搜索限制在一个合理的超参数搜索空间。超参数搜索空间包括网络中的层数、每层中的神经元数量、每层的激活函数以及窗口大小p。还分析了序列的部分自相关性，以确定时间序列中当前值与其滞后版本的关联，如图2所示。从图中可以明显看出，该系列与其过去专家创造的价值这使我们的系统完全依赖于专家知识。第1http://www.stat.ucdavis.edu/~clarkf/不›→不图2：时间序列图3：神经网络架构三个价值观。选择窗口大小为3的网格搜索的结果也巩固了这一点最终的网络由三个隐藏的LSTM层和一个密集的回归层组成。除了使用sigmoid的第一层之外，还使用了Rectified Linear Unit（ReLU）（Glorot，Bor.因为专家网络似乎是可信的，如图所示4（a）.然而，只有通过在更小范围内进行彻底的检查和调查，才能揭示每个网络的优点和缺点，如图4（b）所示。LSTM倾向于捕捉数据的整体趋势，但在预测时间序列中的小变化时会受到另一方面，SARIMA在预测时间序列的变化方面更准确。在MSE方面，与专家模型相比，LSTM模型表现得相当差对于这个数据集，发现的LSTM模型在测试集上实现了5.90的MSE，而SARIMA实现了1.24。KINN：知识集成神经网络文献中的大部分工作（Hu et al. 2016; Gollapalli，Li和Yang 2017）将专家知识融入神经网络集中于通过迫使网络模仿专家网络做出的预测来训练网络，因此基于专家的信息更新网络的权重。然而，它们不适合专家网络不包含关于所有可能的场景的信息的场景此外，这些基于混合知识的网络方法通常应用于网络的输出向量对应于概率分布的这允许KL-发散被用作目标函数以最小化，以便匹配网络和专家网络的预测在时间序列预测的情况下，网络的输出是一个标量值，而不是一个分布，这阻碍了文献中提出的大多数先验框架。KINN框架促进了专家模型和网络的相互补充，而不是直接模仿专家这使得KINN能够成功地解决专家预测不可靠的情况。找到最好的专家或神经网络不是这里的重点，而是重点是结合专家预测，可能有缺陷，以这种方式，神经网络在结合专家网络的优势的同时保持其优势。有许多不同的方法可以将专家和网络之间的知识整合起来。让des和Bengio 2011）被用作激活函数。x∈P∈R是专家所作的预测。WEINCOR-是的。图3示出了所得到的网络架构。使用70/10/20的比例将数据分为训练集、验证集和测试集。采用均方误差作为相应的损失函数进行优化。该网络被训练了600个epoch，产生最佳验证分数的参数用于在测试集上生成预测。自回归综合移动平均（ARIMA）被专家广泛用于时间序列建模和分析。将专家的知识移植到受ResNet策划的想法启发的剩余方案中（He et al. 2016）。令φ：Rp+1R定义了从输入空间到输出空间的映射。从Eq学习的问题。1之后，专家信息的可用性现在可以写成：xt=φ（[xt−1，xt−2，...，xt−p，xp];W）+xp姐因此，我们在实验中采用ARIMA作为专家意见。由于数据显示，t tW=argmin1（x−（φ（[x，.，x，xp];W）使用ARIMA的季节变量（SARIMA），其参数使用Box-Jenkins方法估计（Box et al. 2015）。图4展示了通过采用W|X|不x∈Xt−1t−p不+xp））2（二）LSTM模型以及测试集上的专家（SARIMA）模型LSTM做出的总体预测也是如此。代替计算如在等式中的完整输入空间到输出空间1，网络反而学习残差函数。该残差函数可以被认为是一种校正(a) 对整个测试集的预测（b）对前100步的图4：NN和专家网络根据专家模型的预测。由于模型正在学习专家预测的校正项2.有两种简单的方法可以实现LSTM网络的这种调节。第一种是将预测附加在序列的末尾，如等式中所示。另一种可能性是将一个新的通道与专家预测的重复值叠加到输入中第二种情况使优化问题更容易，因为网络在每个时间步都可以直接访问专家因此，结果在MSE方面略有改善。KINN的系统架构如图所示。五、在我们的案例中，以这种剩余的方式重复专家知识具有非常重要的意义。在专家有了这种系统内建的灵活性，系统就可以自己决定是否依赖专家评价我们策划了一系列不同的实验，每个实验在一个独特的场景中使用KINN，以评估其在不同条件下的性能。我们将KINN的结果与专家以及DNN的性能进行了比较，以突出采用残差学习方案所获得的收益。为了确保公平的比较，当模型被单独测试时，所有的预处理和LSTM超参数都保持不变，并且在KINN中集成为残差函数。在第一个设置中，我们测试和比较了KINN在我们在实验#01中给出了这个正常情况下的结果。为了评估KINN在在第一个实验中使用。在第一种情况下，我们减少了提供给模型进行训练的训练数据量。我们在实验#02中展示了这个实验的结果在第二种情况下，我们通过注入随机噪声来降低专家预测的该实验的结果总结在实验#03中。最后两个实验的直接扩展是评估KINN在这两个条件都成立的情况下的性能，即训练数据量减少以及专家噪声。我们在实验#04中总结了该实验的结果。最后，我们评估了KINN我们通过两种不同的方式实现了这一点我们首先评估了专家总是预测零值的情况。在这种情况下，目标是评估引入残差学习方案的影响（如果有的话），因为呈现给LSTM网络的信息量与第一个实验中的孤立LSTM模型完全相同。然后，我们测试了一个更现实的场景，其中专家模型复制了该系列最后一个时间步的值。我们在实验#05中详细阐述了这个实验（两种设置）的结果。实验#01：完整的训练集和准确的专家我们首先单独测试了LSTM和专家模型，以精确地捕捉引入残差学习方案的影响。KINN从一开始就直接展示了培训动态的显着改进与孤立的LSTM相比，KINN收敛得更快与需要更多训练时间（epochs）来收敛的孤立LSTM相反，KINN通常只在孤立LSTM所用epochs的四分之一内收敛，这在计算时间方面是一个显着的改进。除了计算时间，KINN在测试集上实现了0.74的MSE。与MSE为5.90的孤立LSTM模型相比，这是一个非常显著的改进。即使与专家模型相比，KINN在MSE方面也表现出图6展示了由图5：建议的架构MSE实验描述使用的训练数据百分比DNN专家网络金恩1完整的培训集和准确的专家1005.901.240.742减少训练集（50%）和准确的专家506.361.520.89减少训练集（10%）和准确的专家106.682.671.533全训练集和噪声专家1005.907.813.094减少训练集和噪声专家106.687.813.735完整的训练集和零专家预测。1005.90621.005.92完整训练集和延迟专家预测。1005.909.045.91表1：所进行实验的测试集的MSE(a) 所有模型的预测（b）逐步误差图图6：正常情况下的预测和相应的误差图（实验#01）KINN以及测试集上的隔离LSTM和专家从图中可以明显看出，KINN利用了两个模型中的信息，弥补了另一个模型的不足由此产生的预测比专家网络在最小值上更准确，并且还捕捉了LSTM网络错过的序列中的小变化。为了进一步评估结果，在每个时间步的误差为了帮助可视化，图6中示出了测试集的前100个时间步的逐步误差。该图显示，KINN的逐步预测误差在大部分时间都小于专家模型和LSTM。然而，在某些情况下，KINN的预测结果比基准模型的预测结果略差。特别是，KINN的预测误差仅在30%的时间步长上超过了专家网络的误差，而在LSTM网络的情况下，仅在22%的时间步长上超过了专家网络的误差。然而，即使在这些情况下，KINN的性能仍然与其他模型相当，因为在99%的时间步长上，误差差异小于1.5。实验#02：减少训练集和准确的专家KINN的目标之一是减少网络对大量标记数据的依赖。我们认为，该模型不仅利用专家知识，以满足网络的缺点，但也有助于显着减少其对数据的依赖为了进一步评估这一说法，进行了一系列实验KINN再次从头开始训练，只使用训练集中50%的数据测试集保持不变。类似地，LSTM网络也使用相同的50%训练集子集进行训练在50%的训练数据子集上训练的LSTM网络达到了6.36的MSE，这比在整个训练集上训练的网络的MSE略在专家网络的性能方面也观察到轻微的退化，其MSE为1.52。尽管数据集大小有所减少，但与LSTM和专家模型相比，KINN取得了明显更好的结果，MSE为0.89。图7可视化了在50%训练数据子集上训练的模型的相应预测和误差图。我们再次进行了相同的实验，通过仅使用10%的训练数据子集来大幅减少训练数据集的大小。图8以同样的方式可视化了这个实验的结果，首先绘制了模型的预测以及误差图。值得注意的是，由于训练集非常小，LSTM的表现这突出了KINN根据信息质量决定其对专家预测的依赖的能力。在MSE方面，LSTM模型表现最差。当仅在训练集的10%子集上训练时，LSTM模型的MSE为6.68，而专家模型的MSE为2.67。另一方面，KINN仍然优于这两种模型，并实现了 1.53的MSE。实验#03：完整训练集和噪声专家在之前的所有实验中，专家模型与我们的LSTM模型相比相对更好。实验所获得的结果突出了KINNKINN还展示了惊人的泛化能力，尽管训练数据量大幅减少，突出了KINN然而，为了减少网络对数据的依赖性，网络也必须不要过于依赖专家知识，这使得准确/完美至关重要。这是通常不照顾到在大多数以前的工作。我们认为，建议的残差方案使网络能够有效地处理错误的专家知识，使其足够聪明，以实现专家网络的弱点，并进行相应的调整。为了验证KINN的能力，以调整从专家差的预测，我们进行了另一个实验，随机噪声被注入到从专家网络的预测。这种随机噪声降低了专家预测的可靠性为了实现这一点，在平均交通流量的一个标准偏差内的随机噪声被添加到专家预测中。结果，专家预测的MSE为7.81，与LSTM（5.90）相比相当差。然后，我们使用这些嘈杂的专家预测来训练KINN。图9可视化了相应的预测和误差图。从图9（a）中可以看出，KINN仍然优于专家和LSTM，MSE为3.09。尽管LSTM和专家模型都不准确，但KINN仍然设法从两种模式中挤出有用的信息来构建准确的预测器。这证明了KITNN的真正实力，因为它不仅减少了网络对数据的依赖，而且在专家意见不佳的情况下也能自我调整。KINN通过将噪声专家预测纳入残差学习框架，使LSTM网络实验#04：减少训练集和噪声专家作为最后两个实验的自然后续，我们同时引入了两个条件，即减少训练集大小和专家的噪声预测。训练集再次减少到训练数据的10%子集，图10表明，尽管有这种最坏的情况，KINN仍然设法超越了LSTM以及嘈杂的专家预测。实验#05：完整的训练集和较差的专家作为最后一个实验，我们评估了KINN在专家预测完全无用的情况下的表现。我们不(a)所有模型的预测（b）逐步误差图图7：仅使用50%训练数据的预测和误差图(a)所有模型的预测（b）逐步误差图图8：仅使用10%训练数据的预测和误差图(a)所有模型的预测（b）逐步误差图图9：专家预测通过两种不同的设置实现了这一点。在第一场比赛中，预测。在等式中用零代替xp。2我们认为专家网络每次预测为零。在第二种设置中，使专家网络滞后一步，导致时间步长不匹配产量：xt=φ（[xt−1，xt−2，...，xt−p，0];W）+0不(a)所有模型的预测（b）逐步误差图图10：专家预测不准确且只有10%数据的预测和误差图W=argmin1（x-（φ（[x、...、X，0];W）尽管训练集的大小大大减少，但MSE并没有像人们所期望的那样急剧增加。这是由于数据集中存在强烈的季节性成分作为W|X|不x∈Xt−1t−p+0））2结果，即使只有10%的训练数据子集，算法也能够学习序列所表现出的一般模式。只有在估计微小的变化时，W=argmin1（x-（φ（[x、...、X，0];W））2这些网络在训练较少的数据时面临困难W|X|不x∈Xt−1t−p结论这几乎等同于正常的无条件全输入到输出空间投影学习情况（等式10）。1）除了条件向量中的零然而，在专家网络的滞后预测的情况下，由于我们在单独的通道中堆叠了专家预测x_p，因此网络分配一个可以忽略不计的重量到这个通道，导致正是性能与正常情况相同。表1提供了关于该实验获得的结果的细节从表中可以清楚地看出，在专家网络给出零预测或给出滞后预测（这是无用的）的情况下，网络性能与正常情况相同，因为网络学会了忽略专家的输出。这些结果突出表明，KINN提供了一个下界的性能的基础上的两个实体的性能：专家模型和网络。讨论这些彻底的实验表明，KINN学习的潜在残差映射函数成功地将网络与专家的预测相结合。具体来说，KINN展示了识别两个基础网络所做预测的质量并根据其改变其依赖性的能力。在我们进行的所有实验中，KINN所做预测的MSE从未超过（忽略不显著的变化）LSTM和专家模型中最好的预测的MSE，除非是完全无用的专家预测，它的表现与LSTM网络相当。表1提供了从所有不同实验中获得的结果总结。有趣的是，即使有一个我们提出了一种新的架构，将专家知识融入深度网络。它将这种专家知识纳入残差方案，其中网络学习专家预测的校正项。KINN提出的知识整合方案有三个主要优点。第一个优点是放松了对巨大数据集的要求来训练模型。第二个优点是关于提供所得分类器的性能的下限，因为KINN通过组合两种不同的模态实现了两全其美。第三个优点是它的鲁棒性，以满足专家做出的差/噪声预测。通过广泛的评估，我们证明了网络学习的潜在残差函数使系统足够强大，即使在缺乏标记数据的情况下也能处理不精确的这是因为网络并不试图模仿专家网络的预测，而是提取和组合这两个领域中包含的有用信息。确认这项工作得到了高等教育委员会（巴基斯坦）、引用Baptista ， M.; Sankararaman ， S.; 德梅代罗斯岛 P 的 ;Nasci-mento Jr，C.; Prendinger，H.;和Henriques，E. M.2018.预测故障事件以进行预测性维护，数据驱动技术和ARMA建模。计算机工业工程115：41-53.博克斯湾，加-地E.的; Jenkins，G.M.; Reinsel，G.C.的;和Ljung，G.M. 2015. 时间序列分析：预测与控制。约翰·威利父子公司Chiu ， C.- C. 的 ;Sainath ， T.N. 的 ;吴， Y.;Prabhavalkar，R.;Nguyen，P.;陈志; Kannan，A.;韦斯河J.道：Rao，K.;Gonina，E.;等，2018年。采用序列到序列模型的最先进语音识别。2018年IEEE国际声学、语音和信号处理会议（ICASSP），4774-4778。美国电气与电子工程师协会。Conneau ， A.;Kiela， D.;Schwenk ，H.;Barrault ，L.; 和Bor- des，A.2017.从自然语言推理数据中监督学习通用句子表示。arXiv预印本arXiv：1705.02364。菲尔德斯，R.; Goodwin，P.;和Onkal，D. 2015.信息在供应链预测中的应用。Glorot，X.; Bordes，A.;和Bengio，Y. 2011.深度稀疏整流神经网络。在第十四届人工智能和统计学国际会议集，315Gollapalli，S.D.的; 李，X.-L.的; 和Yang，P.2017年。将专家知识应用于关键词提取。在AAAI，3180他，K。张，X.; Ren，S.; Sun，J. 2016.用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议论文集，770Hinton，G.;登湖; Yu，D.; Dahl，G. E.的; Mohamed，A.r.; Jaitly，N.; Senior，A.; Vanhoucke，V.; Nguyen，P.;塞纳特，T. N.的; 等人2012年。语音识别声学建模的深度神经网络：四个研究小组的共同观点IEEE Signal processingmagazine29（6）：82-97.Hinton，G.; Vinyals，O.; Dean，J. 2015. 在神经网络中提取知识。arXiv预印本arXiv：1503.02531。Hu，Z.; Ma，X.;刘志; Hovy，E.;和Xing，E. 2016.使用逻辑规则利用深度神经网络。arXiv预印本arXiv：1603.06318。Krizhevsky，A.; Sutskever，I.;和Hinton，G. E. 2012.使用深度卷积神经网络进行图像网分类。神经信息处理系统的进展，1097莱克湾M.; Salakhutdinov，R.;和Tenenbaum，J.B. 2015年。通过概率程序归纳的人类水平概念学习。Science350（6266）：1332-1338.Pacchin，E.; Gagliardi，F.; Alvisi，S.; Franchini，M.;等，2017年。短期需水量预测模型比较在CCWI 2017，24-24。谢菲尔德大学Rohrbach，M.; Stark，M.; Schiele，B. 2011.评估大规模环境中的知识转移和零触发学习。在计算机视觉和模式识别（CVPR），2011年IEEE会议上，1641-1648。美国电气与电子工程师协会。Silver ， D.; Huang ， A.; 麦迪逊角 J. 道： Guez ， A.;Sifre，L.; Van Den Driessche，G.;Schrittwieser，J.;安东诺格鲁岛;Panneershelvam，V.; Lanctot，M.;等，2016年。用深度神经网络和树搜索掌握围棋游戏。 nature529（7587）：484.太阳角;Shrivastava，A.;辛格，S.;和Gupta，A.2017年。重新审视深度学习时代数据的不合理有效性。在计算机视觉（ICCV），2017年IEEE国际会议上，843-852。美国电气与电子工程师协会。Szegedy，C.;扎伦巴，W.; Sutskever，I.;布鲁纳，J.;Erhan，D.;古德费洛岛和Fergus，R. 2013.神经网络的有趣特性。arXiv预印本arXiv：1312.6199。Towell，G. G.，和Shavlik，J.W. 1994. 基于知识的人工神经网络。人工智能70（1- 2）：119-165。特兰，S。N.，和Garcez，A. S. D. 2018.深度逻辑网络：从深度信念网络中插入和提取知识IEEE神经网络和学习系统29（2）：246-258.王文庆Y的; Zhang，J.J.;郑，X.;王，X.;袁，Y.;戴，X.;张，J.;和Yang，L. 2016.阿维尼翁去哪儿了：从丘奇-图灵论题到阿维尼翁论题及以后。IEEE/CAA Journal ofAutomatica Sinica3（2）：113-120.韦斯河J.道：Chorowski，J.;Jaitly，N.;吴，Y.;和Chen，Z.2017.序列到序列模型可以直接翻译外国语音。arXiv预印本arXiv：1703.08581。吴，Y.;吴，W.; Li，Z.;和Zhou，M. 2016.知识增强的混合神经网络文本匹配。 arXiv 预印本 arXiv ：1611.04684。徐，J.;张志;Friedman，T.;梁玉;Broeck，G.V. d. 2017.一个用于符号知识深度学习的语义损失函数。arXiv预印本arXiv：1711.11157。张X- Y的; Yin，F.;张玉- M.;刘角L.的;和Ben- gio，Y.2018.用递归神经网络实现汉字的绘制与识别。IEEEtransactionsonpatternanalysisandmachineintelligence40（4）：849-862.Zhao，W.X.; 江，J.;翁，J.;他，J.;Lim，E.-P的; Yan，H.;和Li，X. 2011.使用主题模型比较twitter和传统媒体。在欧洲信息检索上，338-349。斯普林格。

下载后可阅读完整内容，剩余1页未读，立即下载