神经模型基于Shapley值的数据重建和压缩的有效结构【2022】

111 浏览量更新于2023-12-09 收藏 2.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

图形和视觉计算7（2022）200059技术部分用于可控数据重构和压缩的潜在空间的有效结构化Elena Trunza， Michael Weinmannb，Sebastian Merzbacha，c，Reinhard Kleinaa德国波恩大学荷兰代尔夫特理工大学cX-Rite Europe GmbH，瑞士ar t i cl e i nf o文章历史记录：收到2022年收到修订版，2022年6月25日接受，2022年2022年11月5日在线发布保留字：AutoencoderEncoder–decoder architecturesData数据表示深度学习Shapley值a b st ra ct近年来，可解释的神经模型得到了广泛的关注。然而，传统的编码器-解码器模型不捕获关于所涉及的潜在变量的重要性的信息，并且依赖于潜在空间的维度的启发式先验规范，或者它的选择基于多种训练。在本文中，我们专注于可解释的数据重建和压缩的编码器-解码器方法的潜在空间的有效结构。为此，我们利用Shapley值的概念来确定潜变量对模型输出的贡献，并根据重要性的下降对其进行因此，将潜在维度截断为对整体重建贡献最大的维度，在模型紧凑性（即潜在空间的维度）和表示能力（即重建质量）之间进行权衡。与其他最近的自动编码器变体相比，基于PCA的潜在变量排序，我们的方法不需要耗时的训练过程，也不引入额外的权重。这使得我们的方法对于紧凑表示和压缩特别有价值我们验证了我们的方法在代表和压缩图像以及高维反射率数据的例子。版权所有2022作者。爱思唯尔有限公司出版这是CC BY-NC-ND下的开放获取文章许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍深度学习的快速发展使许多应用领域得到了巨大的改进，包括数据记录、压缩和流，其中模型行为和决策的可解释性包括自动编码器的相应方法依赖于在另一潜在空间中对从输入数据提取的信息进行编码的核心然后可以基于信息瓶颈的组合来获得强大且紧凑的表示，即选择潜在空间的维度低于输入维度，使得仅保留最显著的特征，以及适当的损失函数。在本文中，我们把我们的注意力放在一个方便的潜在空间的维度，保留模型的准确性分别考虑任务的有效规范的挑战性✩这篇文章是由D. 炸弹∗对应收件人：视觉计算部门，弗里德里希·希策布鲁赫Allee 5，53115 Bonn，Germany.电子邮件地址：trunz@cs.uni-bonn.de（E.Trunz），M. tudelft.nl（M.Weinmann），merzbach@cs.uni-bonn.de（S.Merzbach），rk@cs.uni-bonn.de（R. Klein）。https://doi.org/10.1016/j.gvc.2022.200059到目前为止，用于设计编码器-解码器方案的大多数方法都是基于潜在维度的数量的启发式规范，即，没有实际解释为什么选择相应的维度，也没有关于最适合特定应用的维度的分析。相比之下，还针对用不同数量的潜在变量训练的一些编码器-然而，该过程非常耗时，因为相反，我们提出了一种新的方法，通过分析各个潜在维度的贡献及其基于Shapley值在编码器-解码器方案中的相应排名来Shapley值的概念最初是在合作博弈论中引入的，用于特征属性，我们利用这个概念，类似于基于主成分分析（PCA）[4，5]的关于其贡献的成分的自然排序的计算，但是用于更一般的非线性关系，2666-6294/©2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表图形与视觉计算期刊首页：www.elsevier.com/locate/gvcE. Trunz，M.Weinmann，S.Merzbach等人图形和视觉计算7（2022）2000592××通常允许自动编码器找到更灵活和更强大的潜在空间。虽然自动编码器的潜在空间相对于原始数据域表现出紧凑性，但它不允许获得潜在空间的结构信息，如在PCA的情况下。更复杂的自动编码器变体[6，7]允许根据相对于输入数据的重要性递减对潜在代码的维度进行排序，同时保留统计上独立的分量。然而，这些方法基于逐渐增加潜在空间的维度，即，每一步都在学习相反，我们的方法避免了这种渐进的适应所需的维度的直接使用的贡献，个人潜在的尺寸根据他们的Shapley值。捐款的计算可以在训练期间的不同时间应用各个潜在维度的数量和它们根据基于Shapley值的分析的排序，只要训练损失不再随着时期显著改变。在我们的实验范围内，我们将比较在训练中间和训练结束时应用基于Shapley值的分析的结果我们调查Shapley值和这是出于在该文件中证明的事实，即在线性模型的情况下，基于Shapley值的排序与奇异值分解后的排序相同总之，本文的主要贡献是：我们提出了一种新的方法，用于在编码器-解码器中对潜在变量进行排名我们证明了我们的方法的好处，通过评估各种不同的应用场景。在线性情形下给出了Shapley序的最优性定理和证明。2. 相关工作可解释性概念的复杂性[8，9]使得关于模型行为/决策的一般解释变得棘手。专注于局部可解释性的特征归因方法的关键目标是基于标量归因得分，相关性得分[10]或贡献[11]来识别相关特征，该贡献定义了每个输入特征对模型行为的贡献程度。然而，有限的理论理解以及缺乏可靠的定量指标来评估解释，如果地面真理可用[12]，可能会导致不可靠甚至误导的结果，这些结果可能仍然看起来很吸引人[12这个问题已经通过将理想公理纳入归因方法得到了解决[13，16这些公理必须通过从各自的归因方法获得的任何解释来实现，并允许设计具有理论保证的归因方法[17]。在深度学习的背景下，基于反向传播的归因方法依赖于基于通过网络的反向传递来计算归因的想法。例子包括通过利用梯度来计算属性，梯度携带关于主要影响输出的特征的局部扰动的信息。这里，属性可以根据显着图[20]获得，显着图指的是输入图像的类分数梯度，或者通过输入数据的元素乘法梯度输入（Gradient Input）[21]。然而，这种方法仅在高度非线性函数的情况下提供局部信息，因此不适合于计算特征的边际贡献。因此，其他方法，如分层相关传播（LRP）[10，18]，DeepLIFT变量[11，21]和集成的相关性[17]，与梯度输入方法中使用瞬时梯度相比，使用不同的传播规则然而，具有相同预测标签的感知相似输入可能会被不同地解释，因为即使是很小的随机扰动也会影响特征重要性，并且系统扰动可能会在保持标签的同时改变解释[14]。相比之下，基于扰动的方法依赖于通过分析神经网络在特征移除或扰动的情况下的行为来计算输入特征的相关性[22一个相关的经典概念发展领域的共同-有效的博弈论，以分配贡献在合作博弈中个体玩家的行为，同时满足Shapley值给出的理想公理[3]，并且由此产生的特征属性甚至似乎与人类直觉一致[19]。正如文献中所讨论的，计算精确的Shapley值仍然是一个NP难问题[25]，并且在实践中，只能对少于20到25个玩家（即分别在我们的情况下的输入特征）执行。为此，基于找到Shapley值的适当近似，例如根据基于采样的方法[26-为了避免对越来越多的输入特征进行快速增加的模型评估，在KernelSHAP [19]及其对全局可解释性[30]、不同重要性度量和特征包装[31]的相应扩展中使用了ad-lasso回归，处理相关特征[32，33]并产生其他类型的解释[34]，例如解释样本是否可能属于某个类别，为什么预测会根据观察结果而不同，以及模型何时表现不佳此外，已经提出了基于模型线性假设的近似（例如DeepSHAP ） [19] ，并根据基于 DeepLIFT [11 ， 21] 构建的Shapley值的逐层传播扩展到混合模型类型[35这也使得计算易于获得某些模型类型（如基于树的模型[36]，如随机森林或梯度提升树）的精确Shapley值，并允许将混合模型的堆栈（如神经网络的特征提取）归因为一个树模型和属性损失函数。特定游戏（如投票游戏[37]）的多项式近似允许Shapley值的多项式时间近似，如深度近似Shapley传播（DASP）[38]所示。进一步的工作包括对全局可解释性的扩展（通过将Shapley值概念与Lorenz Zynga[39]相结合，以将基于局部Shapley值的方法的优点与LorenzZynga的属性相结合），Shapley值到Shapley-Taylor指数的一般化，该指数反映了作为引入了对应的Shapely Resistance [42]来捕获Shapley值未保留的信息。然而，大多数用于计算Shapley值的方法-UE依赖于事后解释。因此，解释方法不能用于设计和训练模型。基于树提升[43，44]或神经网络[45]的通用加性模型（GAM）允许同时预测和计算相应的精确SHAP解释，但其代表性固有地受到限制。相反，Shapley解释网络[46]依赖于直接将Shapley值作为深度神经网络中学习到的潜在表示。···E. Trunz，M.Weinmann，S.Merzbach等人图形和视觉计算7（2022）2000593网络. SHapley加法解释将局部解释与最优信用分配联系起来，并已用于对识别和预测故障模式的输入变量进行排序[47]。此外，引入了基于Shapley值的误差分配（SVEA）[48]，其中的关键思想是在特征之间分配总训练误差，Ghorbani和Zou [49]专注于监督学习背景下的公平数据估值，其中数据Shapley值用于评估每个训练样本对预测性能的贡献。Covert等人。[50]专注于模拟特征去除的效果以确定单个特征的影响的可解释性。他们的框架分析了不同方法如何删除特征，分别解释模型行为，以及方法如何总结特征此外，通过将贡献分数分配给因果图结构中的边而不是节点，Shapley Flow [51]将Shapley值公理推广到有向非循环图。Ghorbani和Zou [52]使用Shapley值来量化单个神经元对网络预测和性能的重要性。与使用激活模式相比，这允许更有效地识别重要过滤器此外，Ma et al.[53] 在贝叶斯网络的范围内考虑了Shapley值，并展示了Shapley值和条件独立性之间的关系。我们利用编码器-解码器框架中基于Shapley值的特征属性除了特征属性之外，一些工作特别关注数据压缩，以允许通过受限通道有效存储和传输内容，其中特别是神经图像压缩近年来获得了很多关注。确定尽可能紧凑的二进制表示（即，最低速率比特流），同时保持一定水平的保真度（即，最小失真）的数据的目标权衡已在自动编码器架构与量化和熵编码方面进行了研究。这种压缩自动编码器[54-56]还此外，端到端训练可以基于用可微分代理替换不可微分量化来实现[55，61，62]。此外，超先验[63]和上下文模型[64几项工作还关注对抗性训练计划，以实现非常低的比率[58，69，70]。针对变码率图像压缩，传统的压缩方法是根据目标码率量化离散余弦变换（DCT）系数进一步的技术包括学习特定于速率的瓶颈缩放（即在量化之前缩放瓶颈特征）[55]，基于调制自动编码器（MAE）[71]和条件自动编码器（cAE）[72]的中间特征的调制，使用递归神经网络[54]以及使用多尺度分解网络，其中每个尺度以不同的速率为目标。此外，在搜索轻量级架构[73-在神经图像压缩的范围内，网络架构搜索[81]或渐进式编码[82]已用于解决runtime和latency。然而，存储器要求和计算负担不会显著改变，并且仅考虑单个速率-失真权衡，这禁止了关于速率、存储器或计算负担的为了增加神经图像压缩的实用性，可精简的压缩自动编码器[83]还允许控制计算，存储器和速率。虽然这些方法在图像压缩的背景下显示出巨大的潜力，我们的方法代表了一个强大的替代方案，可以与这些方法相结合，并可以应用于任何压缩方法，它利用3. 潜在空间表示的结构化和修剪数据重构和压缩技术通常依赖于将输入数据转换为描述最显著特征的低维潜在空间。这里，必须选择潜在空间的维度以充分表示输入数据的分布，同时允许尽可能紧凑的潜在表示。重建精度和压缩率之间的这种权衡必须根据底层任务及其含义仔细考虑为此目的，我们必须集中注意下列中心问题：1. 对于潜在空间的维度，什么是合适的选择，即需要多少潜在变量？2. 我们是否可以将丢弃维度导致的有损压缩与单个特征的重要性联系起来3. 潜在空间的结构是否展示了我们通过采用更少或更多的潜在变量获得多少收益的见解，从而允许有效控制潜在空间的合适维度的规范，而无需像Rainer等人的方法那样为每个维度训练不同的[1]？获得对潜在变量的控制以及检测每个维度对模型整体性能的贡献的能力是迈向可解释模型的重要一步。事实上，我们甚至希望确定重要维度的集合的贡献，即，我们希望获得关于k个维度的哪些子集表现出最大重要性的见解，而不是采取k个单独的最有贡献的特征。这样，我们可以根据维度的贡献对维度进行排序，从而构建潜在空间，这反过来又允许采用第一个最重要的k维来获得数据的rank-k近似，以进行有损压缩。在下文中，我们首先概述如何在线性方法的范围内处理这些问题。在这方面，我们将证明，在线性情况下，其中Eckart-Young-Mirsky定理说明如何低秩近似可以接近，根据其Shapley值的本征向量的排序等于相应的奇异值的排序。然后，我们激励为什么这些问题在非线性模型（如自动编码器）的情况下变得更具挑战性，并最终设计出一种策略，以建立一个有效的模型，帮助回答上述问题。由于Shapley值的属性直接测量单个组件的贡献，我们的目标是分析这些值是否也可以用于这些非线性场景（其中3.1. 线性模型在分析Shapely值的属性是否能够直接测量E. Trunz，M.Weinmann，S.Merzbach等人图形和视觉计算7（2022）2000594=∑=∑你好！∈X⊆为||各个分量使它们适合于非线性场景，如对于编码器-解码器体系结构给出的那样在输入x和模型输出y之间的线性关系Axy的情况下，我们可以根据解析解计算在L2范数下Ak到A的最佳秩k逼近，即，通过执行A的奇异值分解UV，as pos-由Eckart-Young-Mirsky定理表示这种低秩近似Ak由下式给出：KAk=（σiuivi），（1）i=1其中σi是奇异值，ui是U的列， vi是V的列。经典的低秩近似，如基于SVD的方法和相应的鲁棒变体[4，5，85]已被证明适用于基于矩阵的数据。然而，将这些方法扩展到高维数据并不简单，并且会损失一些潜在的独特属性。因此，高阶张量分解模型（如多线性SVD [86]、高阶正交迭代（HOOI）和高阶幂方法（HOPM）[87]以及CANDECOMP/PARAFAC（CP）模型[88，89]和Tucker张量模型[90]）已得到广泛应用。张量分解可以被解释为高阶张量数据的SVD方法的一般化，并且原始数据可以基于降秩张量分解近似[91，92]。此外，潜变量模型（如因子分析[93]和概率主成分分析[94-3.2. 非线性模型与线性模型相比，深度神经网络支持非线性映射[97，98]，并已证明其在建模高维数据方面的能力。自动编码器专注于输入的重建，首先使用编码器e将输入数据投影到潜在空间，然后使用解码器d将潜在代码传输回原始域以获得输入的重建。因此，他们的目标包括最小化的recruitic- tion误差给出的重建损失，其中特定的per-turbance度量v，如L2-范数被广泛使用。为了防止自动编码器直接复制输入，而是迫使编码器学习数据的有用属性，自动编码器通常将潜在表示约束为比输入更低维，从而强制它们转而捕获输入的最显著特征。此外-潜变量的先验非平凡性。一个合理的和广泛遵循的方法是选择足够高的潜在空间的维数，并添加相应的正则化项。事实上，我们希望基于满足以下三个公理的函数φ来对潜在维度1. 零玩家：对结果输出没有贡献的潜在变量应该被分配权重0（或基线值）。2. 对称性：损失不应该取决于潜变量的顺序，而应该只取决于它们的存在。3. 效率：单个潜变量的贡献总和为所有潜变量的贡献为了便于解释，潜在空间的结构，根据重要性分数和由秩k近似引起的相应结果误差具有分量的相应排序将是有用的，类似于线性情况下根据奇异值的排序。实现这一目标的一种简单方法是训练具有不同数量潜变量的几个自编码器[2]。结果，获得了每个维度数的对应误差然而，所涉及的培训程序众多，使得这一程序需要时间和资源。相比之下，PCA类自动编码器[6]和主成分分析自动编码器（PCAAE）[7]以相对于输入数据的重要性递减的方式组织潜在空间的维度，同时保留统计独立的成分。为此目的，这些方法依赖于渐进地增加潜在空间的维度，并且每步学习一个新的维度，以及通过应用于潜在代码的附加协方差损失来扩展标准自动编码器重构损失，以强制执行统计上独立的潜在空间分量。然而，这个过程非常耗时，因为解码器需要用每个额外的维度重新训练。相反，我们建议根据Shapley值[3]定义的潜在变量的贡献来利用潜在变量的排序，Shapley值[ 3 ]是一种用于计算合作博弈中参与者贡献的博弈论概念。3.3. Shapley值引导的潜在表示在合作博弈的范围内，Shapley值[3]作为参与者的标志，在我们的情况下，潜变量，他们各自对整个任务的贡献，在我们的情况下，通过解码器重构潜代码。更正式地，潜在维度i的Shapely值φi（v，N）计算为：因此，如果潜在空间具有比输入空间X更低的维度，则潜在向量e（x）可以被认为是压缩的。φi（v，N）=SN\{i}|！|! （n − |S|-1）！（v（S<${i}）−v（S）），（2）表示输入x。理想情况下，应根据所考虑问题的复杂性来选择潜在空间的维度。不幸的是，潜在的空间并没有用独立分量，可以根据数据的相关性递减进行排序，如PCA的情况因此，对于秩k近似问题，不存在与PCA的情况等效的解析解，其提供关于一起对最大贡献的前k个重建质量。这就引出了设计一个适合特定任务要求的神经网络架构的初始先决条件，即通过手动选择数字其中v是映射每个子集S的联合函数N在我们的场景中，N是n的集合，N潜在维数和函数v可以通过定义如Ancona等人所讨论的基线来适应解码器函数d[38]第30段。这样我们就可以把v（S）替换成表示原始潜在向量z，其中不包括在S中的所有条目都被替换为基线值，在我们的情况下，基线值为零。由于我们必须处理多个潜在向量以计算一个潜在维度的贡献，因此我们随机选择一组m个示例潜在向量E. Trunz，M.Weinmann，S.Merzbach等人图形和视觉计算7（2022）2000595≥ ⇔≤{} −∑1[客户端][客户端]一个S=i∈SσiuivT表示矩阵A的近似，n、\{i}\{i}从所有可能的空间中提取，并平均所得的贡献。Shapely值满足几个理想的公理，特别是第3.2节中描述的三个公理，这与我们设想的目标非常相关，即根据它们的贡献对各个由于我们感兴趣的是潜在维度根据其降序贡献的正确排序，因此我们需要验证根据Shapley值的函数就表现出了这个特性。因此，我们首先证明，在线性模型的情况下，根据Shapley值的排序是最优的：定理1. 设A∈Rm×n是m ≥ n的实矩阵，A=U<$VT是A的奇异值分解，其中 <$ 是 m×n 对角矩阵，元素为 σ1 ， . . . ， σn ，使得σ1≥· · ·≥σn。此外，令N ={u1，. . . ，u，n}是左奇异向量的集合，即U的列。设v为函数，其将对应的重构误差分配给集合SN，即，v（S）=<$A−AS<$2，其中我=一维，例如在RGB值的情况下，则按分量计算（4）中的差，然后对输出的所有维度求和3.4. 潜在空间维度为了为潜在空间选择适当的维度，以允许在尽可能紧凑的潜在表示中捕获最显著的特征，我们以充分（即，典型地，潜在空间的维数太大，由此遵循可以相当容易地确定潜在空间的太大尺寸的直觉。为了确保损失的初始“大下降”被通过，并且我们达到一个类似平台的行为，我们让训练进度为完整训练的epoch数的一半。然后，我们根据Shapley值计算每个潜在维度的贡献，并将维度排序为根据这些贡献的降序排列。请注意，在训练的早期阶段，对网络权重的适应，以及因此对数据在潜在的空间里，正在发生着巨大的变化。因此，基于Shapley值的贡献分配给集合S中的向量则对于所有对i，j，其中ij，以下成立：σiσjφi（v，N）φj（v，N），其中φi（v，N）根据（2）定义。我们在附录中给出了这个定理的证明。注意，在我们的情况下，v不是重构误差的函数，而是实际重构（即解码器）的函数。我们仍然可以应用定理，如果我们改变（v（Si）v（S）），（2）绝对值，如本文其余部分所用。作为这一定理的直接推论，我们得出结论：根据Shapley值的k个元素构成线性模型A的最佳秩k近似。换句话说，上述定理1表明，在线性情况下，其中Eckart-Young-Mirsky定理说明如何可以接近低秩逼近问题，根据其Shapley值的本征向量的排序等于相应奇异值的排序。在我们的工作中，我们还（实验）调查Shapley值的属性作为单个组件的贡献的度量是否也为非线性场景带来好处，其中不幸的是，精确Shapley值的计算仍然是一个NP难题[25]，并且仅适用于非常复杂的情况。潜在的空间将提供较少的洞察力，的计算开销，因此，我们应用基于Shapley值的分析，只有当接近一个平台状的损失率。随后，我们计算h个第一维度的每个集合的损失基于累积贡献和累积损失，我们选择潜在空间的维度k，并且还通过参考贡献的覆盖百分比（即，根据应该覆盖的贡献百分比）来指定哪些潜在变量用于因此，我们修剪的潜在空间定制根据所考虑的应用场景的复杂性。训练继续使用与之前相同的自动编码器，但在解码器的输入层中没有丢弃的潜在维度和相应的神经元。整个训练在与完整训练相同的总时期内完成，只有Shapley值的计算开销。因此，该策略不需要基于为迭代进行的训练连续添加一个或多个维度的耗时的训练过程。相反，它只需要一次训练来识别不太相关的潜在变量，并且可以在一个步骤中丢弃我们的方法的各个步骤在算法1中给出。少于20到25名球员的有限数量，或者在我们的情况下，潜在的尺寸分别。最近，深度近似Shapley传播（DASP）[38]被引入作为一种方法，允许将期望的公理纳入Shapley值的多项式时间近似范围内，这使得它们适合用于深度神经网络。我们使用这种方法来近似的Shapley值的潜在dimen- sion为我们的目的。然后，根据下式，通过对随机联盟的预期贡献的平均值来近似Shapley值：n−1E[φi]=Ej[φij]。（三）算法1基于Shapley值的潜在维度修剪1：训练模型，用于具有初始指定数量的潜在维度2：选择潜在代码的m个样本的子集（针对训练示例获得）3：基于所选择的m个样本和解码器函数计算潜在变量的近似Shapley值（即，联盟功能），例如基于DASP4：将隐变量按相对于t的降序排列。 Shapley值并计算累积贡献和可视化j=0这里，期望值Ej是在大小为j的集合的分布上计算的，并且Ejφi，j表示潜在条目zi对大小为j的任何随机联盟的贡献。然后，Ejφi， j计算如下：Ej[φi，j]= |S. E，|S| =j[d（zS<${i}）] −S<$N E，|S| =j[d（zS）]|（四）如前所述，我们使用绝对值而不是差值。如果我们的解码器函数输出的值大于可视化将保留多少维k6：通过仅保留属于前k个潜在变量的连接/神经元来修改最后一层编码器层和第一解码器7：恢复训练注意，用于计算各个潜在维度的贡献及其排序的基于Shapley值的分析可以在训练期间的不同时间应用的5：从排序、累计贡献和E. Trunz，M.Weinmann，S.Merzbach等人图形和视觉计算7（2022）2000596×∈×==××=={唯一的要求是，训练损失在历元上不显著改变，而是（几乎）接近平坦的下降行为。在我们的实验范围内，我们将比较在训练中期和训练结束时进行基于Shapley值的分析的效果。我们观察到，潜在维度的重要性在训练结束之前仍然会发生变化，并且早期执行Shapley分析可能会高估所需的维度数量。相反，为了得到最好的结果，我们应该在最后进行分析。然而，在我们的实验范围内，我们表明，为了获得良好的估计，在训练过程中进行分析足以节省时间，因为之后潜在维度的重要性变化很小4. 实验在下文中，我们验证了确定潜在空间的合适维数和模型的压缩。为了证明我们的方法的多功能适用性，我们专注于一组不同的示例性应用场景，不同的数据类型和各自的复杂性。我们验证了将Shapley值纳入自动编码器框架的好处，关于潜码大小的选择和各自的维度排序，根据它们的重要性，在代表和压缩图像以及高维反射率数据的例子。所有实验都在具有Intel（R）Xeon（R）CPU E5-2640 v4@2.40 GHz和具有12 GB RAM的Nvidia4.1. 反射率表示和压缩首先，我们展示了我们的方法的代表和压缩反射率数据的任务的潜力。双向纹理函数（BTF）f（x，λ，ωi，ωo）已被证明可以在不同的观察条件ωo和照明条件ωi下准确捕获材料样本表面位置x处的局部材料外观，并且可能还取决于波长λ[99]，但是，这是以大量内存消耗为代价的。在我们的实验范围内，我们使用了由Weinmann等人[100]提供的公开可用的BTF数据集，并且特别关注皮革、地毯和织物材料，因为它们具有复杂的反射行为。这些测量具有高角度分辨率（即，15115122801光/视图配置，具有光和视图配置的近似相同采样）和400 × 400纹理像素的空间分辨率。各个表面位置x的测量值被存储为4D反射函数fx ，λ（ωi，ωo），其被表示为表观双向反射分布函数（ABRDFs）。与双向反射分布函数（BRDF）相反，ABRDF还捕获表面处的光交换的非局部效应，诸如局部次表面散射、自掩蔽或自遮蔽。最后，材料样本被表示为矩阵ARm×n，其中列表示所考虑的m个表面纹素的ABRDF。最近关于BTF压缩和插值的工作，特别需要有效地存储和渲染这些数据，包括Rainer等人的神经方法。与矩阵因式分解技术（其可能在粗糙的角度分辨率的情况下导致模糊或重影伪影）以及分析模型的拟合（其具有关于复杂的非局部照明效果的在此，在不同观看和照明条件下的局部表面外观首先通过Fig. 1. 当使用不同数量的潜变量从零开始（点）训练时，观察到不同BTF的MSE错误，当开始训练时，64个维度，并在200个时期后修剪为不同数量的（最重要的）潜在变量（交叉）。我们观察到，这两种方法收敛到几乎相同的结果。(For对本图图例中所指颜色的解释，读者可参考本文的网络版编码器组件，并且解码器利用附加的光和视图规范对后者进行解码，以呈现特定表面点的颜色，从而克服基于测量之间的线性插值的限制然而，对于每个BTF，需要训练新的自动编码器为了对潜在空间的维度做出合理的选择，Rainer等人[1]根据压缩率和重建误差之间的权衡，分别训练了高达n除了所有这些训练导致的高计算负担之外，实际上最佳折衷的选择只能针对单个考虑的BTF来实现，因为网络已经针对每个BTF单独训练。根据对单个BTF或非常有限的一组BTF的观察，Rainer等人得出结论，8维是潜在空间的合适大小。然而，这种选择的维度可能不适合其他材料，例如。具有不同的或更复杂的外观特征，这些特征尚未被研究。事实上，对于图3中所示的3个BTF的不同数量的潜在维度，完全训练的网络的所得均方误差。1揭示了曲线偏离，即基于相同数量的潜在维度的重建将导致不同材料/BTF的不同质量水平相反，对尺寸的适当权衡选择的单独分析这表明所提供的折衷值通常不是最佳选择，尽管计算负担很高。在我们的实验范围内，正如Rainer et al.[1]中，我们对输入ABRDFs应用了对数变换和白化，并使用400个epoch进行完整训练。在一个GPU上，一次完整的训练大约需要4小时。我们使用DASP来近似训练前200个epoch后的Shapley值为了根据联盟函数（在我们的情况下是解码器函数d）计算潜在维度的Shapley值，我们需要生成一些潜在向量示例Z1，. . .，zm}。为此，我们随机采样了2000对视图和灯光方向（从151 151视图中，光采样），得到总共200000个潜在向量的E. Trunz，M.Weinmann，S.Merzbach等人图形和视觉计算7（2022）2000597图二. 在对皮革11 BTF（上）、织物01 BTF（中）和地毯01（下）进行一半训练后与完全训练后进行Shapley分析时观察到的累积贡献。基于Shapley值的分析花费了约8分钟，并且图1A和1B示出了基于Shapley值的分析。图2和图3描绘了所得到的贡献和MSE图，而图3描绘了所得到的贡献和MSE图。图4、图5和图1补充地提供了相应的可视化。作为参考，我们还显示了图和可视化获得的一个完整的训练。在表1中，我们对图三. 完整网络的累积误差，在训练一半后与完整训练后对leather11 BTF（上）、fabric01 BTF（中）和carpet01（下）进行Shapley分析时观察到。潜变量的数量与使用DASP方法计算Shapley值所需的时间之间的关系。图2，我们观察到不同的BTF需要不同数量的潜在维度来实现相同的累积贡献百分比。E. Trunz，M.Weinmann，S.Merzbach等人图形和视觉计算7（2022）2000598--=--=见图4。基于不同数量的潜在变量（对于h 1，. . .，32）用于两对不同的光和观看方向（L3、V3（顶部）和L35，V100（底部），见图8）对于材料皮革11.在左边，我们看到200个时期后的可视化，在中间，400个时期后的可视化，在右边，根据200个时期后的随机排序的可视化图五. 基于两对不同的光线和视角方向的不同数量的潜变量重建的材料外观的可视化为地毯顶部：L3，V3 和底部L35，V100（见图）（八）。左侧我们看到可视化后200个纪元，对的权的可视化后400 时代，每个与的第一 H 根据Shapley排序，1，4，7，9，10，13，16，19，22，25，28，32个潜在变量。例如，为材料lea-ther 11取8个潜变量，结果捕获了所有潜变量贡献的约98%。相反，匹配这种重建质量见图6。在用32个潜变量（左）和5个潜变量（右）及其差训练之后，基于皮革11的两对不同的光和视图方向的不同数量的潜变量重建的材料外观的可视化。顶部：L=3，V=3和底部L= 35，V= 100（见图（八）。见图7。在利用32个潜变量（左）和9个潜变量（右）及其差进行训练之后，针对地毯05的两对不同的光和视图方向，基于不同数量的潜变量重建的材料外观的可视化顶部：L=3，V= 3和底部L= 35，V= 100（见图（八）。表1计算Shapley值所需的时间（以分钟为单位）与潜变量数量之间的关系。当隐变量的数量加倍时，使用DASP计算Shapley值的时间增加了大约四倍。8163264128BTF0,431,737,230,3141,6IC2,510,541171695就总贡献的98%而言，织物01 BTF的潜在空间需要12的维数，地毯05 BTF的潜在空间需要17的维数。除了这些显着的变化的累积contribu- tions的数量的潜变量，我们得到的证据表明，固定的选择8潜维独立的考虑材料所使用的Rainer等人。[1]对于不同的材料可能是次优的当分析累积的贡献（见图）。 2），MSE行为取决于所使用的维度的数量（见图2）。 3）以及相应的视觉提示（见图3）。4，5和补充图1），我们观察到，我们可以采取贡献95%- 96%的整体重建的第一顺序的潜变量E. Trunz，M.Weinmann，S.Merzbach等人图形和视觉计算7（2022）2000599--×××××图八、单位盘上显示的角度：视向V（绿色），光向L（红色）。 LE左：L3，V 3和右：L35，V 100。(For对本图图例中所指颜色的解释，读者可参考本文的网络版皮革11、织物01和地毯05的尺寸分别为5、7和9。图图6、图7和图2补充地示出了与具有初始32个维度的完整训练相比，这些修剪训练的可视化。因此，我们实现了- 压缩的指导，其允许使用潜在空间的不同维度来表示不同的材料，这取决于它们的外观特性的复杂性，这允许比如Rainer等人所做的那样对所有材料采用单个固定数量的维度更合适的重构和压缩。为了分析潜在变量根据其Shapley值的排序是否合理，我们提供了根据其Shapley值的潜在维度的排序与随机排序的比较（图1和2）。3、4）。我们观察到，随机排序不允许洞察力的选择一个合理的维度的潜在空间相比，我们的方法的基础上Shapley值。4.2. 图像压缩如第2节所述，神经图像压缩已取得重大进展，特别是先进的自动编码器架构已被证明是有前途的。确定尽可能紧凑的二进制表示（即，最低速率比特流）同时保持数据的一定水平的保真度（即，最小失真）的目标权衡已经在具有量化和熵编码的自动编码器架构方面进行了研究。一种流行的图像压缩方法是基于Theis等人[55]的压缩自动编码器的有损压缩我们使用了这种方法的公开实现[https：//github.com/alexandru-dinu/cae]，它将所提出的网络架构与用随机二进制化[54]而不是四舍五入来压缩代码的思想相结合。Toderici等人[ 54 ]描述的这种随机二进制化用于图像压缩的好处还包括以下优点：比特向量是可串行化/可串行化的，这有助于有效的数据传输。然后，潜在代码呈现二进制矩阵的形式，其中矩阵维度直接对应于每个图像存储的比特数，并且MSE损失用于优化。每幅图像都经过预处理按照10个6个非重叠贴片大小为128 × 128，使得基于60个补丁并因此基于60个潜在代码来表示图像。为后续处理时，我们采用了一个与实施提供的模型，尺寸为32 3232（即32个通道）由所使用的编码器架构产生的大小32 32）并分析，基于基于Shapley值的分析，我们是否可以减少信道的维度以及可以减少多少。此外，对于我们各自的实验，我们使用了从[https：//reearch.去吧。com/youuube8m/]进行培训。由于Theis等人[55]缺少关于训练期间epoch数量的适当明确规范的的培训和验证损失，并得出结论，50个时代是一个完整的培训过程的合适选择。在训练了25个epoch之后，即在总体训练的一半之后，我们基于Shapley值对潜在空间进行分析。为为此，我们使用了DASP ap-proach[38]提供的代码，并通过尚未包含在DASP框架中的底层架构所需的剩余概率层来扩展他们的轻量级概率深度网络[101]即使使用DASP来近似Shapley值是相当快的，它仍然取决于用于计算的示例的数量m因此，由于该网络的解码器比用于BTF压缩的解码器复杂得多，因此我们在此应用中使用较少的潜在代码进行Shapley当使用来自21个随机选择的图像的六个随机选择的块的样本大小时，即总共126个潜在代码，DASP计算花费大约43分钟，而总训练花费大约12小时，即总时间仅适度地受DASP计算的影响。图图9和图10示出了通过我们的方法获得的贡献和MSE曲线，而图10示出了通过我们的方法获得的贡献和MSE曲线。 11提供了定性结果的描述。我们可以观察到，前25个有序的潜变量贡献了95%的重建，但在观察误差图和一些可视化之后，我们得出结论，对于该应用程序，采用22个维度（对应于92%的贡献）仍然是后续训练的合理选择。表2显示了如果我们继续使用不同数量的潜在维度进行训练，我们得到的测试误差。图图12显示了使用22个潜在维度的持续训练与使用32个通道的完全训练之后的

下载后可阅读完整内容，剩余1页未读，立即下载