预测准确性的实验方法及其应用

83 浏览量更新于2023-10-16 收藏 733KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2390通过预测准确性我们可以学到什么Olivier RISSER-MAROIX*LIPADE，Universite‘Paris Cite’ Franceorissermaroix@gmail.com本杰明·查曼德IRIT，Universite de Toulouse，CNRS，Toulouse INP，UT3，Toulouse France电子邮件：irit.fr摘要本文试图回答以下问题：“我们能从预测准确性中学到什么？“.事实上，分类是机器学习中最受欢迎的任务之一，并且已经开发了许多损失函数来最大化这个不可微的目标函数。与过去损失函数设计的工作不同，在通过实验验证之前，主要由直觉和理论指导，在这里，我们建议以相反的方式处理这个问题：我们试图通过实验来获取知识。这种数据驱动的方法类似于物理学中从数据中发现一般规律的方法。我们使用了一种符号回归的方法来自动找到一个与线性分类器的精度高度相关的数学表达式。在260多个嵌入数据集上发现的公式具有皮尔逊0.96，r2为0.93。更有趣的是，这个公式是高度可解释性，并证实了以前关于损失设计的各种论文的见解。我们希望这项工作将为寻找新的算法开辟新的视角，从而更深入地理解机器学习理论。1. 介绍机器学习中的大多数工作都是通过构建从理论上的直觉来评估元件。在这里，我们提出了一种不同的方法，即从实验中获得洞察力，就像物理学家试图从观察中发现自然界物理现象背后的分析规律然而，由于人工智能的突破，使用机器学习（ML）工具自动化和辅助研究的新趋势正在出现。一些研究人员开始在数学[9]和物理[12，49]中使用它。在ML中，最相似的设置是Meta学习。在这种从学习到学习的范式中，模型通过多个学习片段获得经验，并使用*两位作者对本研究的贡献相等。这一经验，以提高其未来的学习成绩。Hospedales等人[23]报道了元学习在各种任务上的成功应用，如超参数优化，神经结构搜索（NAS）等。在这种情况下，机器通常会在没有任何人为干预的情况下改进解决方案。虽然元学习已经被广泛探索，并积极参与提高机器学习模型的性能。找到的解决方案通常是不可解释的。令人惊讶的是，在这个过程中包括人工智能并没有引起人们的注意，因为它是一种有助于ML研究理论发现的工具。因此，我们研究如何将机器学习融入研究过程，并引导我们更好地理解我们的学科。作为例子，我们在这里建议解决的问题，找到嵌入的关键组成部分，导致更好的准确性。这个任务可以帮助我们更好地理解学习表征的内在机制。事实上，表示学习通常在基准上进行评估，例如[25]在NLP中或[16，61]在计算机视觉中，分类任务非常普遍。例如，用线性分类器评估自监督学习图像表示。分级性能通常使用精度来测量。为了优化这个不可微的目标，研究人员提出了代理损失，如交叉熵，铰链损失，以及满足某些性质的变体，并纠正了以前的几个默认值。因此，我们可以从数十年的研究中受益，以验证机器生成的功能。预测机器学习模型未来准确性的任务很少受到关注。虽然这个问题乍看起来很奇怪，但回答它有多种应用，例如：通过能够预测随机架构的性能而无需训练它来紧固NAS [29，57];在未标记的测试集上评估分类器的准确性[10];或者说，一个人的一生，是一个人的一生[8]。因此，准确性可以从网络权重[60]、网络架构[57]或者，就像我们的情况一样，数据集统计[4，8，10]。以前的工作大多依赖于回归模型，如神经网络，2391M网络或随机森林，使解决方案无法解释[10，60]。虽然在各自的用例中表现出良好的性能，但这些工作并没有关注其解决方案的可解释性。在本文中，我们通过研究260多个具有非常不同特征（大小，维度，类数等）的嵌入数据集，提供了一个通用公式。我们建议通过将这些数据集描述为一组统计数据来将它们投影到相同的从这些统计表示，我们发现了一个公式，能够预测未来的分类性能的线性分类器具有较强的皮尔逊当比较类似的管道时，我们发现我们的公式更简单，更容易解释。最后，我们根据几十年的研究进行分析2. 相关作品科学方法要求理解给定系统中变量之间的数学关系。符号回归（SR）的目的是找到一个函数，解释数据中隐藏的关系，而无需任何先验知识的函数另一方面，transmitting regression在训练期间强加了一个单一的固定模型结构，经常被选择为具有表达性（例如，神经网络、随机森林等）代价是难以解释。由于SR被认为是NP-难问题[54]，因此已经开发了进化方法来获得近似解[32，31，1，42]。符号回归挑战最近重新流行起来，并出现了结合经典遗传编程和现代深度强化学习的新方法[45，36，44，52，53]。事实上，当在250个观测的240个小数据集上进行测试时，发现SR在小数据集上具有高度的可解释性和竞争力[58]。为了学习将任何数据集映射到预测的准确性得分的模型，我们必须在所有数据集之间构建共享表示空间。例如，[43]使用了9个数据复杂性度量来表征几个分类器（线性，KNN等）的行为。从而找到了各自的能力范围：在那里他们表现最好。在另一项工作[22]中，通过分析他们提出的12个然而，他们只检查了训练集最近，[41]从过去的文献中列出了22个复杂性指标。不幸的是大多数复杂度大于O（n2），其中n是数据集中的点的这使得这些措施难以扩展到更大的数据集。寻找统计数据的任务用于数据集表示的cal特征仍然被认为是一个开放的问题[10]。在我们的工作中，[8]建议理解差异，一个文本分类任务，使用文本统计来描述所使用的数据集，并使用遗传算法来找到与F1分数最相关的统计数据的总和。然而，他们的工作受到特征选择的限制，例如n-gram，使其仅可用于文本数据集。通过使用遗传算法（GA）搜索所提出的统计量的子集的未加权总和，它们只能覆盖具有相同大小的特征，而丢弃相关的其他特征，例如数据集大小。未加权求和的选择可能比通过线性回归模型学习的加权求和的选择执行得更差。然而，我们的解决方案证实了[22]的直觉，即统计量之间的关系是高度非线性的。在另一项有趣的工作中，[4]提出了估计几个分类器的预测精度，以选择最适合给定数据集的分类器。在他们的分析中，作者只研究了一个线性模型：然而，当前技术水平使用基于软最大值的模型需要梯度下降方法。为了从表格数据集的元数据集中提取知识，他们使用了Cubist1，这是一个以规则集形式生成模型的软件包。然而，由于数量众多并且使用硬编码值进行公式化，因此生成的规则很复杂并且难以概括。通过应用于特定数据（如文本或禁忌数据），[8]和[4]都没有使用相同的统计数据集，使得他们提出的管道的结果不具有可比性。在这里，我们专注于数据集的一般嵌入，其特征具有更广泛的多样性，例如类的数量范围（[8]最大的是115，而我们概括为1824个类）。在这项工作中，我们选择用19个领域不可知的统计数据来描述我们的数据集此外，我们将我们的管道找到的解决方案与以前的解决方案[8，4]进行了比较。我们使用我们的一组一般统计数据，我们发现我们的解决方案比其他人更有效，同时更简单。3. 该方法如图3所示，我们的方法由两部分组成：（1）从不同数据集和特征提取器的组合创建元数据集、其表示和地面实况创建;（2）通过符号回归模型发现可解释的启发式。我们将在以下段落中详细介绍每个组件数据集和特征提取器为了找到一个覆盖分类任务各种情况的一般规律，我们选择了12个数据集和22个特征提取器。类的数量从10到1854不等，而dimen-1https://cran.r-project.org/web/packages/Cubist/vignettes/cubist.html2392}{S----联系我们--{数据集表示精度预测图1.拟议工作流程特征的分辨率范围从256到2048。选择的数据集是MNIST [38]，CIFAR10 [33]，DTD [7]，[51]第59话：我的世界，我的世界CUB200、ImageNet-R、Caltech256、FSS1000[40]，ImageNetMini [37]，THINGS [20]，包含respec-分别为10、10、47、50、100、105、200、200、256、1000、1000、1854节课。关于特征提取器，已经选择了具有不同预训练的不同架构，以覆盖线性分类的大量维度和难度水平。例如，像FaceNet [50]这样的架构预计在CIFAR数据集上表现不佳，因为它是在面部识别任务上学习的，而在同一数据集上是比我们的GP公式原型_cos_simfeats_cos_sim原型_corrsb_tracest_tracefeats_corrsw_tracepca_50pca_75n_trainpca_99shapiron_classesn_testkurtosis_std昏暗峰度平均值train_stdtrain_mean绝对Pearson相关性与准确度一个随机初始化的。使用的ImageNet预训练特征提取器是：AlexNet [34]，ResNet [19]（RN-18，50 ， 101 ）， DenseNet [27] （ DN- 169 ， 201 ），SqueezeNet[28]、MobileNetv2 [47]、MobileNetv3 [24]小型和大型版本。我们还使用了在VG-GFaces 2和CLIP-RN 50，ViT 16 b，ViT 32 b [46]上预训练的FaceNet [50]。作为未经训练的特征提取器，我们使用：ResNet（RN-34 ， 152 ）， DenseNet （ DN- 169 ， 201 ），SqueezeNet，MobileNetv 2，MobileNetv 3小型和大型版本。这里表示的所有嵌入尺寸为：256、512、576、768、960、1024、1280，1664年1792年1920年2048年我们将所有特征提取器组合所有图像数据集产生的嵌入称为嵌入数据集。我们从这260多个嵌入数据集中构建了一个Meta数据集M元数据集表示为了能够找到给定数据集和相关联的最佳精度之间的隐藏关系，我们需要通过共享表示空间中的特征向量s来受[22，41，43，5]的启发，我们选择了各种特征s i（统计数据越多样化和不相关越好）：嵌入的维数（dim）、输出类的数目（n个类）、所有类内协方差矩阵的平均矩阵的迹（sb迹）、所有类间协方差矩阵的平均的迹0.0 0.2 0.4 0.6 0.8 1.0Pearson相关图2.每个数据集统计量和准确性之间的Pearson相关性的绝对值。（sw轨迹），两个先前轨迹的总和（st轨迹），特征相关矩阵和身份之间的均方差（MSD）（feats corr），每对维度之间的平均余弦相似性（feats cos sim），对于50%、75%和99%的给定解释方差（pca XX%）要保留的维度百分比，以限制关于数据集内在维度的真实信息、所有嵌入值的平均值（训练均值）和标准偏差（训练标准差）、在每个维度上计算的峰度的平均值和标准偏差（峰度平均值，峰度标准差）、以及检验每个维度正态性的平均Shapiro-Wilk值（Shapiro）。这两个变量（原型corr，原型cos sim）分别是指原型之间在这里，术语原型（prototype）不表示每个类的平均嵌入.最后，我们增加了训练集（n train）和测试集（n test）中的样本数量。图2中报告了每个统计量与准确度的相关性。一旦我们使用特征提取器从各种数据集中提取了嵌入，我们统计符号注册× ⁄-日志+√数据集特征提取器嵌入（例如ImageNet..）（例如：CNN.）和标签最佳观测精度生成的公式2393PFP{− ×}∈A→M×F亚当优化器我们的元数据集M={（si，αi）}D联系我们预训练预训练图3.我们可以观察到我们的预测精度与真实精度之间存在很强的线性关系需要通过softmax classi- fier为每种情况找到最佳可达精度为此，我们采用与[5]相同的我们将每个嵌入数据集分为训练集和测试集，并在1000个epoch期间训练模型，批量大小为2048。所有的嵌入和分类器权重都是2-归一化的。测试集通常用于具有特定分割的数据集，例如CIFAR。我们使用66/33的分割来分割少镜头数据集，例如THINGS，以确保训练/测试分割比例为每个类留下至少10张其他的则以75/25的比例分成。通过跟踪测试集上的准确度，我们可以观察到我们将视为良好的最佳准确度α。最佳可达精度的近似值。我们使用i=1∈S执行和易用性。在基于GP的符号回归中，使用进化操作（如选择、交叉和变异）来“进化”随机生成的数学表达式的群体群体中的个体p表示为适合于特定问题域的原始函数τ和终端的分层组合这里，τ=log，e，τ，+，、、并且所述终端对应于描述数据集di的统计量si。我们进化了一个5000人的种群，进行了20步，并测试了3个不同的适应度函数：第一个对应于预测公式和期望结果之间的R2。这个适应度函数在训练集和测试集上都产生了很差的结果。第二个测量Pearson的预期和预测准确度之间的相关性。虽然比第一个更容易优化，但我们发现这个效率惊人，因为它倾向于将预训练的表示分组在一个紧凑的集群中，而未训练的表示在另一个集群中，这样一条线穿过两个质心。事实上，模型准确度与指定预训练或未训练模型是否用于嵌入提取的变量之间的Pear-son相关性已经达到0.77。为了克服这种影响，我们设计了一个简单的适应度函数，使得预训练和未训练的提取嵌入独立地与准确度线性相关用于giv enindividual，这里是GP预测器公式p（·），我们认为它的适应度得分F：F=最小值皮尔逊河p（S），A. 、响应于统计表示siD数据集的每个数据集di和所观察到的最优值，. 皮尔逊河p（Sunt raine d），Aunt rained.Σ误差精度αi.这些元组是我们的输入，目标的提供S子集，A子集分别对应于符号回归恢复变量之间隐藏的代数关系以描述给定的现象是符号回归（SR）寻求优化的目标。我们搜索一个预测函数p：R从我们的元数据集，其中S是数字表示每个数据集di的统计特征。如前所述，不同的方法已经开发了符号回归。通过对SR框架和ML模型进行基准测试，发现DSO [45]（一种基于深度学习的方法）和gplearn（一种遗传编程（GP）框架）是比较的前5种方法中的两种[35]。当尝试使用DSO [45]提供的代码执行我们的任务时，发现解决方案的性能低于gplearn，公式更复杂，训练时间更长。因此，我们在这里关注gplearn实现2，因为它的解决方案紧凑，速度快，2https://gplearn.readthedocs.io/给定子集的统计表示和目标精度α的预训练，未训练。虽然这种约束并不强制要求预训练和未训练的集合都与相同的趋势相关，但我们可以通过实验观察到图3中的好处，其中预训练和未训练的网络并没有分离在非常明显的集群中，而是分布在一条线上。我们以固定的75/25-train/test方式分割我们的元数据集，并重复每个实验1000次。由于只寻求相关性，因此在训练集上学习输出值的线性变换，以预测精度：α=a·p（·）+b。4. 结果基线为了评估我们的GP解决方案的性能，我们将其与流行的回归方法进行比较，包括线性回归，决策树回归和随机森林回归。所有这些方法都使用了相同的训练/测试分割所有变量都是同时使用的cor-（一）2394×.Σ√表1.我们的公式具有更好的相关性和更高的预测能力，只有 5 个变量，而其他模型使用 19 个变量（所有 p 值<0.01）。方法PearsonrR2线性回归0.90420.8011决策树0.94720.8868随机森林（10棵树）0.96430.9246我们的GP公式（GPF）0.96710.9319同时表1中报告了测试集的性能。由于线性回归量和我们的公式之间的r2得分有很大的差距，我们可以得出结论，1.00.80.60.40.20.0NB.节点与最佳r2评分找到的GP公式最好的GP公式每nb.找到最好的GP公式4 6 8 10 12 14 16节点数预测准确性需要仅几个变量的复杂非线性组合。此外，我们比较了非线性回归，如决策树和随机森林。我们之所以选择这些模型，是因为它们的性能以及人们普遍认为这些模型是最可解释的模型之一我们使用了sklearn实现。我们的公式优于决策树，与随机森林的表现相似，但更易于解释。符号回归公式我们在同一训练集上运行GP管道1000次，并将其各自的解决方案和分数序列化以进行分析。具有最佳测试r2得分的解决方案被发现6.我们在图4中比较了测试性能与找到的解决方案的复杂性。我们的公式有6个节点的复杂性。我们将该遗传编程公式称为：GPF=logsbtrace/sttrace（2）nclasses·featscorrr·prototypescossim我们可以很容易地重写：GPF=SEP−COR：. sbtrace图4.性能与GP公式的复杂性。1000个公式中最常见的变量n_classesprototypes_cos_sim摆动轨迹st_tracesb_tracefeats_corrprototypes_corr夏皮罗train_stdtrain_meanpca_50feats_cos_simpca_75pca_99n_testdimn_train峰度_标准峰度_平均0 200 400 600 800 1000就业人数图5. 1000个GP中最常用变量的频率-找到的公式。黑色条表示最佳GP公式中存在的变量（每个公式可以多次使用一个变量表2.当只使用我们的遗传公式选择的五个变量时，基线精度的微小变化表明，SEP= log1st迹（三）五个变量是所有方法中最重要的。(allp值<0的情况。01）。COR=2log（n类·专长corr·原型cos sim）方法Pearsonr r2两部分的组合达到0。九十六。最后，我们发现其他表现最好的GP公式具有相似的结构和变量。我们在图5中报告了在1000次运行中每个统计量被使用的消融作为第一次消融测试，我们建议演示GPF选择的变量如何影响不同基线的结果。表2显示，与传统方法相比，这些方法的性能略有下降。表1中的原始基线。例如，随机森林的Pearson相关性从0. 9643比0 9532，而决策树从0. 9472比0 9538。另一方面，线性回归模型需要通过从0下降来经受该特征选择步骤。9042比0 8796 所有p值0.01表明所选变量可能足以与准确度相关。<然而，仍然需要对这些变量进行非线性变换可以注意到，日志属性仍然可以被应用-r2评分SEP可以对应于SEP可行性标准，而线性回归0.87960.7689COR可以对应于COR关系信息。秒-决策树0.95380.8937第5深入研究每个公式组件。由AB-随机森林（10棵树）0.95320.9057对GPF进行划分，并对每个部分进行独立考虑，我们的GP公式（GPF）0.96710.9319发现它们是互补的。其实，只有Pearson相关系数为0。65和COR为-0。87、当2395−联系我们−222表3.我们评估我们的公式的性能后，替换每个变量与其平均值。所有p值<0.01，Sb痕量p值为0除外。6882 粗体分数对应于使变量成为最重要的变量的第二个分数。消融变量Pearson rR2Sb痕量−0.0503-2.1806表4.我们将我们的解决方案与不同的方法进行比较。我们的GPF提供了准确性和简单性之间的最佳折衷，而无需对解决方案的结构进行任何事先考虑我们的GPF扩展使用17个变量提供了最好的Pearsons这里log代表对数转换变量，org代表原始变量。方法编号VarPearson rR2n类0.7918 0.4341ST迹线0.8028 1.2761专长修正0.8530 0.5818原型cos sim0.9420 0.8764无变量消融0.9671 0.9319应用于我们的GPF，以将我们的公式简化为我们所选变量的线性组合。当系数为[1，−1，−1，−1，−1]时，我们的GPF可以写为：GA未加权总和19 org 0.7763 0.5744GA未加权和17 log0.9621 0.9254立体主义规则19 org 0.9666 0.9343立体派规则5 log 0.9642 0.9276立体派规则17 log0.9772 0.9525线性回归5 log0.96070.9206线性回归17日志0.97950.9586我们的GP配方5个组织0.96710.9319GPF = log（Sb迹线）-log（St迹线）- 0.5 log（n类）- 0.5 log（feats corr）- 0.5 log（原型校正）（四）下降越显著，变量的重要性就越大表3让我们看到，冻结每个变量会导致分数下降。除Sb痕量外，所有p值均具有显著性（0.01）。<事实上，冻结它消除了我们的GPF和由于没有关于GPF结构的先验知识，在搜索阶段提出的，这个发现是特别有趣的。随着这一发现，出现了两个密切相关的问题：1）学习这五个系数是否会提高个人能力？2)如果所有变量都使用，性能会怎样？为了回答第一个问题，我们在将五个统计数据传递到日志后，学习了一个线性回归模型这样做增加了没有对数转换的线性模型的性能，虽然在训练集上更有效，但线性模型在测试集上的表现比我们的GPF差。然而，当比较学习的权重时，我们发现符号和幅度与权重或我们的GPF高度相似，余弦相似度为0。九九二三通过不需要对我们的五个变量进行任何重新加权，我们的公式以其原始形式（方程。2)因此更加有趣。另一方面，我们使用相同的程序学习了对数转换统计量的线性模型。由于原始值为负值，19个中只有以明显不太可解释为代价，表4中报告的模型人们可以注意到，具有17个变量的模型与具有5个变量的GPF之间报告的相关性的相对差异小于表3中报告的具有5个变量的GPF与具有4个最重要变量的GPF之间最后，我们最后的消融研究旨在确定我们公式的组成部分是最重要的。我们可以通过冻结每个变量并将其替换为平均值来确定每个变量对分数的影响程度p值为0时的预期准确度。6882另一方面，虽然对GPF与准确性的相关性具有最小的积极影响，但原型cossim似乎对于具有良好的r2预测分数仍然很重要。与相关工作的比较如前所述，[8，4]既没有使用相似的数据集，也没有使用统计数据来描述所选的数据集，这使得他们的工作很难比较它们。然而，我们建议通过在我们的Meta数据集上应用他们的管道来比较我们的解决方案。结果报告于表4中。为了找到几个变量的未加权和，我们使用了类似的遗传算法 3（GA），其中预测和实际得分之间的Pearson相关性作为适应度函数，如[8]中所述。通过将变量类型设置为整数并限制在[1，1]之间，3个可能的值为101 最初的人口是5000人，现在是300人-我们发现结果是稳定的。我们使用了与我们完全相同的训练/测试分割为了计算r2得分，我们使用在训练集上学习的（a，b）线性地重新校准公式的相同过程正如预期的那样，19个变量的结果明显比我们的基线线性回归模型的加权总和差。因此，我们在保存和日志转换17个变量（由于19个变量中有2个具有负值）后测试了相同的流水线。与消融研究的发现一致最佳解决方案发现与遗传算法（GA）的报告3https://github.com/rmsolgi/geneticalgorithm2396如果百分比dims exp var 99> 0.9316406feats corr = 0.05039461峰度标准差= 9.284021 n检验> 1880n检验= 4384，则结果= 5.4992777- 0.031372峰度标准品- 5.02%直径，经验值99+ 1.31 feats corr+ 0.83 Sb痕量- 0.19原型cos sim+ 0.085原型校正+ 8 e-06 n检验+1.6列车平均值- 3.2e-05 n类表5.我们检查我们的公式最佳可达GPF用 * 符号表示。所有p值0.01。<方法Pearson rR2图6. Cubist在学习19个变量时输出的10个规则之一的示例在方程式中。第五章：GA = log（Sb迹线）+log（Shapiro）比立体派的解决方案更直接使用奥卡姆此外，我们的GPF可以更容易解释，因为它的简洁性。我们建议在第二节中讨论我们的GPF。五、推广我们的方法适用于任何数据集描述的一组几个统计。因为我们使用嵌入数据集的统计数据获得了GPF+ log（dim）- log（feats corr）- log（Sw迹）- log（峰度平均值）- 日志（原型校正）解决方案发现使用7个变量，而我们的（五）仅从视觉数据集和特征提取器中提取，我们在这些数据集上发现的GPF到其他领域（如文本）的推广可能会受到质疑。因此，在本发明中，我们使用了7个文本数据集4和4个预训练的文本特征，仅使用GPF5. 由于只有3个变量与我们的GPF共享，我们发现很难理解与选定变量的相互作用。为了将我们的解决方案与[4]提出的管道进行如表4所示，我们用三组输入变量进行了实验。第一个对应于我们的19个原始变量，没有任何变换。虽然使用5个变量的分数与我们的GPF相当，但我们可以注意到规则非常复杂。事实上，它产生了10条规则，使用了许多难以阅读的系数图中报告了规则的一个6.在第二个实验中，我们只使用了GPF在对数转换后选择的前5个变量。它帮助立体派系统只使用两条规则就能输出可比较的结果。每个规则将准确度预测为所有5个对数变量的线性组合。我们将这些规则的系数与原始GPF的系数进行比较（如等式中所示）。4.有趣的是，它们的余弦相似度为0。9467和0。9791与我们的GPF的。只有5个变量，我们的GPF更简单，性能更好。最后，我们发现我们的日志拖拉机从第五代变压器包，以测试我们的公式结合所有这些数据集和特征提取器，我们应用相同的过程来提取数据集统计数据和准确性，为我们的分析提供了28个点。表5比较了我们的公式如何转移到这组新的点与经典回归。所有报道的相关性都有统计学显著性p值（0.01）。<我们可以观察到一个显着下降的皮尔逊然而，我们的GPG仍然优于其他方法，具有0.8618的强皮尔逊相关性。两个r2评分为我们的GPF报告;第一个对应于我们的公式，该公式用在视觉数据集的训练集上学习的系数a，b线性变换。第二个是通过线性平移我们的GPF获得的，指的是文本元数据集上可能的最佳r2为了找到oracle系数，我们在学习了文本元数据集上的参数a，b之后评估了公式（这里train=test）。Oracle给了我们这个元数据集上可达到的最佳得分28分。其中（a，b）=（0. 2417，1. 0327），并且（a，b）=（0. 2508，0。9121）对于文本元数据集，我们可以看到，来自文本和vi的参数预处理也有利于立体派。当给予17对数转换的变量作为输入，Cubist提出了一种基于6条规则的解决方案，同时比从19个原始变量输出的10条规则更然而，我们将GPF扩展到17个对数变量的线性组合仍然表现得更好，4WOS 5736（11类），20 NewsGroup，Ohsumed-23，New“Year'sResolutions”（两个数据集是从两个不同的列，10和115类构建的），“QuoteswithAuthors”（1043类，在过滤至少20个样本的类后）和路透社21578-Apte-90Cat（90类）。5https://www.sbert.net （ allece-t5-base ，allenai-specter ，paraphrase-MiniLM-L6-v2，bert-base-uncased）线性回归0.61910.3052决策树0.79440.1928随机森林（10棵树）0.7231-0.0722我们的GP公式（GPF）0.86180.4565我们的GP公式（GPF）*0.86180.74282397元数据集相似。然而，r2得分似乎非常敏感，也许是由于点的数量少.这种分数下降可以通过文本和视觉元数据集之间的差异来解释。例如，虽然具有超过200个类的数据集在视觉中很常见，但文本分类任务通常具有低得多的类数量，例如情感分析为2个，主题建模为20个。我们通过对五个选定变量中的每一个进行学生t检验来测量这种差异我们发现五个变量中有三个的p值0.01（Sb迹线，n类，原型cos sim），这为反对相同总体均值的零假设提供了证据。<虽然不完美，但我们的结果似乎很有希望。然而，他们将受益于从其他领域整合更多的元数据集，如音频，视频，基于图形或表格的数据分类数据集。5. 讨论如前所述，GPF可以写成两个分量的总和仔细观察，可以观察到第一个元素SEP接近线性判别分析（LDA）[14]中使用的Fisher准则，其中目标是找到最大化因此，SEP对应于类的可分性度量。有趣的是，这个标准已经被广泛地用作深度学习中的损失函数[11，15]。在深度学习中，基于LDA的损失函数的选择仍然是边缘性的，交叉熵（CE）是一个更受欢迎的选择。然而，LDA和CE之间的强烈相似性允许我们将第一个可分性度量交换为后者。事实上，[55]注意到，克服softmax在基于交叉熵的损失中的某些缺陷的最广泛研究的技术路线第二部分，COR，与精度通过查看组成公式这一部分的每个变量，这很容易理解。第一个是类的数量（n类）。事实上，当机器学习模型在数据集上训练时，它是自然的。分数会随着班级数量的增加而下降。[18]讨论如何随着数据集中类的数量增加，区分它们变得越来越困难，使得数据集越来越难以分类。这种直觉可以在具有不同类粒度的数据集上凭经验验证。例如，[6]在CUB200数据集上观察到准确度从0.97下降到0.82[56]，从粗级（ 13 ）到细粒级（200 ）。另外两个变量（ featscorr，prototype cos sim）对应于正交性和去相关信息。通过查阅文献，我们可以很容易地解释这一点。两个解相关项的重要性。为了保护权重去相关项（prototypes cos sim），[2]在几个最先进的CNN上发现，通过使用权重的正交正则化，它们可以实现先前关于特征去相关的工作很大程度上证明了我们的特征去相关变量（feats corr）的存在[3，13，26，30，39，55，62]。事实上，[39]发现相关输入变量通常会导致Hessian的特征向量旋转远离坐标轴，从而导致收敛速度较慢因此，开发了几个命题最近，去相关在自我监督方法的性能提高中发挥了重要作用[3，13，26，62]。例如，[13]最近在他们的自监督损失中引入了一个白化步骤，[3]在他们的损失中包含了一个去相关部分。他们认为，这个术语解除了变量的关联，防止了崩溃。6. 结论在本文中，我们展示了一个简单的管道可以帮助我们从实验中提取理论直觉。为此，我们对从各种数据集和特征提取器的组合中提取的260多个嵌入数据集的元数据集进行了实验为了解决表达这种不同数据集的问题，我们提出通过使用一组可以在任何数据集上计算的通用统计数据来创建表示，将它们组合到单个空间中。因此，我们的工作适用于计算机视觉和机器学习的所有其他领域。最后，一个启发式能够预测的线性分类器的准确性，自动发现，皮尔森的相关性为0。96和0的r2。九十三有趣的是，具有类似性能的其他系统倾向于通过具有高度相关的权重来确认我们的GPF。此外，这个公式是高度可解释的，并且与几十年的研究相一致。这个人工智能辅助研究的成功例子鼓励我们将其用于其他领域，例如预测和理解超参数（正则化，温度，树深度等）。7. 确认这项工作的部分资金由史密斯探测。作者要感谢所有参与校对的人，并为大幅改进本文件做出了贡献。按字母顺序排列：ThibaultALEXANDRE，Ihab BENDIDI，MohamedCHELALI，PhilippeJOLY ， CeliaKHERDELAH ， CamilleKURTZ ， Amine MARZOUKI ， Julien PINQUIER ，Guillaume SE-RIEYS.2398引用[1] Douglas Adriano Augusto和Helio J. C.巴博萨通过遗传程序设计的符号回归。在SBRN中，Procs. 第173-178页[2] Nitin Bansal，Xiaohan Chen，and Zhangyang Wang.在训练深度网络时，我们能否从正交正则化中获得更多？在NIPS中，Procs. ，第31卷，2018年。[3] Adrien Bardes ， Jean Ponce ， and Yann LeCun.VI-CReg：Variance-Invariance-Covariance Regularization forSelf-Supervised Learning。在ICLR，Procs. ，2022年。[4] Hilan Bensusan和Alexandros Kalousis。估计分类器的预测精度。在ECML中，Procs. 第25-36页[5] Benjamin Chamand，Olivier Risser-Maroix，C. Kurtz，P.Jol y，andN. 我的宝贝。微调分类器：查找与温度的相关性。在ICIP中，Procs. ，2022年。[6] 张栋梁，庞凯越，郑益晓，马占宇，宋益哲，郭军。你的”火烈鸟”就是我的”鸟”：细颗粒，或不。在CVPR中，Procs. 第11476-11485页，2021。[7] M. Cimpoi，S.马吉岛Kokkinos，S. Mohamed和A.维达尔迪描述野外的纹理。在CVPR中，Procs. ，2014年。[8] Edward Collins，Nikolai Rozanov，and Bingbing Zhang.进化数据测量：理解文本分类任务的难度。在CoNLL，2018年。[9] Al e xD a，PetarVeli cko vi c，LarsBu e sing，SamBlack-well ， Daniel Zheng ， Nenad Tomas Bagleev ， RichardTanburn，Peter Battaglia，CharlesBlundell，Andr a'sJuh a'sz，etal. 用人工智能引导人类直觉来改进数学Nature，600（7887）：70[10] Weijian Deng和Liang Zheng。分类器精度评估是否总是需要标签在CVPR中，Procs. ，第15069-15078页[11] Matthias Dorfer，Rainer Kelz，and Gerhard Widmer.深度线性判别分析。在ICLR，Procs. ，2016年。[12] 迈克尔·道格拉斯机器学习作为理论科学的工具NatureReviews Physics，第1-2页[13] AleksandrErmolov 、 AliaksandrSiarohin 、 EnverSangineto和Nicu Sebe。自监督表示学习的白化在ICML中，Procs. ，第3015-3024页。PMLR，2021年。[14] 罗纳德·A·费舍尔分类学问题中多重测量的应用Annalsof eugenics，7（2）：179[15] Benjamin Ghojogh，Milad Sikaroudi，Sobhan Shafiei，Hamid R Tizhoosh，Fakhri Karray，and Mark Crowley.训练连体网络的fisher判别三元组和对比损失。2020年国际神经网络联合会议（IJCNN），第1-7页。IEEE，2020年。[16] Priya Goyal 、 Dhruv Mahajan 、 Abhinav Gupta 和 IshanMisra。自监督视觉表示学习的缩放和基准测试。arXiv预印本arXiv：1905.01235，2019。[17] 格雷格·格里芬，亚历克斯·霍卢布，还有皮埃特罗·佩罗纳. Caltech256图像数据集。2006年

下载后可阅读完整内容，剩余1页未读，立即下载