数据需求估计:机器学习系统中的数据需求估计与调整因子

31 浏览量更新于2023-10-25 收藏 4.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

275我还需要多少数据？估计下游任务穆罕默德1詹姆斯卢卡斯1，2，3大卫阿库纳1，2，3李代清1约拿Pheny1，2，3何塞M。阿尔瓦雷斯1于智丁1桑贾费德勒1，2，3马克T。法11NVIDIA2多伦多大学3Vector Institute{rmahmood，jalucas，dacunamarrer，daiqingl，jphalan，josea，zhidingy，sfidler，marcl}@ nvidia.com摘要给定一个小的训练数据集和一个学习算法，还需要多少数据才能达到目标验证或测试性能？这个问题在自动驾驶或医学成像等应用中至关重要，过高或过低估计数据需求会产生大量费用，但如果有足够的预算，这些费用是可以神经标度律的先前工作表明，幂律函数可以拟合验证性能曲线，并将其外推到更大的数据集大小。我们发现，这并不能立即转化为更困难的下游任务，估计所需的数据集大小，以满足目标性能。在这项工作中，我们考虑了广泛的计算机视觉任务，并系统地研究了一系列函数，这些函数概括了幂律函数，以更好地估计数据需求。最后，我们表明，将调整校正因子和收集多轮显着提高了数据估计的性能。使用我们的指南，从业者可以准确地估计机器学习系统的数据需求，以节省开发时间和数据采集成本。1. 介绍在部署深度学习模型之前，设计人员可能会要求模型满足基线性能，例如在验证或测试集上的目标指标。例如，对象检测器在被部署在安全关键应用中之前可能需要最小平均平均精度。达到目标性能的最有效方法之一是为给定模型收集更多的训练数据。然而，还需要多少数据？过高估计数据需求可能会导致不必要的收集、清理和注释成本。例如，注释分割数据集可能需要每个对象15到40秒[2]，这意味着注释驾驶图1. ImageNet [7]上的外推准确度作为数据集大小的函数，使用四个回归函数从10%的数据集（125，000张图像;虚线）和50%（600，000张垂直虚线显示了根据每条虚线曲线，需要多少数据才能满足67%的目标验证准确度。所有虚线曲线都可以准确地外推性能，因为它们被给予了足够量的图像。尽管这些函数与真实值的误差在1-6%之间（900，000张图像的误差为67%），但它们错误估计了120，000到310，000张图像的数据需求。具有平均每个图像10辆汽车的100，000个图像的数据集可能花费170到460天-相当于时间。另一方面，低估意味着必须在稍后阶段收集更多数据，从而导致未来成本和工作流程延迟。例如，在自动驾驶车辆应用中，每个数据收集周期需要管理一队驾驶员以记录驾驶视频。因此，准确估计给定任务需要多少数据可以降低深度学习工作流的成本和延迟关于估计机器学习模型的样本复杂度的文献越来越多[4，11，12]。最近提出的神经标度律表明，泛化与数据集大小的比例取决于幂276/O法[3，14，15，20，26]。Rosenfield等人[26]建议使用来自小数据集的性能统计数据拟合幂律函数，以推断更大数据集的性能;虽然不是他们论文的重点，但他们建议这可以用于估计数据需求。然而，幂律函数不是唯一可能的选择。本文建议将其与类似的函数一起使用，在实际应用中可以图1说明了图像分类中的数据收集过程，其中ImageNet数据集[7]用于幂律函数和几种有效的替代方案。当使用小数据集进行外推时，拟合函数可能会以不同的方式偏离地面真实性能曲线。更重要的是，即使是外推准确性方面的一个小误差也可能导致高估或低估数据需求方面的大误差，这可能带来巨大的业务成本。在本文中，我们问：给定一个小的训练数据集和一个在某些指标上尚未达到目标性能的模型，我们应该收集多少数据来满足目标？概括估计的数据需求的幂律，我们研究了几个替代回归函数，并表明，所有这些都是非常适合对估计模型的性能。此外，每个函数几乎总是要么过于乐观（即，低估数据需求）或悲观（即，高估），这意味着对于所有情况都没有唯一的最佳回归函数，但是使用所有不同的函数，我们可以近似地限制真实的数据要求。通过对数据收集工作流的模拟，我们表明，在多轮中增量收集数据对于满足要求而不显著超过它是至关重要的。最后，我们引入了一个简单的校正因子来帮助这些功能更经常地满足数据要求;这个因子可以通过对先前任务的模拟来学习。我们探索分类，检测和分割任务与不同的数据集，模型和指标，以表明我们的结果在每一个设置考虑。总之，我们的实证研究结果和建议的增强产生了易于实施的指导方针，在现实世界的应用程序中的数据收集：从业者应该分配多达五轮的数据收集，并使用本文介绍的校正因子，以增加乐观的回归函数（例如，幂律、对数、代数根），以便准确地估计数据需求，并最终仅收集比满足期望性能所需的最小数据多的相对少量的数据。我们相信，这种方法可以改善工作流程，并在未来节省大量成本。2. 相关工作神经缩放定律。先前的工作已经估计了作为数据集大小的函数的模型性能[1，4，11，26，30，35]。最近关于神经标度律的文献认为，模型性能（通常定义为减少损失超过验证集）根据功率函数随数据集大小缩放，即，e. V1n 其中n是数据集大小。Hestness等人[14]经验验证了这种力量laws在不同的图像分类、语言和音频任务上精确地对负验证集损失和Bahri等人[3]证明了对于过参数化网络，在损失函数、模型和数据分布的Lipschitz连续性下，样本外损失尺度在（n-1/n）。 Rosenfeld等人[26]第二十六话：使用小的数据子集。最后，Hoiemet al. [第十五条]使用幂律来构建学习曲线并研究建模问题。这些研究和我们自己的研究之间的一个关键区别是，我们专注于估计，给定数据大小和模型性能之间的近似关系的目标数据要求更广泛地说，这一领域还涉及到经典机器学习中的学习曲线研究[10，19，31]。我们的工作通过详细的模拟研究了学习曲线估计不佳的运营成本，从而与该文献有所不同。主动学习。在这项工作中，我们考虑收集多轮数据。这与主动学习有关[6]，其中模型选择在多轮训练期间使用哪些数据。主动学习的重点是在给定固定收集预算的情况下智能地选择这些数据[23，27然而，这项工作的目标是预测最佳的收集预算本身。本文的重点是随机抽样，但在附录中包括主动学习的实验，以证明我们对估计数据需求的看法与抽样策略无关。统计学习理论不严格地说，统计学习理论试图将模型性能和数据集大小联系起来。这种关系的精确理论表征可用于推断目标数据要求，但这些结果通常仅是渐近紧密的;如果有的话。最近的工作探索了经验估计这种理论关系[17，18]。Bisla等人[4]在训练和测试行为的假设下，为深度神经网络构建泛化模型，这些假设是经验验证的。Bisla等人强调能够从这样一个模型中估计数据需求的实用性，但不要像我们在这项工作中那样凭经验探索。3. 主要问题在本节中，我们将从数学上定义数据收集问题和一般解决方法。这个问题的目标是估计数据集的大小，在有限数量的回合中返回期望的我们首先将性能建模为数据集大小的函数，然后在给定输入性能的情况下求解数据。277⇠1DDR-1DDD;D[ D ≥D[ D ≥|D|D D···i=0时R{|S |S}·· ·≥⇡1220我i=10第三章：CREATE回归数据集PDD回归函数v（n;n）P WLaw1nArctan200arctann++图2. 迭代数据收集循环。3.1. 数据收集问题设z p（z）是从分布p中提取的数据。例如，z：=（x，y）可以对应于图像x和标签y.考虑一个预测问题，我们目前有一个初始训练数据集D：={z}n0，n个点logg算术<$1logg（n+<$2） +<$3代数根100n+n（1+|✓n|102）1/1023表1.本文研究了四个凹单调递增回归函数。的一组可学习的参数是：：={1，2，3}。算法1数据收集问题1：输入：初始数据集0，评分函数Vf（），目标评分Vf，最大轮次T，回归模型vf（n;n），初始回归集大小r2：Setn0←|D0|，D=;和模型F。设Vf（D）是模型的得分函数在集合D上训练后，我们的目标是获得一个预-4：样本子集S0<$S1<$··<$Sr-1=D05：E valuateVf（Si）andcreateR←{（|SI|，Vf（Si））}i=0确定的目标得分V_f> V_f（0）。为了实现我们的目标，我们对n个额外的点进行采样，创建D：={z}np（z），然后计算V（D[D）。第六章：执行数据收集7：重复8：拟合函数←argminn（n，v）2R（v-vn n（n;v））2ii=1f09：最小化n，满足v（n0+n;n）≥V如果我们达不到目标，我们必须确定一个更大的数据库，用更多的数据来扩充数据库。因为每一个数据点-从收集、清理和标记中计算成本，我们理想上希望获得最少的点数来实现目标。此外，由于启动一轮数据收集本身是昂贵和耗时的，我们只允许最多T轮;在T轮内未能满足要求意味着未能解决问题。这个问题总结在下面的迭代顺序初始化=。然后在每一轮中，重复：(1) 估计所需的额外数据量(2) 采样点，|D|=n，然后评估10：从p（z）到|D|=n11：T训练模型和评估分数Vf（D0[D]）12：更新R←R[{（n0+n，Vf（D0[D]））}13：直到Vf（D0[D]）≥Vf或T轮已经通过14：输出：最终收集的数据集D0[D0]训练数据集的大小。这一观察结果意味着，直觉上，随着我们收集更多的数据，每个额外数据点的边际值都应该减少（例如，图1）。因此，我们可以使用凹的单调递增函数通过回归来建模v（n）在数据收集循环中，我们首先使用可用数据估计n得分如果Vf（0）V，然后终止。否则重复另一轮，直到T轮。数据收集问题的目标是选择最小的n阶，使得Vf（0）在T轮内的V。本文重点介绍循环的第一步：准确估计满足V所需的n。3.2. 使用数据集大小图2说明了我们的数据收集管道，以估计数据，并通过以下经验观察进行改进。观察[11，26]。设01为a增长序列的数据集，并让ni=i，对于每个i在序列中。然后，分段线性函数（Vf（D0）n，n n0通过拟合v（n）的回归模型v（n;n），其中n是回归参数的集合我们考虑四个函数，满足学习曲线文献中的观察结果（见表1）[31]。虽然我们可以使用更复杂的模型，但我们发现这些具有少量参数的简单结构函数更容易拟合较小的学习统计数据集使用拟合的回归函数，我们求出ve的最小n次方，使得v∈（n0+n次方;n）≥V∈。算法1总结了主要步骤。我们首先通过选择r个子集S0<$S1<$来创建回归数据集r-1= 0并计算它们的分数;这产生一组r对：=（i，Vf（i））r-1。然后，在数据收集循环中，我们从表1中选择函数v（n;n）v（ n）：=Vf（Di）-Vf（Di-1）（n-ni）+Vf（Di），ni-1 nn，并通过最小二乘最小化拟合参数集ni-ni-1是凹的并且单调递增。回想一下，Vf（Di）是在Di上训练后的模型得分。我们将v（n）称为模型得分函数，我的天。最后，我们最小化n，满足v（n;n）V，然后收集n个新的点。在随后的数据收集中，当我们获得D时，我们用参数来增加R（|D0|+的|D|，Vf（D0[D）），然后重新拟合v（n;n）。我们的问题：估计所需的数据量标记子集目标业绩（百分比）新收集的数据（2010年）��模型回归数据集（ 0，2000年），...，（ −1，�� 估计所需数据（千美元）模型性能（回归分析）回归性能并创建回归数据集估计所需的数据集大小Per formanc e（（0））��收集数据并进行培训如果你不愿意，��<��∗次模函数n0的3278⇡|D|EURR|D|⇡|-|DD（D）D[D2{-}|S||D|RD D·· ·D| D|| D|R数据集任务评分完整数据集大小[21]第二十一话分类精度五万CIFAR100 [21]分类精度五万ImageNet [7]分类精度1，281，167VOC [8，9]二维目标检测平均前后16551nuScenes [5]三维物体检测平均前后二十八，一百三十BDD 100K [34]语义分割平均IoU七千nuScenes [5]BEV细分平均IoU二十八，一百三十表2.考虑的数据集、任务和评分函数现有文献表明，幂律可以使用数据集大小来估计模型精度，但是估计所需数据集大小以满足目标分数的实际应用存在三个主要挑战。我们使用图 1 中的ImageNet数据集在下面突出显示它们。表1中的所有函数都符合模型得分。有了足够的数据，表1中的所有回归函数都可以准确拟合v（n）。适合使用时0=600，000im-年龄（数据集的50%），图1显示每个链接函数（虚线）在外推时与地面真实值精度的误差最多为6%虽然幂律是理论上的动机[3，16]，是否有经验是否有理由将其用于其他功能？用小数据集外推精确度是困难的。在有限的数据下，所有的回归函数都很难外推v（n）。图1显示了当拟合0=125，000张图像（数据集的10%）时，每条曲线（虚线）是如何显著偏离真实情况的此外，一些曲线提供比幂律更好的拟合。在[14，26]中观察到这种小数据状态，他们提出了数据集和模型大小的联合回归;虽然这提高了外推性能，但也需要2通过采样子集和修改不同的模型获得更大的。这可能会增加计算成本和耗时;因此，我们专注于使用少量训练统计数据的简单r10. 小的精度误差会产生大的数据误差。什么我们必须在ImageNet上建立一个满足67%测试集准确率的模型，这需要90万个数据点。即使函数适合使用600，000幅图像，也实现了67%的误差v/v（900，000;N）在1%到6%之间，则错误估计了120，000到310，000个图像之间的数据需求--收集的数据比实际所需少34%。由于外推误差的容限很低，我们必须确定估计数据需求的最佳做法4. 实证研究结果我们研究了三个挑战，使用回归和模拟不同的数据集和任务。在分析结果之前，我们首先总结了我们的实验装置。4.1. 数据和方法我们评估了图像分类、对象检测和语义分割任务汇总于表2。在分类中，我们在CIFAR10 [21]，CIFAR100 [21]和CIFAR100上训练ResNet [13]。ImageNet [7]数据集，我们确定满足目标验证集精度所需的数据量。我们使用PAS-CALVOC数据集[8，9]训练SSD 300 [22]进行2-D对象检测，其中我们确定满足目标平均精度（AP）所需的数据量。对于3-D对象检测，我们在nuScenes训练集的不同子集上训练FCOS3D网络架构[32]。我们根据nuScenes 3D检测评估方案报告了平均精度（mAP）[5]。在不同场景中随机获得样本。我们使用BDD 100K [34]探索语义分割，BDD100K是一个大规模的驾驶数据集，收集了超过50K个具有各种地理，环境和天气条件的驾驶。对于多视图鸟瞰在这里，我们报告平均交集-联合（IoU）。对于每个任务，我们都固定了模型的架构和学习算法，包括数据采样。详细内容见补充内容。对于每个数据集和任务，我们有一个初始数据集0e.G. n0=训练数据集的10%）。在我们的分析中，我们报告n0的相对大小0w.r.t.完整的训练数据集。我们首先根据算法1通过采样大小线性增长的r个子集（即，每个i=0（i+1）/r对于所有i0，. ......、 r1）。为了确保这个回归过程-因为价格便宜，我们用的是小的r10。然后对回归函数的外推性能进行评价和估计数据需求，我们抽样较大的子集12的增长规模（例如，10%，20%，30%，...，完整训练数据集的100%）。对于每个子集，我们训练我们的模型并评估分数Vf（i）。使用这些集合，我们构造分段线性得分函数v（n），我们用它作为基本事实我们进行两种类型的实验。在第一个初步分析中，我们从Ta拟合每个回归函数，表1使用，然后评估它们相对于对于所有i > 0预测Vf（i）的误差。该分析揭示了每个回归函数可以在多大程度计算模型在较大数据集上的得分。我们的第二个主要分析是对算法1中的数据收集问题进行模拟，其中我们使用n0=10%的完整训练数据集进行初始化（对于VOC，n0=20%），并估计需要多少数据才能获得不同的目标T=1、3、5轮内的V值在这里，我们重复Al的数据收集阶段中描述的相同步骤1，除了一个区别。在我们的模拟中，与其在每一轮中采样更多的数据并评估Vf（0），第11-13行），我们评估v（n0+nnn）以获得模型得分。该模拟近似于真正的数据收集问题，同时简化实验-279±D十五岁26± 1。 31. 0± 0。六点十一分53± 1。5个4. 97 ±1。6CIFAR 1050%176. 0± 0。5038± 0。三四。4± 0.5076 ±0。434 . CIFAR10010%38± 351133± 5。31725 ±21八点二十六。29 ±16829.第二十九章52± 3。九点四71± 2。01987± 2。五点四十33 ±1。5CIFAR10050%175. 49± 0。2069± 0。2542± 0。23. 65 ±0。323.第二十三章89± 7。四三。19± 2。1172± 3。2601±1。1ImageNet20%810. 12± 0。42. 38± 0。五点九46± 0。六七。61 ±1。0ImageNet50%5. 06± 0.10. 74± 0。2 3. 81± 0。21. 64 ±0。2VOC20%44. 66± 3。12 个。98± 1。63. 23± 2。13岁。28 ±1。8VOC30%63. 16± 1。62. 31± 1。2个2. 55± 1。32. 83 ±1。3VOC50%101. 15± 0。5079± 0。5. 1. 08± 0. 41. 13 ±0。5nuScenes10%26. 57± 0。五点十三分43± 0。3079± 0。24岁。53 ±0。4nuScenes20%42. 10± 2。11 号。65± 1。0个1. 73± 1。32. 32±1。6nuScenes50%60. 69± 0。2071± 0。10. 51± 0。2036± 0。2BDD 100K10%59. 85± 7。九点八12± 7。69. 18± 8。九五82± 2。3BDD 100K20%102. 98± 1。2076± 0。31. 60± 0。九点二76 ±1。2BDD 100K50%171. 30± 0。5095± 0。3082± 0。21. 10 ±0。5nuScenes10%52. 78± 0。0秒2. 30± 0。七点二03± 0.91.47± 0。6nuScenes20%100. 61± 0。23. 34± 0。6091± 0。七点二31 ±1。0nuScenes50%170. 38± 0。32. 40± 0。10. 28± 0。21. 77 ±1。7表3.当在数据的小子集上训练时，多个运行的平均标准差评估每个任务中外推性能的RMSE。我们报告n0的真实数据集的百分比。每个设置的最低误差用粗体表示。我们在补充内容中提供了回归图和替代误差指标给定50%的数据，每个函数的回归误差都很低，而对于10%的数据，所有函数的估计都有显著的误差。此外，在不同的n 0值和不同的任务上，替代函数通常优于幂律。因为我们不需要重复训练我们的模型。4.2. 分析回归分析表3总结了外推较大数据集的评分时每个回归函数的均方根误差（RMSE）在每个数据集和任务中，我们使用不同的随机种子执行三次运行，显示我们可以用小，中，大的数据子集进行外推在补充中，我们提供了回归-v（n）与v（n;v）的关系图和一个汇总回归误差以相对误差比表示。我们证实，3.2节中提到的前两个挑战适用于我们考虑的每一项任务。给定足够数量的初始数据0来拟合回归模型（即，当n0等于整个数据集大小的50%时），每个链路函数都实现了低RMSE（其范围是区间[0，100]）。此外，总是有至少一个回归函数，实现RMSE小于1。当n0等于完整数据集大小的10%时，大多数链接函数产生高RMSE，这表明当拟合在小数据集上时，函数容易偏离真实v（n）最后，对于大多数数据集，我们的替代回归函数始终产生较低的RMSE。特别是，Arctan函数对于所有分类数据集都是最好的，并且通常将幂律的RMSE减半。这些结果表明，从小数据集外推模型性能是困难的，但进一步地，其他回归函数而不是幂律可以获得更准确的分数回归。仿真当n0和T给定时，我们通过扫描一系列目标V，来图3显示了由每个功能收集的最终数据与根据地面实况得分所需的最小数据的比较，即，（ n0+n<$ ） /（n0+n<$）其中n<$是满足以下条件的最小值v（n0+nn）=V. n的值很容易找到，因为v（n）是分段线性单调递增函数。在评估每个回归函数如何收集数据时，需要考虑两种情况。如果比率小于1，则函数被描述为分数的乐观预测器，该预测器低估了需要多少数据。小于1的比率意味着使用此回归-的功能，我们将无法收集足够的数据，以满足V在T轮内，从而无法解决问题。对另一方面，如果比率大于1，则函数是过度估计将需要多少数据的悲观预测器。理想的数据收集策略将实现大于1的最小比率。我们的实验表明，在一般情况下，Arctan函数是最悲观的，往往实现了最大的比率由一个大的利润。我们首先验证了第3.2节中的第三个挑战，并指出低回归误差不一定会转化为更好的数据收集。在CIFAR100、ImageNet和VOC上，使用Arctan可能会收集到比实际需要多五倍的数据;在nuScenes上使用BEV分割，可能会收集到超过10倍的数据。回想一下图1，在ImageNet上，我们需要大约900，000张图像达到目标V=67%。使用Arc- tan时，初始化n0=10%的数据将导致收集约4。仅在第一轮就有500万张图像，而所有其他回归函数-分割分类检测数据集n0的R幂律Arctan对数代数根CIFAR10百分百分之二十51039岁02±20。37 .第一次会议。98±三十二28±131三十三岁。63±221280实例实现近似等于1的比率。虽然表3显示Arctan实现了最低的RMSE（3。19）回归中的所有函数，使用它来估计数据重新-281≥≥≥≥这些要求将导致不必要的昂贵数据收集程序。这表明，在确定良好的数据收集策略时，简单地分析回归误差是不够的，需要我们的模拟方法。对于大多数回归函数，收集足够的数据需要多轮。当T=1时，幂律、对数和代数根函数低估了除VOC之外的所有数据集和任务的数据需求然而，当T=5时，对于除了CI-FAR 10之外的每个数据集，所有函数的产出率都大于0。9以上V的整个范围。也就是说，我们可以通过任何函数始终访问至少90%最终，即使T=5，当V很大时，这些估计器仍然会低估需求（例如，在ImageNet上，幂律函数、对数函数和代数根函数的比值小于1（V=62%）。从操作的角度来看，虽然这些方法不会产生很大的成本，他们也无法解决问题。在下一节中，我们将展示一些简单的技术来纠正这些估计值，并更好地指导数据收集。消融术。在补充中，我们执行消融，评估CIFAR100不同模型深度和宽度的回归和模拟。我们还考虑了alter-nate 评分函数，例如收集足够的数据以满足使用nuScenes的特定类的目标性能最后，我们探讨了使用主动学习而不是CIFAR100随机抽样时的估计需求。我们的研究结果表明了相同的趋势，进一步支持了估计数据需求的挑战。图3.在n 0 = 10%的数据集（对于VOC，n 0 = 20%）初始化的模拟中，收集的数据量与不同目标VOC（x轴）所需的最小数据量（y轴）的比值。对于每个数据集，我们显示了T = 1，3，5最大回合的模拟。黑色虚线对应于收集达到V/V所需的最少量的数据。5. 更好地估计数据我们以前表明，一些乐观的估计无法收集足够的数据，以满足V的，而其他的乐观估计导致收集更多的数据比所需的。在这里，我们首先引入一个校正因子，这是一个偏差项，用于解决低估数据要求。然后，我们将展示如何分析本文中考虑的乐观和悲观回归函数，可以得到一组经常约束真实数据要求的估计值。5.1. 有助于实现目标从算法1开始，在每一轮数据收集中，我们最小化n，使v（n0+n;n）V. 理想情况下，我们希望最小化真实数据需求，即。求解满足v（n0+n0）=V0的nn∞. 然而，我们的模拟表明，大多数回归函数是可操作的，乐观和低估需要多少数据。实际上，纠正收集的数据少于满足V要求所需数据的简单方法是施加校正因子⌧ 0，而不是估计所需的数据，以满足“核心-”因此，我们固定一个常数并修改算法1，以便在每一轮中，我们现在最小化n，并满足v（n0+n;n）V+。为了确定这个修正系数有多大应该是，我们把它当作一个超参数来拟合。例如，假设我们有完整的CIFAR10数据集，并且我们希望为未来的数据集构建 T 我们首先用每个回归函数模拟CIFAR10的数据收集，其中，282表4.的最小半径数据集合n0T幂律Arctan对数代数根没有没有没有n0+nn0+n每次回归CIFAR 10010%10. 530911131.360681. 540 540 82CIFAR 10010%30.811091. 131.19091. 080 830. 94CIFAR 10010%50.91.031. 131.190941.11091101ImageNet10%10. 431. 161. 021.350471.280330 5ImageNet10%30.771. 101.031. 080831. 060851. 03ImageNet10%50.851. 071.031. 08091. 060 941. 03VOC20%11. 086.421245 051.117. 41. 十六岁03VOC20%31. 12个。751. 251. 641. 12个2.231111。54VOC20%51. 12个。031. 251. 641. 十三两231111。54nuScenes10%10. 562. 九点零分390.5108332.450612. 9nuScenes10%30. 941. 051. 0个1. 0个1. 0个1. 680。941. 07nuScenes10%51. 0个1. 091. 0个1. 0个1. 0个1. 681. 0个1. 07BDD 100K10%10. 492.450661. 790。525.20532. 17BDD 100K10%30. 861. 760。951.2091. 580921. 19BDD 100K10%50. 941.480961.20941. 580 941. 19nuScenes10%10. 5824. 580 九点四6306727.4608351. 12nuScenes10%30.91.4210个 1.250941.311. 0个 1.25nuScenes10%50. 941. 071. 0个1. 251. 0个1.311. 0个 1.25在估计数据需求时，不使用（基线）和使用数据库功能。最佳比例（即，大于1的最小值）以粗体显示。在使用对于一个给定的回归函数，从低于1到高于1的比率增加。幂律，对数，mic和代数根im-prove几乎每一个设置，以获得1以上的比率。此外，当T=5时，这些函数的性能达到最佳.图4.对于T=5，当使用具有使用CIFAR10拟合的校正因子的回归函数时，收集的数据量与满足不同目标V的最小数据量图3中的然后，我们增加k，直到该函数的整个比率曲线大于1。换句话说，我们求解最小的k，使得数据收集策略将收集刚好足够的数据以满足CIFAR10的所有目标值Vk（对于给定的固定T和函数）。然后我们用这个合适的作为未来数据集的校正因子。通过将校正因子与多轮数据收集相结合表4比较了每个数据集所有V最小值比率上每个回归函数使用V最小我们用线人-FAR10数据集，用于拟合T和回归的每个设置功能如果不进行校正，幂律、对数和代数根函数对于除VOC之外的每个数据集都实现小于1的通过使用SQL，这些函数几乎总是达到1到2之间的比率。此外，对于每个数据集，当T=5时，这三个回归函数达到各自的最低比值（大于1）。图4进一步绘制了T=5时每个数据集在所有V范围内使用λ的模拟图。这里，幂律、对数和代数根函数实现1之间的比率。03比2 对于每个数据集，所有V均为5此外，对于所有数据集，不存在一致的最佳回归函数比如说，代数根函数在VOC上占主导地位，但是当VCV大时，幂律对nuScenesBEV分割特别有效。但是，请记住，Arctan自然会高估数据需求，因此此函数-修正并没有什么好处我们的结论是，纠正任何三个乐观估计，幂律，对数，或代数根，并收集数据超过五轮是足够的，以近似最小化收集的总数据，同时仍然满足所需的目标。5.2. 数据要求如果修正因子拟合不好或轮数被限制得很小，我们可能仍然会低于-或者高估数据需求。从表4中可以看出，在T=1的nuScenes分割中，不使用幂律导致估计所需数据的58%，而使用幂律导致估计比所需数据多28倍的在某些应用中，建模者可能还希望对他们应该立即收集的数据量进行经验估计。我们现在考虑这样的问题，其中我们有一个T= 1的单轮剩余n0个数据点;在单轮或多轮的最后一轮中，我们必须满足数据收集目标。因此，在这里，我们试图获得最坏和最好的情况下估计（即。上限和下限）关于需要多少更多的数据所有不同的回归函数产生一个预测集合。然后，最大的预测是最坏情况估计，最小的预测是最好情况估计。对于每个数据集，我们设置T=1，并扫描n0和V0，以估计数据需求与8个回归函数。图5（顶行）显示了对于每个n0，分割分类检测tio283≥···DD图5. （T opr o w）F或T=1且n0变化时，由不同的上、下函数估计的最大和最小n值是真实n值的情况的频率。（下沿）由不同函数估计的最大和最小比值（n0+n）/（n0+n）。黑色虚线对应于比率1。其中最乐观和最悲观的回归函数约束真实数据的情况下，需求底行进一步示出了这些上限和下限的平均对于图像分类，我们的估计器在80%以上的时间内限制了真实的要求。这一趋势也适用于VOC，其中我们在80%的时间内限制了 n030% 的数据集的要求。由于BDD100K和nuScenes BEV分割是更具挑战性的数据集，因此我们约束数据要求的概率有时会降低。由于在nuScenes上训练3-D对象检测器在计算上比其他任务昂贵得多，因此我们省略了它们的图，仅报告n0=10%，20%，50%的值。在这里，估计量的范围限制了真实数据要求的88%，91%和83%的时间，比率在区间[0。56，31。1]、[0. 76，40。8]，[0. 56，26。（9）分别。尽管如此，结果表明，如果我们有一个大的初始数据集的单轮，我们将能够准确地估计数据需求的上限和下限此外，即使我们有多轮收集数据，在最后一轮，我们应该能够获得需求的上限和下限。在实际应用中，这些界限可以指导建模者做出乐观或悲观的选择，例如，如果训练和部署模型的真实世界截止日期是严格的。6. 讨论在这项工作中，我们提出了一个有效的解决方案，估计必须收集多少数据，以满足目标性能的问题。虽然预测模型性能的问题即使是预测性能的小误差也会在数据收集中产生大误差，这意味着一个好的数据估计器所允许的误差远小于直觉所暗示的误差。此外，错误分为低于或超过-估计，其中每一个都对数据收集提出了不同的挑战。为了更好地分析数据收集策略，我们制定了一个迭代的数据收集模拟。我们的实验得出了几个高层次的见解：不同的技术估计的数据要么比需要的多得多，要么比需要的少得多。使用多轮数据收集和低估的技术可能会导致收集到所需数据量的90%通过对以前的任务进行模拟，我们可以确定方法低估了数据需求，并学习校正因子来解决这一不足。使用校正因子和收集多达五轮允许我们收集最多一到两倍的最小数据量所需的任何期望的性能。由于只剩下一轮数据收集，我们可以使用所有不同的回归函数来获得一个通常限制真实数据要求的区间。这些边界可以指导建模者或多或少地根据实际需求收集数据。局限性。在这项工作中提出的数据收集问题和模拟近似真实的收集实践。我们的模拟依赖于预先构建的地面实况v（n），而不是采样点，训练模型，并计算Vf（）。后者在计算上过于超前，在这一系列探索的设置中，本文我们的模拟的质量取决于用于构造v（n）的子集的数量。更多的子集意味着v（n）更好地近似于Vf（），并从检查（见补充内容），我们所有v（n）似乎都是视觉平滑曲线。此外，在我们的数据收集问题中，我们假设模型f和采样策略p（z）是常数。在实践中，设计者可能会在两轮之间更新f;这可能会被合并到一个更复杂的深度学习工作流程的完整模型此外，可以使用辅助度量来优化p（z）。例如，如果分类器在给定轮中对于单个类特别差，则建模者可以寻求在下一轮中获得该特定类的更多样本。我们把这些更复杂的问题留给未来的研究。284引用[1] Samira Abnar，Mostafa Dehghani，Behnam Neyshabur，and Hanie Sedghi.探索大规模预培训的极限。在2022年学习代表国际会议上。2[2] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在 IEEE 计算机视觉和模式识别会议论文集（CVPR），2018年6月。1[3] Yasaman Bahri、Ethan Dyer、Jared Kaplan、Jaehoon Lee和Utkarsh Sharma。解释神经标度定律。arXiv预印本arXiv：2102.06701，2021。二、四[4] 德凡什·比斯拉，阿波娃·南迪尼·萨鲁娜，安娜·乔罗曼斯卡。一种估计动态网络样本复杂度的理论-经验方法在IEEE/CVF计算机视觉和模式识别会议论文集，第3270-3280页，2021年。一、二[5] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页，2020年。4[6] David A Cohn、Zoubin Ghahramani和Michael I Jordan。使用统计模型进行主动学习。 Journal of ArtificialIntelligence Research，4：129-145，1996. 2[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页Ieee，2009年。一、二、四[8] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，约翰温和安德鲁齐瑟曼。的Pascal视觉对象类先锋2007（VOC2007）结果http://www.pascal-network.org/challenges/VOC/voc2007/workshop/index.html啊4[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，约翰温和安德鲁齐瑟曼。的Pascal视觉对象类挑战2012（VOC2012）结果http://www.pascal-network

下载后可阅读完整内容，剩余1页未读，立即下载