小样本学习的误区与真知:预训练模型与prompt方法的挑战

版权申诉
0 下载量 130 浏览量 更新于2024-08-04 收藏 2.35MB PDF 举报
小样本学习(Few-shot Learning)是一种机器学习方法,其核心思想是在训练数据量极其有限的情况下,让模型快速适应新的任务。传统的理解是,小样本学习通常涉及在一个大型训练集之外,仅提供极少数(例如几个或几十个)样本来训练模型,并在新的n-way k-shot任务中进行预测,这与现实世界中的数据稀缺情况相去甚远。 早期的小样本学习研究主要依赖于大规模的预先训练模型,如GPT3,通过少量的finetuning来适应新任务。这种方法利用了预训练模型的广泛知识和结构,通过设计特定的提示(prompt)来引导模型完成任务。例如,给GPT3一个固定的模板,如“Question: ... Answer: ...”,让模型自行填充答案部分。 然而,最近的研究指出,即使在基于prompt的方法取得显著进展的情况下,这并非真正意义上的小样本学习。论文《True Few-Shot Learning with Language Models》(http://arxiv-download.xixiaoyao.cn/pdf/2105.11447v1.pdf)提出,现有的任务设定存在局限,因为它允许研究人员使用庞大的验证集来优化prompt的选择和参数调整,这种做法脱离了实际小样本环境,因为真正的挑战应该是在训练集和验证集都非常有限的条件下进行。 作者们强调,为了实现真正的小样本学习,研究应该集中在更严格的任务设定上,即训练集和验证集都保持在很小规模。他们对挑选prompt和调整参数的效果进行了实验,结果显示,对于模型在小样本条件下的学习能力,我们的评估可能过于乐观。该论文的代码可在<https://github.com/ethanjperez/true_few_shot>获取。 这篇论文提出了一个名为True Few-Shot Learning的新框架,旨在更准确地模拟和推动小样本学习技术的发展,以便更好地应用于实际应用场景,如缺乏大量标注数据的自然语言理解和计算机视觉等领域。这对于推动AI技术的实用性和普适性具有重要意义。