深度解析Prompt-Tuning：微调新范式与应用探索

需积分: 5 184 浏览量更新于2024-06-19 1 收藏 17.21MB PDF 举报

在本文中，我们将深度探讨Prompt-Tuning，这是一种全新的微调范式，尤其在深度学习领域，如大型语言模型（LLM）、自动创意生成内容（AIGC）以及如何利用这些模型构建特定领域的应用。作者王嘉宁通过NewBeeNLP公众号分享了他对prompt的理解，强调了其在自然语言处理（NLP）中的重要性。首先，预训练语言模型（Pre-trained Language Models，PLMs）是通过大量未标注数据预先训练的基础模型，如BERT、GPT等，它们通过自监督学习任务（如Masked Language Modeling, NSP）来学习语言的普遍规律。Prompt作为一种指令或提示，引入是为了解决传统fine-tuning中过度拟合的问题，它能更高效地利用模型的泛化能力，避免重新训练整个模型。自2020年底以来，prompt技术经历了快速发展，包括离散和连续prompt的探索，以及针对超大规模模型的In-Context Learning（在上下文中学习）和Chain-Of-Thought（思维链）等创新方法。In-ContextLearning允许模型在不额外参数调整的情况下，仅通过示例或上下文理解新任务，而Chain-Of-Thought则鼓励模型展示思考过程，增强理解和生成能力。对于不同的NLP任务，prompt的设计至关重要。这涉及到任务类型、上下文适应性和表达清晰度。例如，在文本分类任务中，可能需要创建明确的类别指示；而在问答或生成任务中，可能需要构造能够引导模型回答的问题形式。在处理超大规模模型时，prompt-tuning展示了如何在保持模型参数有效性的前提下，进行有针对性的微调，以适应特定应用场景。这对于资源有限的情况尤其重要，因为它可以显著减少对新数据的需求。面对黑盒模型，prompt技术提供了一种理解和控制模型决策的方法，使用户能够通过巧妙设计的提示来引导模型的行为，提高透明度和可控性。ChatGPT中的prompt技术展示了这一理念的应用，通过精心设计的提示引导模型产生高质量的回答。文章最后展望了prompt技术的未来发展趋势，预训练语言模型将继续朝着对话式、生成式和多模态方向发展，强调与人类交互的自然性和安全性。同时，prompt-tuning作为核心技术，将在模型效率、性能优化和模型可解释性方面发挥关键作用。通过阅读这篇博客，读者将深入理解prompt的概念、其在不同场景下的应用策略，以及它如何推动了预训练语言模型的进化，从而为研究人员和实践者提供了宝贵的知识和洞见。

P r o m p t - Tun i n g

起

源

于

G P T- 3

的

提

出

《

L a n g u a g e M o d e l s a r e Fe w - S h o t

L e a r n e r s

》

（

N I P S 2 0 2 0

），

其

认

为

超

⼤

规

模

的

模

型

只

要

配

合

好

合

适

的

模

板

就

可

以

极

⼤

化

地

发

挥

其

推

理

和

理

解

能

⼒

。

其

开

创

性

提

出

i n - c o n t e x t l e a r n i n g

概

念

，

即

⽆

须

修

改

模

型

即可

实

现

f e w - s h o t / z e r o -

s h o t l e a r n i n g

。

同

时

引

⼊

了

d e m o n s t r a t e l e a r n i n g

，

即

让

模

型

知

道

与

标

签

相

似

的

语

义

描

述

，

提

升

推

理

能

⼒

。

I n - c o n t e x t L e a r n i n g

：

是

P r o m p t

的

前

身

。

其

通过

从

训

练

集

中

挑

选

⼀

些

样本

作为

任

务

的

提

示

提

示

（

N a t u ra l L a n g u a g e P r o m p t

），

来

实

现

免

参

数

更

新

的

模

型

预

测

；

D e m o n s t r a t i o n L e a r n i n g

：

添

加

⼀

些

新

的

⽂

本

作为

提

示

。

例

如

在

对

“ I l i k e t h e

D i s n e y f i l m . I t wa s [ M A S K ] ”

进

⾏

情感

分

析时

，

可

以

拼

接

⼀

些

相

似

场

景

的

g r o u n d - t r u t h

⽂

本

“ I l i k e t h e b o o k , i t wa s g r e a t .”

、

“ Th e m u s i c i s b o r i n g . I t

i s t e r r i b l e f o r m e .”

等

。

此

时

模

型在

根

据新

添

加

的

两个

样

例

句

⼦就

可

以

“

照

葫

芦

画

瓢

”

式

地

预

测

结

果

了

。

不

过

以

G P T- 3

为

⾸

的

这

类

⽅

法

有

⼀个

明显

的

缺

陷

是

— —

其

建

⽴

在

超

⼤

规

模

的

预

训

练

语

⾔

模

型

上

，

此

时

的

模

型

参

数数

量

通

常

超

过

1 0 0

亿

，

在

真

实

场

景

中

很

难

应

⽤

，

因

此

众

多

研

究

者

开

始

探

索

G P T- 3

的

这

套

思

路

在

⼩

规

模

的

语⾔

模

型

（

B E RT

）上

还

是

否

适

⽤

？

事

实

上，

这

套

⽅

法

在

⼩

规

模

的

语⾔

模

型

上

是

可

⾏

的

，

但

是

需

要

注

意

⼏

点

：

模

型

参

数

规

模

⼩

了

，

P r o m p t

直

接

⽤

在

Z e r o - s h o t

上

效

果

会

下

降

，

因

此

需

要

考

虑

将

i n - c o n t e x t l e a r n i n g

和

d e m o n s t r a t e l e a r n i n g

应

⽤

在

Fi n e - t u n i n g

阶

段

；

G P T- 3

中

提

供

的

提

示

（

N a t u ra l L a n g u a g e P r o m p t

）

过

于

简

单

，

并

不

难

使

⽤

在

⼀

些

具

体

的

任

务

场

景

，

因

此

需

要

单

独

设计

⼀

套

组

件

实

现

。

因

此

，

⼤

名

鼎鼎

的

P E T

模

型

问

世，

P E T

（

Pa t t e r n - E x p l o i t i n g Tr a i n i n g

）

出

⾃

《

E x p l o i t i n g C l o z e Q u e s t i o n s f o r Few S h o t Te x t C l a s s i f i c a t i o n a n d N a t u r a l

L a n g u a g e I n f e r e n c e

》

（

E AC L 2 0 2 1

），

根

据

论

⽂

题

⽬

则

可

以

猜

出

，

P r o m p t -

Tu n i n g

启发

于

⽂

本

分

类

任

务

，

并

且

试

图

将

所

有

的

分

类

任

务

转

换

为

与

M L M

⼀

致

的

完

形

填

空

。

P E T

详

细

地

设计

了

P r o m p t - Tun i n g

的

重

要

组

件

— — Pa t t e r n - Ver b a l i z e r-Pa i r

（

P V P

），

并

描

述

了

P r o m p t - t u n i n g

如

何

实

现

Few - s h o t / Z e r o - s h o t L e a r n i n g

，

如

何

应

⽤

在

全

监

督

和半

监督

场

景

（

i P E T

）

。

P E T

的

详

细

讲解

可参

考

P E T

的

论

⽂

解读

P E T

设计

了

两个

很

重

要

的

组

件

：

Pa t t e r n

（

Te m p l a t e

）

：

记

作

，

即

上

⽂提

到

的

Te m p l a t e

，

其

为

额

外

添

加

的

带

有

[ m a s k ]

标

记

的短

⽂

本

，

通

常

⼀个

样本

只

有

⼀个

Pa t t e r n

（

因

为

我

们

希

望

只

有

个

让

模

型

预

测

的

[ m a s k ]

标

记

）

。

上

⽂

也

提

到

，不

同

的

任

务

、

不

同

的

样本

可

能

会

有

其

更

[ 3 ]

[ 4 ]

[ 5 ]

加

合

适

的

p a t t e r n

，

因

此

如

何

构

建

合

适

的

p a t t e r n

是

P r o m p t - Tun i n g

的研

究

点

之

⼀

；

Ve r b a l i z e r

：

记

作

，

即

标

签

词

的

映

射

，

对

于

具

体

的

分

类

任

务

，

需

要

选

择指

定

的

标

签

词

（

l a b e l wo r d

）

。

例

如

情感

分

析

中

，

我

们

期望

Ve r b a l i z e r

可

能

是

，

（

p o s i t ive

和

n e g a t ive

是

类

标

签

）

。

同

样

，不

同

的

任

务

有

其

相

应

的

l a b e l wo r d

，

但

需

要

注

意

的

是

，

Ve r b a l i z e r

的

构

建

需

要

取

决

于

对

应

的

Pa t t e r n

。

因

此

如

何

构

建

Ve r b a l i z e r

是

另

⼀个

研

究

挑

战

。

上

述

两个

组

件

被

称

为

Pa t t e r n - Ver b a l i z e r-Pa i r

（

P V P

），⼀

般

记

作

，

在

后

续

的

⼤

多

数

研

究

中

均

采

⽤

这

种

P V P

组

件

。

因

此

基

于

P V P

的

训

练

⽬

标

可

以

形式

化

描

述

：

给

定

⼀个

句

⼦

，

以

及

对

应

的

标

签

，

给

定定

义

的

P V P

组

件

，

则

有

：

那

么会

有

读

者

⼀

直

会

思

考

，⼀

般

情

况

下，⼀个

句

⼦

只

能

有

⼀个

P V P

（

因

为

我

们

只

需

要

⼀

个

[ m a s k ]

⽤

来

预

测

），

这

可

能

并

不

是最

优

的

，

是

否可

以为

⼀个

句

⼦

设计

多

个不

同

的

P V P

呢

？

这

是

可

以

的

，

这

属

于

P r o m p t - Tun i n g

的

集

成

。

P E T

提

供了

简

单

的

集

成

思

路

：

Pa t t e r n s E n s e m b l i n g

：

同

⼀个

句

⼦

设计

多

个不

同

的

p a t t e r n

，

例

如

I t w a s [ m a

s k ] .

，

I t h i n k i t i s [ m a s k ] .

，

T h i s c o m m e n t d e n o t e s a s [ m a s

k ] .

等

，

此

时

，

原

先

只

有

⼀个

句

⼦

，

却可

以

⽣

成

多

个不

同

的

样本

，

也

变

相

起

到

数

据

增

强

的

作

⽤

。

在

训

练

时

，

可

以

当

作

单

独

的

样本

进

⾏训

练

，

推

理

时

，

则

可

以

对

所

有

Pa t t e r n

的

结

果

进

⾏

投

票

或

加

权

。

如

下

图

所

示

：

Ve r b a l i z e r s E n s e m b l i n g

：

同

样

，

在

给

定

的

某

个

Pa t t e r n

下，

并

⾮

只

有

个

词

可

以

作为

l a b e l wo r d

。

例

如

p o s i t ive

类

，

则

可

以

选

择

“ g r e a t ”

、

“ n i c e ”

、

“ w o n d e r f u l ”

。

当

模

型

预

测

出

这

三个

词

时

，

均

可

以

判

定

为

p o s i t ive

类

。

在

训

练

和

推

理

时

，

可

以

对

所

有

l a b e l wo r d

的

预

测

概

率

进

⾏

加

权

或投

票

处

理

，

并

最

后

获

得

概

率

最

⼤

的

类

。

如

下

图

所

示

：

剩余67页未读，继续阅读

will4025

粉丝: 0
资源: 5

深度解析Prompt-Tuning：微调新范式与应用探索

大模型prompt-tuning方法

大模型promt-Tuning

大模型指令微调概述，大模型微调简单介绍ppt

"大模型微调概述及其在NLP任务中的四个阶段发展

声明式提示调优：提升视觉问答性能的新方法

迁移学习在自然语言处理中的高级技术：5个最新进展解析

knn prompt

Prompt技术如何在NLP中实现对超大规模预训练语言模型的参数有效训练和应用适应性优化？

在NLP任务中，Prompt技术如何帮助改善超大规模预训练语言模型的参数有效训练和应用适应性？

针对超大规模预训练语言模型，如何运用Prompt技术来提升其参数有效训练，并适应多样化NLP应用场景？

最新资源