Transformer预训练语言模型是一种深度学习技术在自然语言处理领域的广泛应用,它通过自注意力机制和编码器-解码器架构在机器翻译、文本摘要、文本生成等任务中取得了显著的进步。本项目围绕京东电商的营销文本生成,旨在通过多个步骤提升模型性能。
首先,项目分为三个主要部分:
1. 基准模型与优化:
- Assignment 1:构建Seq2seq+Attention模型作为基础模型,这个模型是Transformer架构的基本应用,用于生成式摘要,它通过编码器捕获输入序列的信息,然后解码器生成相应的输出序列。
- Assignment 2:引入Pointer-Generator Network (PGN),这是一种混合生成式和抽取式方法的模型,通过指针网络选择输入序列中的特定词语,同时保留生成能力,增强模型的灵活性和多样性。
- 优化技巧:
- Scheduled Sampling:一种用于训练生成模型的技术,通过逐步增加从模型生成的输出到下一个时间步的预测的比例,以缓解过度拟合和改善长期依赖性问题。
- Weight Tying:一种共享权重的策略,这里的三重权重共享(input embedding, decoder input embedding, 和 decoder output embedding)有助于减少模型参数,提高模型效率。
2. 数据增强技术:
- 单词替换:利用TF-IDF算法确定核心词汇并进行同义词替换,以生成多样化的训练样本,增强模型对不同表达方式的理解。
- 回译:通过翻译服务(如百度翻译API)将原始文本翻译成其他语言再翻译回源语言,以此增加数据的多样性,提升模型的泛化能力。
- Bootstrapping:一种半监督学习方法,利用已训练的模型生成新的输入样本,进一步扩充训练集。
3. 自动样本生成:
- semi-supervised learning:利用之前训练的PGN模型生成新样本,扩展训练数据,促进模型自我学习和适应能力。
在整个项目过程中,参与者需要实现一系列关键函数,如数据处理、模型结构设计(如Encoder、Decoder和PGN类)、以及与数据增强和优化相关的具体操作。这些任务旨在深化对Transformer模型的理解,同时也锻炼了开发者的编程和深度学习模型调整技能。通过完成这些任务,可以提升模型在营销文本生成任务上的性能,展示Transformer模型的强大潜力。