伪孪生BERT：解决'技术需求'与'技术成果'关联度计算难题

需积分: 0 100 浏览量更新于2024-08-05 收藏 828KB PDF 举报

本篇论文主要关注于2019年CCF BDCI（中国计算机学会大数据与人工智能创新竞赛）中的一项任务，即“技术需求”与“技术成果”项目之间的关联度计算。研究者马凯欣，作为东北林业大学计算机技术专业的一年级研究生，利用BERT（Bidirectional Encoder Representations from Transformers，双向Transformer预训练模型）进行模型设计。论文的核心内容是介绍了一种基于伪孪生网络结构的BERT微调模型。BERT在自然语言处理任务中表现出色，其预训练阶段通过添加特殊标记如[CLS]和[SEP]，并采用WordPiece方法进行分词处理，同时引入段落嵌入和位置嵌入，以捕捉文本的上下文信息。作者尝试使用这种模型来解决项目间的关联度计算问题，但是遇到了过拟合的问题。尽管进行了简单的数据清洗，仅使用替换方法，但增加数据增强策略并未带来理想的结果，可能是因为模型复杂性与有限的数据集之间存在冲突。作者试图通过一种偏好处理方法来减少预测误差，但论文中没有详述这种方法的具体实现细节。实验结果显示，伪孪生BERT在处理这项任务时相较于标准BERT微调模型表现更优，这表明引入伪孪生网络结构有助于提高模型的泛化能力和关联度计算的准确性。论文的关键点包括文本关联度的计算、伪孪生网络结构的设计以及BERT预训练的优势。然而，由于时间限制，关于数据增强的进一步探索并未深入展开。这篇论文提供了一个初步的尝试，为后续研究者在这个领域提供了可能的方向，即如何优化BERT模型以更好地适应特定任务，尤其是在处理自然语言推理和项目关联度分析这类任务时。

“技术需求”与“技术成果”项目之间关联度计算模型

∗

莽就完事了

马凯欣

计算机技术&2019 级

东北林业大学

中国-哈尔滨

1239977613@qq.com

团队简介

我们团队参加的是“技术需求”与“技术成果”项目之

间关联度计算模型赛题，团队的名字叫莽就完事了。团队中

只有我一个人，自然我也就是队长了。我的名字叫马凯欣，

来自东北林业大学，目前是计算机技术专业研究生一年级在

读，专业方向为自然语言处理。我以前没有参加过大数据与

人工智能的相关比赛，这次完全是头一次，CCF BDCI 的许

多赛题也让我挑不知道选哪个好。但要说竞赛经历，那我倒

是有些，本科的时候曾参加过 ACM-ICPC 竞赛，也取得过一

些奖项。

摘要

本篇论文介绍了采用伪孪生网络结构的 BERT 微调模型。

在数据清洗方面只使用了简单的替换。尝试了两种数据增广，

但均会造成过拟合现象，由于时间有限未进一步进行尝试。

在预测时使用了一种偏好处理使误差减小。经过实验对比，

伪孪生 BERT 用于“技术需求”与“技术成果”项目之间关

联度计算时效果优于 BERT 微调模型。

关键词

文本关联度，伪孪生网络结构，BERT 预训练

1 引言

BERT 是谷歌发布的基于双向 Transformer 的大规模预

训练语言模型，该预训练模型能高效抽取文本信息并应用于

各种 NLP 任务，与其他语言表示模型不同，BERT 旨在通过

联合调节所有层中的上下文来预先训练深度双向表示。因此，

预训练的 BERT 表示可以通过一个额外的输出层进行微调，

并适用于广泛任务的先进模型的构建，比如自然语言推理, 而

无需针对具体任务做大幅架构修改

[1]

。Matthew Peters 等人

对不同数据集进行微调实验，发现预训练的性能取决于预训

练与目标任务的相似度

[2]

。Ran Wang 等人的实验中在

BERT 上堆叠一定的神经网络可以取得比 BERT 更好的效果

[3]

。

此项任务作为自然语言推理的变形，BERT 可以很好的完成任

务，因此此次比赛的最终模型主体采用 BERT。

2 方法

首先简单描述一下 BERT 进行自然语言推断时的模型，

如图 1

[1]

。

图 1：BERT 进行自然语言推断时的模型

2.1 BERT

BERT 在预训练阶段输入是将句子加入[CLS]和[SEP]两个

特殊字符，采用 WordPiece 方法进行分割

[4]

，并加入段嵌入

与位置嵌入，每个序列的第一个标记始终是特殊分类嵌入

[CLS]，该特殊标记对应的最终输出被用作分类任务中该序列

的总表示。

下载后可阅读完整内容，剩余3页未读，立即下载

丛乐

粉丝: 38
资源: 312

伪孪生BERT：解决'技术需求'与'技术成果'关联度计算难题

基于CCF-BDCI-中文新闻数据的情感分析python源码+数据集.zip

【2019 CCF BDCI】-互联网新闻情感分析-我们都上哈工深-说明论文1

2019-CCF-BDCI-NLP:2019 CCF BDCI 技术需求与技术成果项目之间关联度计算模型第二名、2019 CCF BDCI 互联网金融新实体发现第四名、2019 CCF BDCI 金融信息负面及主体判定第五名

2019-CCF-BDCI-OCR-MCZJ-fake_data_generator:2019CCF-BDCI大赛OCR赛题第一名天晨破晓团队仿真数据生成方案

2019-CCF-BDCI-OCR-MCZJ-OCR-IdentificationIDElement:2019CCF-BDCI大赛最佳创新探索奖获得者基于OCR身份证要素提取赛题冠军天晨破晓团队赛题

2019-CCF-BDCI-OCR-MCZJ-OCR-IdentificationIDElement-master.zip

CCF-BDCI-Sentiment-Analysis-Baseline:CCF-BDCI-情感分析-基线的代码

2017-CCF-BDCI-Enterprise:2017-CCF-BDCI-企业经营退出风险预测：9th569 (Top 1.58%)

2017-CCF-BDCI-AI评委：2017-CCF-BDCI-让AI当法官（初赛）：7th415（Top 1.68％）

CCF-BDCI-2020-QA-matching-in-Real-Estate

最新资源