积分梯度算法识别训练数据中起重要贡献的证据和频次。基于统计的证据及
其频次分析偏置样本,在偏置样本的不均衡类别上重复采样,达到数据均衡的目
的。基于生成的均衡数据训练模型,即可提升模型效果。
研究目标:
在现有的预训练深度学习模型上,设计出一种通过提高数据质量进一步提升
模型精度。
专业理论意义及实际应用价值:
数据增强让有限的数据产生更有意义的数据,增加训练样本的数量以及多样
性(噪声数据),提升模型鲁棒性,一般用于训练集。神经网络需要大量的参数,
许许多多的神经网路的参数都是数以百万计,而使得这些参数可以正确工作则需
要大量的数据进行训练,但在很多实际的项目中,我们难以找到充足的数据来完
成任务。通过对训练数据分析以及缺陷识别,解决训练数据存在脏数据,覆盖不
足,分布偏置的问题 ,助力 NLP 开发者提升深度学习模型效果和可信度。在数
据量较少或某些类别样本量较少时,也可以通过数据增强策略的方式,生成更多
的训练数据,提升模型效果,提升模型系统的鲁棒性和可靠性,以应对更接近真
实生活的复杂环境,是目前学者研究的主要问题。希望能够通过该课题的研究,
探索出在提高数据质量进一步提升模型精度的办法,以促进该领域进一步向前发
展。