2017知乎看山杯:深度学习与文本分类模型融合策略
需积分: 0 15 浏览量
更新于2024-08-05
收藏 535KB PDF 举报
"2017知乎看山杯参赛方案-ye-61"
这篇文档是关于2017年知乎举办的一场名为“看山杯”的竞赛,参赛者黄永业及其团队运用深度学习技术来解决文本分类问题,即根据问题内容预测其对应的话题标签。他们的目标是构建一个模型,该模型能对未标注的数据自动进行标签标注。团队主要工作集中在数据预处理、特征提取、模型训练和模型融合四个阶段。
在数据预处理阶段,团队首先处理了数据集中的缺失值。训练集和测试集中存在部分问题缺失标题或描述,他们采用问题描述填充标题缺失,标题填充描述缺失的方法。对于训练集中无法填充的15个问题,直接予以剔除,保留了2999952个样本用于后续训练和验证。
接着是特征提取,团队利用了赛方提供的词向量和字向量作为特征,没有额外引入其他特征。词向量和字向量分别基于字符级别的256维embedding和词语级别的256维embedding,但低频词(字)由于出现次数少于5次被排除在词汇表之外。
模型训练阶段,他们构建了三种不同类型的模型:仅基于词向量的模型、仅基于字向量的模型以及同时使用词向量和字向量的模型。这三种模型分别针对不同输入数据进行训练,以覆盖不同特征的信息。
最后,为了优化模型性能,团队采用了模型融合策略。他们模拟了梯度下降法,对多个模型进行线性加权融合,通过线下验证集的F1值调整各模型的权重,从而获得最优的预测结果。在比赛中,他们的方案在Public排行榜上获得了0.43296的分数,排名第五;最终得分榜上得分0.43060,排名第六。
这个方案体现了深度学习在文本分类问题上的应用,包括数据预处理的技巧,特征的选择,以及模型融合策略,这些都是解决此类问题的关键步骤。此外,它还揭示了如何有效地利用预训练的embedding向量来提升模型的表现。
2022-08-04 上传
2024-04-12 上传
381 浏览量
2024-01-15 上传
125 浏览量
152 浏览量
2024-01-14 上传