2017知乎看山杯:深度学习与文本分类模型融合策略

需积分: 0 0 下载量 15 浏览量 更新于2024-08-05 收藏 535KB PDF 举报
"2017知乎看山杯参赛方案-ye-61" 这篇文档是关于2017年知乎举办的一场名为“看山杯”的竞赛,参赛者黄永业及其团队运用深度学习技术来解决文本分类问题,即根据问题内容预测其对应的话题标签。他们的目标是构建一个模型,该模型能对未标注的数据自动进行标签标注。团队主要工作集中在数据预处理、特征提取、模型训练和模型融合四个阶段。 在数据预处理阶段,团队首先处理了数据集中的缺失值。训练集和测试集中存在部分问题缺失标题或描述,他们采用问题描述填充标题缺失,标题填充描述缺失的方法。对于训练集中无法填充的15个问题,直接予以剔除,保留了2999952个样本用于后续训练和验证。 接着是特征提取,团队利用了赛方提供的词向量和字向量作为特征,没有额外引入其他特征。词向量和字向量分别基于字符级别的256维embedding和词语级别的256维embedding,但低频词(字)由于出现次数少于5次被排除在词汇表之外。 模型训练阶段,他们构建了三种不同类型的模型:仅基于词向量的模型、仅基于字向量的模型以及同时使用词向量和字向量的模型。这三种模型分别针对不同输入数据进行训练,以覆盖不同特征的信息。 最后,为了优化模型性能,团队采用了模型融合策略。他们模拟了梯度下降法,对多个模型进行线性加权融合,通过线下验证集的F1值调整各模型的权重,从而获得最优的预测结果。在比赛中,他们的方案在Public排行榜上获得了0.43296的分数,排名第五;最终得分榜上得分0.43060,排名第六。 这个方案体现了深度学习在文本分类问题上的应用,包括数据预处理的技巧,特征的选择,以及模型融合策略,这些都是解决此类问题的关键步骤。此外,它还揭示了如何有效地利用预训练的embedding向量来提升模型的表现。