"第二届易观算法大赛——性别年龄预测思路简介"
这篇摘要主要介绍了两位参赛者,Fredflyfoxs和Fred,在2018年的第二届易观算法大赛中的性别年龄预测策略。他们各自采取了不同的方法,最终通过合作取得了优异的成绩。文章详细描述了他们特征工程和模型构建的过程。
首先,Flyfoxs主要侧重于特征优化,他运用了以下几种技术:
1. LDA(线性判别分析):借鉴neuronblack的方法,Flyfoxs不仅考虑了APP是否安装,还增加了APP的点击数和使用时长,扩展了LDA的应用。
2. Word2Vec:使用gensim库计算APP的向量,尝试与CNN和LSTM结合,虽然在这个任务中效果不佳,但在后续的APP分类中有良好表现。
3. KNN/KMeans:首先尝试用KMeans对APP进行无监督分类,发现对模型提升不大。随后改用KNN,利用word2vec计算距离,以补充APP分类信息的缺失。
4. TFIDF:在三个维度(APP,APP分类#1,APP分类#2)上计算TFIDF,考虑了APP打开次数和使用时间,但高维度特征可能需要进一步降维。
5. SVD:由于word2vec依赖于APP出现的上下文顺序,不适合当前场景,因此使用SVD对TFIDF特征进行降维。
然后,Fred的策略涉及多类型的神经网络和LightGBM的组合,具体细节未在摘要中详述。
在特征选择方面,Flyfoxs关注了以下几个关键特征:
1. 24小时分片统计APP:计算每个APP在一天24小时内使用的占比,分为点击次数和使用时间两个维度。
2. 按照星期统计APP:分析一周7天内APP的使用分布,包括工作日和周末的对比。
3. 删除低频APP:去除使用频率低的APP,以减少噪声并可能提高模型性能。
总结来看,这篇摘要展示了参赛者如何利用特征工程和不同机器学习技术解决性别年龄预测问题,尤其是在特征提取和降维上的创新尝试。这种思路对于理解如何在大数据竞赛中优化模型具有一定的参考价值。