首届全国大学生大数据技能竞赛实操指南

需积分: 50 24 下载量 35 浏览量 更新于2024-07-18 4 收藏 12.08MB PDF 举报
【大赛背景】 随着信息技术的飞速发展,特别是信息互联网的兴起,大数据已成为推动科技进步和社会经济发展的重要驱动力。首届全国大学生大数据技能竞赛正是在这种背景下举办的,旨在通过竞赛的形式激发大学生对大数据技术的兴趣和实践能力,促使高等院校调整优化计算机科学与技术、信息管理与信息系统、统计学、经济、金融、数学等相关专业的教学策略,探索创新的教学模式。竞赛旨在深化课程体系改革,提升教学质量,以及丰富教学资源,从而加速我国大数据专业教育向更高层次迈进,培养符合时代需求的高素质大数据人才。 【竞赛目的】 竞赛的主要目的是: 1. 培养学生的实际操作能力和团队协作精神,让他们在理论学习的基础上,通过实践提升大数据处理和分析的能力。 2. 推动高校与企业之间的合作,将最新的大数据技术融入教学,提高学生解决实际问题的能力。 3. 通过比赛,检验和提高参赛者的算法设计、数据挖掘、数据可视化和大数据平台管理等核心技能。 4. 选拔并激励优秀人才,为我国大数据行业的未来发展储备人才库。 【赛程安排】 竞赛于2018年在北京红亚华宇科技有限公司的支持下举行,包括比赛时间、地点以及奖项设置。竞赛分为多个阶段,如赛前培训、实战演练和最终展示,每个阶段都有明确的规则和评分标准。 【红亚大数据赛前实训平台】 培训手册详细介绍了红亚大数据赛前实训平台,该平台是参赛者进行预赛和决赛的重要工具。平台提供登录入口、丰富的实验环境、算法集、数据集、职业和个人成长路径,以及学习进度管理和教学管理中心等功能,帮助参赛者熟悉和掌握大数据技术的基础和应用。 【竞赛规则及评分标准】 竞赛规则涉及裁判组、监督组和仲裁组的角色划分,确保比赛公正公平。比赛秩序强调了参赛者需遵守的比赛规则和行为准则。评分标准则围绕大数据项目的完成度、算法应用、数据处理效果、代码质量和团队协作等方面进行评估,以确定最终的成绩和排名。 【培训教案与技术指导】 培训教案详细指导了参赛者如何在红亚科技的大数据平台上搭建和配置大数据集群,包括基本环境的设置、Zookeeper、Hadoop、HBase等组件的安装,以及数据仓库的构建。具体步骤包括安装过程、配置参数、数据采集和分析任务的实施。这些内容确保参赛者能够掌握必要的技术基础,为竞赛做好充分准备。 总结来说,首届全国大学生大数据技能竞赛不仅是一场技术较量,更是教学改革与产业界对接的桥梁。通过比赛,参赛者能够深入理解大数据技术的应用场景,提升实际操作能力,同时,也为我国大数据领域的人才培养和发展注入了新的活力。
2016-01-05 上传
AliDMCompetition 阿里巴巴大数据竞赛(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。 预测结果 真实购买记录一共有3526条 TODO 注意调整正负样本比例 在LR的基础上做RawLR。按照天猫内部的思路来。 在LR的基础上做MRLR,样本提取要更加合理。 在UserCF和ItemCF上加上时间因子的影响。 利用UserCF做好的用户聚类、ItemCF做好的品牌聚类来做细化的LR,或者在聚类 上做LFM 在ItemCF的思路上挖掘频繁项集/购买模式,如购买品牌A和商品后往往会购买 品牌B的商品 LFM 数据集特征 某一商品在购买前的一段时间内会出现大量点击次数,购买完成后的一段时间内也会出现大量点击次数 用户在本月有过行为的商品极少出现在下个月的购买列表里 根据观察推断:用户浏览商品的行为可分为两类: 无目的浏览,可能会在浏览过程中对某些中意的商品进行购买,数据表现为有大量点击次数<=2的行为记录,但很少有购买行为 有目的的查找商品,可能是事先有需求的情况,数据表现为一段时间内点击商品数很少, 但点击过的商品大多数都进行了购买 参考论文 See https://www.google.com.hk/search?q=data+mining+time+series&ie=utf-8&oe=utf-8&aq=t for more. Chapter 1 MINING TIME SERIES DATA - ResearchGate 模型列表 LR(model=LinearSVC(C=10, loss='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1438 1436 626 71 12 | % 100% 99.861% 43.533% 4.937% 0.834% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 76 Precision 5.285118% Recall 5.797101% F1 Score 5.529283% LR(model=LogisticRegression(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1472 1470 615 68 14 | % 100% 99.864% 41.780% 4.620% 0.951% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 74 Precision 5.027174% Recall 5.644546% F1 Score 5.318002% 这个模型在数据变成2次后,Precision ~ 16%,同时F1 ~ 3% LR(model=Perceptron(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 3145 3140 1023 130 26 | % 100% 99.841% 32.528% 4.134% 0.827% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 113 Precis