开放数据价值:TalkingData冯博分享数据科学合作平台实践与挑战

需积分: 1 0 下载量 130 浏览量 更新于2024-07-19 1 收藏 925KB PDF 举报
【T112017-教育生态与人才培养分会场】"OpenDataOpenValue - 数据科学合作研究平台的探索与实践"是由冯博·TalkingData在2017年9月14日进行的一次主题演讲。此次演讲聚焦于数据科学领域的合作研究平台,旨在解决数据科学研究中遇到的关键问题,并探讨如何通过SmartDataLab来推动教育生态和人才培养。 在演讲中,冯博首先提到了数据科学研究面临的主要挑战,如数据共享与数据安全之间的平衡,特别是数据租用模式下的问题,包括数据所有权、隐私保护和安全性。SmartDataLab通过设计数据整合隔离层,如HDFS、S3和本地数据库,提供了一种安全的数据共享方式,确保数据在隔离的状态下实现只读共享。 容器化作为一种技术趋势被讨论,虽然它有助于简化实验环境的管理,但同时也存在一些问题和容器平台化的必要性。SmartDataLab通过动态资源管理,包括集群、计算层和应用层的划分,实现了对计算资源的高效利用,如NativeCloud和PublicCloud的结合。 协作和交流是SmartDataLab平台的重要环节,它提供了教程、成果展示、代码分享、项目管理和竞赛系统,使得参与者能够方便地进行知识共享、项目协作和成果评判。例如,竞赛系统支持教师或管理者发布比赛,学生提交结果并接受评判,从而培养团队协作和竞争意识。 AutoModel是平台的一个关键功能,它通过自动化模型选择和优化,帮助用户快速找到算法内部最优解,并通过与sklearn、Weka等工具的集成,实现多种算法的比较和最佳模型的选择。其背后原理涉及高斯过程预测和复杂的算法评估机制,如Top5比较和重复运行以确保最佳结果。 SmartDataLab还与国内多家知名高校和大数据公司合作,举办夏令营等活动,汇集了大量数据分析师和数据科学家,服务于广泛的用户群体。该平台经历了两次版本迭代,第一版在6月31日发布,第二版则在10月下旬推出,显示出持续的发展和改进。 这次演讲深入探讨了如何通过SmartDataLab这样的数据科学合作研究平台,提升教育生态的效率,培养新一代的数据科学人才,并解决实际工作中遇到的技术挑战,推动数据科学领域的前沿研究和应用发展。