趣味数据挖掘:从‘被打’到‘北大’的关联探索

4星 · 超过85%的资源 需积分: 10 5 下载量 160 浏览量 更新于2024-07-21 收藏 1.53MB PDF 举报
"趣味数据挖掘系列——唐常杰的讲解,涵盖了数据挖掘的各种概念,通过生动的例子,如‘被打’和‘北大’的关联、烤鸭的朴素关联等,深入浅出地介绍了数据挖掘中的关联规则、分类、聚类以及算法应用。文章中还涉及到了支持度、置信度和兴趣度的计算,并对特定事件进行了定量分析。" 在这个系列中,唐常杰以独特的趣味方式阐述了数据挖掘的核心概念。"被打"和"北大"的关联作为一个例子,用来解释关联规则中的支持度和支持度的概念。支持度表示某个事件发生的频率,而置信度则衡量两个事件之间的相关性。在这个案例中,他探讨了"被打"是否与进入"北大"之间存在统计上的关联,并通过估算给出了支持度和置信度的上限。 接着,唐常杰用烤鸭、面饼和甜面酱的朴素关联来展示数据挖掘中的朴素贝叶斯分类方法,说明如何通过物品之间的共现情况来预测购买行为。在"一篇'它引'上万的大牛论文与数据血统论"中,他讨论了数据的来源和追踪,强调了数据质量和数据血统的重要性。 "听妈妈讲过去的故事,分房与分类"一文中,唐常杰利用分类算法来解决实际问题,如根据个人特征分配住宿。他借助《水浒传》中的故事,解释了决策树的工作原理,使得复杂的算法变得易于理解。此外,他还通过"团拜会与鸡尾酒会上的聚类"介绍了聚类算法,如K-平均聚类,以及在社交场景中的应用。 "农村中学并迁选址、K-平均聚类及蛋鸡悖论"进一步深化了聚类算法的应用,揭示了数据分析在决策支持中的价值。在"灯谜、外星殖民、愚公移山和进化计算"中,他引入了进化计算的概念,用以解决复杂优化问题。 "达尔文、孟德尔与老愚公的会盟:基因表达式编程"结合生物学和计算机科学,介绍了基因表达式编程这一算法,展示了跨学科知识的融合。最后,在"十大算法展辉煌历史,十大问题引锦绣前程"中,唐常杰回顾了数据挖掘领域的重要算法,以及这些算法如何应对现实世界的挑战。 唐常杰的趣味数据挖掘系列以生动的案例和故事,全面而直观地介绍了数据挖掘的关键技术和应用,对于初学者和专业人士来说,都是极具启发性和教育意义的读物。通过这个系列,读者不仅能学习到数据挖掘的基本概念,还能感受到数据科学的魅力和实用性。