实战指南：Python、Spark与Hadoop在大数据和机器学习的应用

版权申诉

177 浏览量更新于2024-11-02 收藏 55.36MB ZIP 举报

资源摘要信息:"《Python+Spark 2.0+Hadoop机器学习与大数据实战》由林大贵著作，2018年由清华大学出版社出版，旨在介绍如何运用Python、Spark 2.0和Hadoop进行机器学习和大数据处理。书中内容分为两大部分，首先阐述大数据和机器学习的基础概念，接着通过具体案例演示技术应用。第一部分涵盖了大数据和机器学习的基础理论，包括但不限于分类、分析、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析以及数据可视化应用等。读者通过这些基础概念的了解，可以建立起对数据科学与机器学习之间联系的认识。第二部分是实战操作，作者详细地指导读者如何使用Python来开发基于Spark的机器学习和大数据应用。书中还介绍了如何安装配置Hadoop单机集群和多机集群，以及如何使用Hadoop HDFS命令进行文件系统的操作。这部分内容对于希望将理论知识转化为实践能力的读者尤为重要。书中新增的大数据技术内容，以及对机器学习章节的充实，强调了大数据与机器学习之间的关系，并提供了在不同环境下学习和实践的方法。《Python+Spark 2.0+Hadoop机器学习与大数据实战》不仅仅是一本讲述理论的书籍，它着重于应用，使得读者能够真正地将所学知识应用于实际工作之中。此外，书中的案例与上机实践环节设计得非常全面，不局限于单一平台，支持读者在不同的计算环境中实现学习与实践，这为读者提供了极大的灵活性和便利性。本书适合对大数据和机器学习领域感兴趣的读者，尤其是那些希望在数据分析和处理领域取得进步的专业人士或学生。通过学习这本书，读者将能够掌握使用Python和Spark 2.0框架来构建复杂的机器学习模型和大数据应用程序的技能。标签中提到的 'hadoop'、'python'、'spark'、'机器学习' 和 '大数据' 都是当前IT行业中的热点技术，它们在数据科学、人工智能、云计算等多个领域中扮演着核心角色。掌握这些技术对于从事相关行业的开发者来说是必要的，也是实现大数据分析和处理能力的关键。综上所述，该书为读者提供了一个全面、深入的机器学习与大数据实战学习平台，通过结合理论与实践，帮助读者在这一领域建立起扎实的知识体系和实际操作能力。"

收起资源包目录

实战指南：Python、Spark与Hadoop在大数据和机器学习的应用（62个子文件）

mku.sh 643B

train-100.tsv 274KB

u.data 1.89MB

u5.base 1.51MB

ua.test 182KB

u.occupation 193B

RunKmeansCluster.py 5KB

ml-100k.zip 4.7MB

MLPipelineBinaryClassifier_rebuild.py 19KB

u.info 36B

ml-latest-small.zip 955KB

README.md 4KB

ua.base 1.71MB

DataStatisticsVisualization.py 11KB

train.tsv 20.96MB

free-zipcode-database-Primary.csv 4.12MB

README.md 79B

MLPipelineMulticlassClassifier.py 10KB

ub.base 1.71MB

Python+Spark+Hadoop机器学习.vsdx 173KB

ub.test 182KB

hour.data 1.1MB

u3.base 1.51MB

RunDecisionTreeBinary.py 15KB

u2.base 1.51MB

.gitignore 81B

u.item 231KB

MLPipelineRegression.py 13KB

u4.test 388KB

Recommend.py 5KB

RunLogisticRegressionWithSGDBinary.py 16KB

u4.base 1.51MB

u1.test 383KB

MLPipelineBinaryClassifier.py 21KB

WordCount.java 2KB

u.user 22KB

Bike-Sharing-Dataset.zip 273KB

u3.test 387KB

RunDecisionTreeRegression.py 16KB

free-zipcode-database.csv 12.36MB

PythonSpark创建推荐引擎.txt 3KB

RunNaiveBayesBinary.py 15KB

test.tsv 8.99MB

u5.test 388KB

RunSVMWithSGDBinary.py 16KB

RecommendTrain.py 3KB

u2.test 386KB

covtype.data.gz 10.72MB

u1.base 1.51MB

Readme.txt 5KB

.gitignore 1KB

RunDecisionTreeMulti.py 15KB

day.csv 56KB

train.data 20.96MB

LICENSE 34KB

README 7KB

allbut.pl 716B

PythonSparkMLlib使用决策树二元分类训练模型判断网页属性.txt 8KB

hour.csv 1.1MB

WordCounts.py 3KB

u.genre 202B

共 62 条

生瓜蛋子

粉丝: 3927
资源: 7441

实战指南：Python、Spark与Hadoop在大数据和机器学习的应用

Python+Spark 2.0+Hadoop机器学习与大数据

《Python+Spark2.0+Hadoop机器学习与大数据实战》练习.zip

Python+Spark 2.0与Hadoop环境搭建：Scala SDK与PyDev插件安装指南

Python+Spark+Hadoop大数据基于用户画像电影推荐系统设计.zip

Python+Spark+Hadoop大数据基于用户画像电影推荐系统设计源码.zip

Python+Spark+Hadoop大数据基于用户画像电影推荐系统案例设计.zip

基于用户画像电影推荐系统设计（Python+Spark+Hadoop大数据）.zip

Python+Spark+Hadoop大数据基于用户画像电影推荐系统毕业源码案例设计.zip

Python+Spark+Hadoop大数据基于用户画像电影推荐系统毕业源码 - 副本.zip

Python与Spark 2.0在大数据中的机器学习应用

最新资源