TensorFlowOnSpark在Apache Spark集群上扩展深度学习

需积分: 16 190 浏览量更新于2024-11-04 收藏 272KB ZIP 举报

资源摘要信息:"TensorFlowOnSpark是雅虎开源的一个项目，其目标是将TensorFlow深度学习框架与Apache Spark和Apache Hadoop集群结合起来，使得TensorFlow程序可以在这些集群上运行。TensorFlowOnSpark支持在GPU和CPU服务器集群上进行分布式深度学习，实现TensorFlow的训练和推理。它旨在减少现有TensorFlow程序在共享网格上运行所需的代码更改，通过提供Spark兼容的API来管理TensorFlow集群。具体来说，TensorFlowOnSpark通过启动TensorFlow主函数和侦听数据/控制消息的监听器来管理执行器，并通过TensorFlow的内置API直接从HDFS读取数据。" TensorFlowOnSpark的主要知识点可以详细说明如下： 1. TensorFlowOnSpark与TensorFlow和Spark的结合：TensorFlowOnSpark实现了TensorFlow与Spark的深度集成。TensorFlow是一款由Google开发的开源深度学习框架，主要面向大规模机器学习任务，具有强大的计算能力。Spark则是一个开源的大数据处理框架，能够提供高吞吐量的数据处理和强大的容错能力。TensorFlowOnSpark使得TensorFlow程序可以在Spark集群上运行，这为大数据背景下的深度学习任务提供了便利。 2. 分布式深度学习的支持：通过TensorFlowOnSpark，用户可以在GPU和CPU服务器集群上进行分布式深度学习。这意味着可以在多个计算节点上分散计算任务，极大地提高了数据处理的速度和效率，尤其适合处理大规模的数据集。 3. 对现有TensorFlow程序的兼容性：TensorFlowOnSpark的一个重要特性是，它支持在Spark集群上进行分布式TensorFlow训练和推理，同时尽可能减少对现有TensorFlow程序代码的改动。这意味着用户可以将他们现有的TensorFlow代码部署到Spark集群上，而不需要重写大量代码。 4. Spark兼容API的作用：TensorFlowOnSpark通过其提供的Spark兼容API简化了TensorFlow集群的管理。这些API涉及启动TensorFlow主函数，以及设置用于数据和控制消息通信的监听器。通过这种方式，用户可以在Spark集群上以一种非常集成和高效的方式运行TensorFlow程序。 5. 数据摄取的优化：TensorFlowOnSpark提供了直接从HDFS读取数据的能力，这是通过TensorFlow的内置API实现的。HDFS（Hadoop Distributed File System）是Hadoop的核心组件，它是一个高度容错的系统，用于在成本相对低廉的硬件上存储大数据。TensorFlowOnSpark利用HDFS的特性，使得数据摄取过程更加高效和稳定。 6. 适用场景：鉴于TensorFlowOnSpark的特性，它特别适合需要在大数据环境中部署深度学习模型的场景，如大规模图像识别、自然语言处理和复杂预测分析等。同时，由于它减少了代码改动的需求，因此对于已经熟悉TensorFlow的开发者来说，TensorFlowOnSpark是快速扩展到分布式计算的一个优选方案。以上就是关于TensorFlowOnSpark在将TensorFlow程序带到Apache Spark集群上，以及与TensorFlow和Spark结合方面的主要知识点。

收起资源包目录

TensorFlowOnSpark 将TensorFlow程序带到Apache Spark集群上-python （94个子文件）

start_spark.sh 495B

setup.cfg 3KB

test_TFNode.py 2KB

README.md 5KB

SimpleTypeParserTest.scala 439B

resnet_cifar_spark.py 1KB

TFParallel.py 2KB

README_orig.md 3KB

README.md 11KB

tensorflowonspark.TFParallel.rst 176B

bug_report.md 653B

util.py 3KB

TFManager.py 2KB

TFParams.scala 2KB

gpu_info.py 3KB

spark_ec2.py 60KB

TFCluster.py 17KB

tensorflowonspark.gpu_info.rst 173B

TFModel.scala 14KB

mnist_tf.py 4KB

tensorflowonspark.TFNode.rst 165B

stop_spark.sh 84B

TFModelTest.scala 5KB

SimpleTypeParser.scala 2KB

pipeline.py 25KB

Inference.scala 3KB

tensorflowonspark.rst 553B

Code-of-Conduct.md 7KB

README.md 8KB

resnet_cifar_dist.py 10KB

TestData.scala 2KB

tensorflow-hadoop-1.0-SNAPSHOT.jar 115KB

__init__.py 156B

test_TFParallel.py 2KB

DFUtil.scala 12KB

mnist_reshape.py 308B

mnist_spark.py 5KB

requirements.txt 62B

tensorflowonspark.reservation_client.rst 203B

TFNode.py 12KB

mnist_pipeline.py 6KB

segmentation_spark.py 7KB

marker.py 480B

Contributing.md 2KB

mnist_inference.py 3KB

test_TFSparkNode.py 8KB

test_TFCluster.py 5KB

mnist_spark_streaming.py 6KB

test_pipeline.py 7KB

ec2-variables.sh 1KB

tox.ini 3KB

tensorflowonspark.dfutil.rst 165B

ec2-cloud-config.txt 95B

dfutil.py 8KB

TFSparkNode.py 26KB

stop_streaming.py 547B

DFUtilTest.scala 5KB

index.rst 488B

.tidelift.yml 42B

LICENSE 9KB

tensorflowonspark.TFSparkNode.rst 180B

test_reservation.py 4KB

conf.py 5KB

mnist_inference.py 4KB

reservation.py 9KB

mnist_pipeline.py 8KB

segmentation.py 5KB

sd.allow 38B

install_spark.sh 444B

test.py 1KB

test_dfutil.py 2KB

resnet_cifar_main.py 10KB

mnist_tf_ds.py 6KB

tensorflowonspark.TFManager.rst 174B

mnist_tf.py 5KB

run_tests.sh 801B

segmentation_dist.py 5KB

tensorflowonspark.TFCluster.rst 174B

compat.py 1KB

pom.xml 7KB

setup.py 805B

mnist_data_setup.py 3KB

screwdriver.yaml 2KB

mnist_spark.py 6KB

README.md 2KB

tensorflowonspark.marker.rst 165B

spark-ec2 1KB

README.md 5KB

__init__.py 0B

tensorflowonspark.pipeline.rst 171B

tensorflowonspark.reservation.rst 180B

tensorflowonspark.util.rst 159B

.gitignore 175B

README.md 6KB

共 94 条

西西里上尉

粉丝: 26
资源: 4667

TensorFlowOnSpark在Apache Spark集群上扩展深度学习

TensorFlowOnSpark：TensorFlowOnSpark将TensorFlow程序引入Apache Spark集群

TensorFlowOnSpark将TensorFlow程序引入ApacheSpark集群_Python_Scala.zip

TensorFlowOnSpark将TensorFlow程序引入Apache Spark集群。-Python开发

Tensorflow On Spark

Data-Transformation-Apache-Spark-Cluster：数据管理仓库分析-Apache Spark集群设置和数据转换

tensorflowonspark_master

Frank-Kanes-Taming-Big-Data-with-Apache-Spark-and-Python:弗兰克·凯恩（Frank Kane）用Apache Spark和Python驯服大数据，由Packt发布

安卓毕业设计app项目源码6-ml-labs-spark-python:ml-labs-spark-python

tensorflow on spark安装的部分资源包

Python-SparkFlow在ApacheSpark上引入Tensorflow易于使用的库

最新资源