博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
在阿里云Kubernetes容器服务上打造TensorFlow实验室
阅读量:6271 次
发布时间:2019-06-22

本文共 2579 字,大约阅读时间需要 8 分钟。

摘要: 利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的,同时也是浪费精力的。

简介

TensorFLow是深度学习和机器学习最流行的开源框架,它最初是由Google研究团队开发的并致力于解决深度神经网络的机器学习研究,从2015年开源到现在得到了广泛的应用。特别是Tensorboard这一利器,对于数据科学家有效的工作也是非常有效的利器。

Jupyter notebook是强大的数据分析工具,它能够帮助快速开发并且实现机器学习代码的共享,是数据科学团队用来做数据实验和组内合作的利器,也是机器学习初学者入门这一个领域的好起点。

利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的,同时也是浪费精力的。在阿里云的Kubernetes集群上,您可以通过简单的按钮提交创建一套完整的TensorFlow实验环境,包括Jupyter Notebook开发模型,利用Tensorboard调整模型。

图片描述

准备Kubernetes环境

阿里云容器服务Kubernetes 1.9.3目前已经上线,但是购买按量付费的GPU计算型服务器需要申请ECS工单开通。具体创建过程,可以参考创建Kubernetes集群。

体验通过应用目录部署TensorFlow实验室

通过Helm部署MPI的应用,本文以openmpi为例,向您展示如何快速在容器服务上运行MPI应用。实际上如果需要换成其他MPI实现只需要替换镜像即可。

2.1 可以通过应用目录,点击ack-tensorflow-dev

图片描述

2.2 点击参数, 就可以通过修改参数配置点击部署

图片描述

这里的密码是tensorflow, 您也可以改成您自己设定的密码

也可以登录到Kubernetes master运行以下命令

$ helm install --name tensorflow incubator/ack-tensorflow

2.3 运行结束后可以登录到控制台,查看tensorflow应用启动的状态

图片描述

登录使用TensorFlow实验环境

首先通过ssh登录Kubernetes集群,查看tensorflow应用列表

$ helm listNAME          REVISION    UPDATED                     STATUS      CHART                       NAMESPACEtensorflow    1           Thu Apr 12 07:54:59 2018    DEPLOYED    ack-tensorflow-dev-0.1.0    default
  1. 利用helm status检查应用配置

    $ helm status tensorflow

    LAST DEPLOYED: Thu Apr 12 07:54:59 2018
    NAMESPACE: default
    STATUS: DEPLOYED

    RESOURCES:

    ==> v1/Service
    NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
    tensorflow-ack-tensorflow-dev LoadBalancer 172.19.2.39 10.0.0.1 6006:32483/TCP,80:32431/TCP 13m

    ==> v1beta2/Deployment

    NAME DESIRED CURRENT UP-TO-DATE AVAILABLE AGE
    tensorflow-ack-tensorflow-dev 1 1 1 1 13m

    NOTES:

    1. Get the application URL by running these commands:

      NOTE: It may take a few minutes for the LoadBalancer IP to be available.

      You can watch the status of by running 'kubectl get svc -w tensorflow-ack-tensorflow-dev'

      export SERVICE_IP=$(kubectl get svc --namespace default tensorflow-ack-tensorflow-dev -o jsonpath='{.status.loadBalancer.ingress[0].ip}')

      echo http://$SERVICE_IP:

这里可以看到外部SLB的ip是10.0.0.1, Jupyter Notebook的端口为80, Tensorboard为6006。

  1. 通过Jupyter访问端点登录,本示例中Jupyter的访问地址是 输入前面设定的密码点击登录, 在本示例中我们设定的是tensorflow

图片描述

  1. 点击Terminal按钮

图片描述

  1. 在Terminal内执行nvidia-smi, 可以看到GPU的配置

图片描述

  1. 通过git命令下载tensorflow样例代码,

    $ git clone

图片描述

  1. 回到主页您就能看到Tensorflow-Examples已经下载到了您的工作目录

图片描述

  1. 进入到 运行程序

图片描述

注意:如果您需要用Tensorboard观测训练效果请将日志记录到/output/training_logs下。

  1. 以下为训练结果输出

图片描述

  1. 这时您可以登录Tensorboard查看训练效果, 本示例中Tensorboard的地址为:6006 。 这里您可以看到模型的定义和训练的收敛趋势。

图片描述

图片描述

总结

我们可以利用阿里云Kubernetes容器服务,轻松的搭建在云端搭建TensorFlow的环境,运行深度学习的实验室,并且利用TensorBoard追踪训练效果。欢迎大家使用阿里云上的GPU容器服务,在使用GPU高效计算的能力同时,比较简单和快速的开始模型开发工作。

转载地址:http://selpa.baihongyu.com/

你可能感兴趣的文章
vmstat详解
查看>>
新年第一镖
查看>>
unbtu使用笔记
查看>>
OEA 中 WPF 树型表格虚拟化设计方案
查看>>
Android程序开发初级教程(一) 开始 Hello Android
查看>>
使用Gradle打RPM包
查看>>
“我意识到”的意义
查看>>
淘宝天猫上新辅助工具-新品填表
查看>>
再学 GDI+[43]: 文本输出 - 获取已安装的字体列表
查看>>
nginx反向代理
查看>>
操作系统真实的虚拟内存是什么样的(一)
查看>>
hadoop、hbase、zookeeper集群搭建
查看>>
python中一切皆对象------类的基础(五)
查看>>
modprobe
查看>>
android中用ExpandableListView实现三级扩展列表
查看>>
%Error opening tftp://255.255.255.255/cisconet.cfg
查看>>
java读取excel、txt 文件内容,传到、显示到另一个页面的文本框里面。
查看>>
《从零开始学Swift》学习笔记(Day 51)——扩展构造函数
查看>>
python多线程队列安全
查看>>
[汇编语言学习笔记][第四章第一个程序的编写]
查看>>