GCP Vertex AI Workbench 与 Pipelines：ML 开发环境与 MLOps - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，各位技术大咖，以及各位和我一样正在通往技术大神路上的小伙伴们，大家好！我是你们的老朋友，人称“代码诗人”的AI君。今天，咱们要聊聊Google Cloud Platform (GCP) 上的两个重量级选手：Vertex AI Workbench和Vertex AI Pipelines。

别看它们名字有点长，听起来有点高大上，其实它们就是GCP为我们这些苦命的开发者们准备的“神器”，帮助我们更高效、更优雅地完成机器学习的开发和部署。简单来说，Workbench是我们的“工作室”， Pipelines是我们的“生产线”。

准备好了吗？系好安全带，咱们的“云端ML之旅”即将开始！🚀

第一站：Vertex AI Workbench——你的云端“私人定制”工作室

想象一下，你是一位艺术家，需要一个宽敞明亮、工具齐全的工作室来挥洒你的创意。Vertex AI Workbench就是这样一个工作室，只不过，你挥洒的不是颜料，而是代码；你创作的不是油画，而是模型。

1. Workbench是什么？

Vertex AI Workbench是一个完全托管的、基于Jupyter Notebook的开发环境。简单来说，它就是一个装满了各种工具的“云端笔记本”，可以让你在云端编写、运行和调试你的机器学习代码。

2. Workbench的“豪华配置”

预装常用工具： Workbench已经预装了常用的Python库，比如TensorFlow、PyTorch、Scikit-learn等等。你再也不用为安装环境而头疼，可以把更多精力放在模型本身。
强大的算力支持： Workbench可以连接到各种类型的计算资源，比如CPU、GPU、TPU。无论你的模型有多复杂，数据量有多大，都能找到合适的算力来支撑。
版本控制： Workbench集成了Git，可以方便地进行代码的版本控制。这样，即使你不小心改错了代码，也能轻松地回滚到之前的版本。
协作功能： Workbench支持多人协作，可以让你和你的团队成员一起开发模型。大家可以一起讨论、一起编写代码、一起调试模型，提高开发效率。
与GCP其他服务无缝集成： Workbench可以方便地访问GCP的其他服务，比如Cloud Storage、BigQuery等等。这样，你可以轻松地读取和写入数据，训练和部署模型。

3. Workbench的“私人定制”

Workbench提供了多种类型的实例，你可以根据自己的需求选择合适的实例。比如，你可以选择预装了TensorFlow的实例，也可以选择预装了PyTorch的实例。甚至，你还可以自己定制实例，安装你需要的Python库和工具。就像定制西装一样，Workbench可以满足你的个性化需求。

4. Workbench的“使用场景”

模型开发： Workbench是模型开发的理想环境。你可以在Workbench中编写代码、调试模型、可视化数据。
数据探索： Workbench可以让你轻松地探索数据。你可以使用Python库来分析数据、可视化数据、发现数据的规律。
原型验证： Workbench可以让你快速地验证你的想法。你可以在Workbench中快速地搭建一个原型系统，验证你的想法是否可行。
团队协作： Workbench是团队协作的理想平台。你可以和你的团队成员一起开发模型、一起调试模型、一起部署模型。

举个栗子🌰：

假设你想用TensorFlow来构建一个图像分类模型。你只需要创建一个预装了TensorFlow的Workbench实例，然后在Jupyter Notebook中编写代码即可。你可以使用Workbench提供的GPU资源来加速模型的训练。你可以使用Workbench提供的Git功能来进行代码的版本控制。你可以使用Workbench提供的协作功能来和你的团队成员一起开发模型。

第二站：Vertex AI Pipelines——你的自动化“模型生产线”

现在，你已经用Workbench构建了一个完美的模型。但是，你不想每次都手动地训练和部署模型。你希望有一个自动化的“模型生产线”，可以自动地完成模型的训练、评估和部署。 Vertex AI Pipelines就是这样一个“模型生产线”。

1. Pipelines是什么？

Vertex AI Pipelines是一个无服务器工作流编排服务，可以让你以编程方式定义和执行机器学习流程。简单来说，它就是一个“自动化流水线”，可以自动地完成模型的训练、评估和部署。

2. Pipelines的“核心概念”

Pipeline： Pipeline是一个由多个组件组成的有向无环图。每个组件代表一个独立的任务，比如数据预处理、模型训练、模型评估、模型部署等等。
Component： Component是Pipeline中的一个独立任务。 Component可以是Python函数、Docker镜像、Kubernetes Pod等等。
Artifact： Artifact是Component的输入和输出数据。 Artifact可以是数据文件、模型文件、评估报告等等。

3. Pipelines的“工作原理”

定义Pipeline： 你可以使用Kubeflow Pipelines SDK来定义Pipeline。你需要定义Pipeline的结构、Component的输入输出、Component的执行逻辑。
编译Pipeline： 你需要将Pipeline编译成一个YAML文件。这个YAML文件描述了Pipeline的结构和Component的执行逻辑。
运行Pipeline： 你可以使用Vertex AI Pipelines API来运行Pipeline。 Vertex AI Pipelines会自动地调度和执行Pipeline中的Component。
监控Pipeline： 你可以使用Vertex AI Pipelines UI来监控Pipeline的执行状态。你可以查看每个Component的执行日志、输入输出数据、执行时间等等。

4. Pipelines的“优势”

自动化： Pipelines可以自动地完成模型的训练、评估和部署。你再也不需要手动地执行这些任务。
可重复性： Pipelines可以保证每次运行的结果都是一致的。这样，你可以放心地将模型部署到生产环境。
可扩展性： Pipelines可以扩展到多个计算节点。这样，你可以处理大规模的数据和复杂的模型。
可追踪性： Pipelines可以追踪每个步骤的执行过程。这样，你可以轻松地找到问题并解决问题。
模块化： Pipelines可以将复杂的机器学习流程分解成多个独立的模块。这样，你可以更容易地维护和更新你的机器学习流程。

5. Pipelines的“使用场景”

自动化模型训练： Pipelines可以自动地训练模型。你只需要定义Pipeline的结构和Component的执行逻辑，Vertex AI Pipelines会自动地完成模型的训练。
自动化模型评估： Pipelines可以自动地评估模型。你可以使用Pipelines来评估模型的性能，并选择最佳的模型。
自动化模型部署： Pipelines可以自动地部署模型。你可以使用Pipelines将模型部署到生产环境，并提供在线预测服务。
持续集成和持续交付（CI/CD）： Pipelines可以用于实现机器学习的CI/CD。你可以使用Pipelines来自动化构建、测试和部署你的机器学习模型。

举个栗子🌰：

假设你想构建一个自动化的图像分类模型训练Pipeline。你可以定义一个Pipeline，包含以下几个Component：

数据预处理： 从Cloud Storage读取图像数据，进行数据清洗和预处理。
模型训练： 使用TensorFlow训练图像分类模型。
模型评估： 使用测试数据集评估模型的性能。
模型部署： 将训练好的模型部署到Vertex AI Prediction。

你可以使用Kubeflow Pipelines SDK来定义这个Pipeline，然后使用Vertex AI Pipelines API来运行这个Pipeline。 Vertex AI Pipelines会自动地调度和执行Pipeline中的Component，完成模型的训练、评估和部署。

第三站：Workbench + Pipelines——天作之合，珠联璧合

Workbench和Pipelines就像一对“神仙眷侣”，它们可以互相配合，发挥更大的威力。

在Workbench中开发Pipeline： 你可以在Workbench中编写Pipeline的代码，调试Pipeline的执行逻辑。 Workbench提供了强大的代码编辑和调试功能，可以让你更高效地开发Pipeline。
使用Pipelines自动化Workbench中的任务： 你可以使用Pipelines来自动化Workbench中的任务，比如数据预处理、模型训练、模型评估等等。这样，你可以将Workbench作为一个“数据科学实验室”，使用Pipelines来自动化实验流程。

用表格说话：Workbench vs Pipelines

特性	Vertex AI Workbench	Vertex AI Pipelines
定位	开发环境，数据科学家的“工作室”	工作流编排服务，自动化“生产线”
主要功能	代码编写、调试、数据探索、模型开发、团队协作	自动化模型训练、评估、部署、CI/CD
适用场景	模型开发初期，需要频繁交互、调试代码的场景	模型开发后期，需要自动化、可重复、可扩展的场景
优势	预装常用工具、强大的算力支持、版本控制、协作功能、与GCP其他服务无缝集成	自动化、可重复性、可扩展性、可追踪性、模块化
缺点	需要手动操作，不适合自动化、大规模的场景	学习曲线较陡峭，需要掌握Kubeflow Pipelines SDK
最佳实践	在Workbench中进行模型开发和原型验证，然后使用Pipelines自动化模型的训练、评估和部署	将复杂的机器学习流程分解成多个独立的模块，使用Pipelines将这些模块组合成一个完整的Pipeline
形象的比喻	画家的工作室，雕塑家的工坊，程序员的“代码乐园”	汽车生产线，食品加工厂，软件开发的“流水线”
常用表情符号	💻, 🧪, 📈, 📊	⚙️, 🚀, ⛓️, 🚦

总结：

Vertex AI Workbench和Vertex AI Pipelines是GCP为我们提供的两大利器。 Workbench让我们更高效地开发模型，Pipelines让我们更优雅地部署模型。它们就像一对“黄金搭档”，可以帮助我们构建更加强大、更加智能的机器学习应用。

希望今天的分享对大家有所帮助。如果你还有什么问题，欢迎在评论区留言。咱们下期再见！ 👋

发表回复 取消回复

发表回复取消回复