初步理解 NVIDIA AI Enterprise

剛開始看到這個概念對我來說蠻抽象,不曉得到底涵蓋以及處理哪些部分,使用了生成式AI也無法解決我的困惑。

https://chatgpt.com/share/680f3652-a80c-8009-b30d-17df27dbfe67

NVIDIA AI Enterprise is a software platform designed to help businesses easily build, deploy, and manage AI workloads on NVIDIA hardware, either on-premises (your own servers) or in the cloud.

以後見之明來看,上述這段描述沒有問題,但沒有實際跑過一次相關的流程,腦袋還是一頭霧水。有一個最關鍵的問題剛開始很難想通:

NVIDIA AI Enterprise到底想賣什麼?

稍微嘗試過以及搭配這一篇Quick Start Guide,目前的理解NVAIE主要涵蓋以及處理的部分如下:

  • Infrastructure management and orchestration software
    • 這邊所描述,如:GPU Operator, vGPU…等
  • Tools for AI development and use cases
    • NGC平台上針對NVIDIA GPU調教過的container image
    • NGC平台上的模型(給NIM使用)
  • Support service

部屬方式

非常多樣性,本質上需要搭建可以跑container的環境。有Quick Start Guide上提的bare-metal, single-node deployment of NVIDIA AI Enterprise using Docker

也有搭建在Openshift上,底層架構可以有6種類型的方式,仔細想想本質上就是就是bare-metal, private cloud by virtual machine(VMware, KVM), public cloud

Figure 2.1. NVIDIA GPU enablement

GPU Operator

在Kubernetes和Openshift會出現的概念,實際上負責處理兩個關鍵部分: NVIDIA DriverNVIDIA Container Toolkit

The NVIDIA Container Toolkit allows users to build and run GPU-accelerated Docker containers.