VNDS-3141】缇庝汉濡汇伄婵€銇椼亸鑵版尟銈嬮◣涔椾綅,gt,汇伄,汉濡,缇庝,VNDS-3141" />
Kubernetes 的枢纽特点若何当然地知足 AI 推理的需求【WNXG-051】杩戣Κ鐩稿Е 缇╂瘝銈掗厰銈忋仜銇︾鏂氦灏?鏅傞枔DX15鍚嶅弾閷?/a>2015-09-30STAR PARADISE&$VOLU481鍒嗛挓VNDS-3141】缇庝汉濡汇伄婵€銇椼亸鑵版尟銈嬮◣涔椾綅,以及它们若何使推理责任负载受益。
译自5 Reasons To Use Kubernetes for AI Inference,作家 Zulyar Ilakhunov。
Kubernetes的很多枢纽特点当然适当 AI 推理的需求,无论是 AI 驱动的微作事仍是 ML 模子,真实像黑白凡为这个主见而联想的。让咱们来望望这些特点以及它们若何使推理责任负载受益。
1. 可彭胀性
AI 驱动的应用顺次和 ML 模子的可彭胀性确保它们大略不休所需的负载,举例并发用户恳求的数目。Kubernetes 有三种原生自动彭胀机制,每种机制齐对可彭胀性有意:水平 Pod 自动彭胀器 (HPA)、垂直 Pod 自动彭胀器 (VPA) 和集群自动彭胀器 (CA)。
水平 Pod Autoscaler凭证各式打算(举例 CPU、GPU 和内存应用率)彭胀启动应用顺次或 ML 模子的 Pod 数目。当需求增多时,举例用户恳求激增,HPA 会朝上彭胀资源。当负载减少时,HPA 会向下彭胀资源。垂直 Pod Autoscaler凭证 Pod 的本体使用情况疗养 Pod 中容器的 CPU、GPU 和内存需乞降截至。通过改动 Pod 轨范中的limits,您不错限度 Pod 不错接纳的特定资源量。它对于最大化节点上每个可用资源的应用率很灵验。集群 Autoscaler疗养扫数这个词集群中可用的臆测资源池,以知足责任负载需求。它凭证 Pod 的资源需求动态地向集群添加或删除责任节点。这即是为什么 CA 对推理具有普遍用户群的大型 ML 模子至关热切。
以下是 K8s 可彭胀性对 AI 推理的主要益处:
通过凭证需要自动朝上和向下彭胀 Pod 副本数目,确保 AI 责任负载的高可用性通过凭证需要自动疗养集群大小来相沿家具增长凭证应用顺次的本体需求优化资源应用率,从而确保您只为 Pod 使用的资源付费
2. 资源优化
通过澈底优化推理责任负载的资源应用率,您不错为它们提供符合数目的资源。这不错为您检朴资金,这在租用频繁腾贵的 GPU 时尤其热切。允许您优化推理责任负载的资源使用的枢纽 Kubernetes 特点是高效的资源分派、对limits和requests的肃肃限度以及自动彭胀。
高效的资源分派: 您不错通过在 Pod 清单中指定来为 Pod 分派特定数目的 GPU、CPU 和 RAM。然而,当今唯有 NVIDIA 加快器相沿 GPU 的时候切片和多实例分区。若是您使用 Intel 或 AMD 加快器,Pod 只可恳求扫数这个词 GPU。对资源“limits”和“requests”的肃肃限度:requests界说容器所需的最小资源,而limits不容容器使用首先指定资源的资源。这提供了对臆测资源的细粒度限度。自动彭胀: HPA、VPA 和 CA 不错看重花消闲置资源。若是您正确设立这些功能,您将不会有任何闲置资源。
借助这些 Kubernetes 功能,您的责任负载将赢得所需的臆测能力,不丰不杀。由于在云中租用中档 GPU 的老本可能在每小时 1 好意思元到 2 好意思元之间,因此从永久来看,您不错检朴无数资金。
3. 性能优化
固然 AI 推理频繁比锤真金不怕火资源密集度低,但它仍然需要 GPU 和其他臆测资源才能高效启动。HPA、VPA 和 CA 是 Kubernetes 大略提升推感性能的枢纽孝敬者。它们确保即使负载发生变化,也能为 AI 驱动的应用顺次分派最好资源。然而,偷拍自拍您不错使用其他用具来匡助您限度和瞻望 AI 责任负载的性能,举例StormForge或Magalix Agent。
总的来说,Kubernetes 的弹性和微调资源使用能力使您大略为 AI 应用顺次扫尾最好性能,无论其大小和负载若何。
4. 可移植性
U系大作战2对于 AI 责任负载(举例 ML 模子)来说,可移植性至关热切。这使您大略在不同环境中一致地启动它们,而无需驰念基础设施互异,从而检朴时候和资金。Kubernetes 主要通过两个内置功能扫尾可移植性:容器化和与任何环境的兼容性。
容器化: Kubernetes 使用容器化技艺(如 containerd 和 Docker)将 ML 模子和 AI 驱动的应用顺次与其依赖项一说念打包到可移植容器中。然后,您不错在职何集群、任何环境中以至使用其他容器编排用具使用这些容器。相沿多云和羼杂环境: Kubernetes 集群不错漫衍在多个环境中,包括公有云、独有云和腹地基础设施。这为您提供了无邪性并减少了供应商锁定。
以下是 K8s 可移植性的主要上风:
在不同环境中一致的 ML 模子部署更松驰地移动和更新 AI 责任负载弃取云提供商或腹地基础设施的无邪性
在启动 AI 推理时,基础设施故障和停机可能会导致明显的精度下落、不行瞻望的模子行动或只是是作事中断。对于很多 AI 驱动的应用顺次来说,这是不行接管的,包括安全枢纽型应用顺次,举例机器东说念主、自动驾驶和医疗分析。Kubernetes 的自我诞生和容错功能有助于看重这些问题。
Pod 级和节点级容错: 若是 Pod 出现故障或莫得反映,Kubernetes 会自动检测问题并重新启动 Pod。这确保了应用顺次保捏可用和反映。若是启动 Pod 的节点出现故障,Kubernetes 会自动将 Pod 调动到健康的节点。革新更新: Kubernetes 相沿革新更新,因此您不错以最小的停机时候更新容器镜像。这使您大略快速部署乖谬诞生或模子更新,而不会中断正在启动的推理作事。就绪性和存活性探伤: 这些探伤是健康查抄,用于检测容器何时无法接纳流量或变得不健康,并在必要时触发重新启动或替换。集群自我诞生: K8s 不错自动诞生限度平面和责任节点问题,举例替换故障节点或重新启动不健康的组件。这有助于爱戴启动 AI 推理的集群的全体健康情景和可用性。
以下是 K8s 容错的主要上风:
通过保捏 AI 驱动的应用顺次高度可用和反映,提升了应用顺次的弹性出现问题时停机时候和中断最小通过使应用顺次和模子高度可用并更能顽抗偶而的基础设施故障,提升了用户满足度
论断
跟着组织连接将 AI 整合到其应用顺次中,使用大型 ML 模子并面对动态负载,聘用 Kubernetes 行为基础技艺至关热切。行为托管 Kubernetes 提供商,咱们看到了对可彭胀、容错且经济高效的基础设施的需求接续增长,这种基础设施不错不休AI 推理范围。Kubernetes 是一个原生提供扫数这些功能的用具。
念念要了解更多对于使用 Kubernetes 加快 AI 的信息?探索这本 Gcore 电子书【WNXG-051】杩戣Κ鐩稿Е 缇╂瘝銈掗厰銈忋仜銇︾鏂氦灏?鏅傞枔DX15鍚嶅弾閷?/a>2015-09-30STAR PARADISE&$VOLU481鍒嗛挓VNDS-3141】缇庝汉濡汇伄婵€銇椼亸鑵版尟銈嬮◣涔椾綅。