Kubernetes 生態系統中的 AI/ML 創新

發布人：小億發布時間：2024-11-25 10:53 閱讀量：933

當開源遇上AI，將產生怎樣的火花?

隨著企業智能化升級步伐的加快，已經開始將人工智能和機器學習(AI/ML)工作負載投入持續開發和生產部署場景，這就需要考慮到如何具備與常規軟件代碼相當的可管理性、速度和責任性等相關問題。而在這些工作負載的部署中，Kubernetes 成為了主流選擇，所以Kubeflow 和 KServe 項目被廣泛關注。隨著模型注冊表、ModelCars 功能以及 TrustyAI 集成等最新創新的推出，依賴 AI/ML 的用戶正迎來顯著改進，這些改進使得開源 AI/ML 能夠在生產中得以廣泛應用，并且未來還將有更多進步。

更好的模型管理

AI/ML 使用機器學習模型分析數據并生成輸出，這些模型由代碼、數據和調整信息構成。2023年，Kubeflow 社區認識到跨大型 Kubernetes 集群分發優化后的模型的需求日益迫切。紅帽 OpenShift AI 的工程師們積極響應，開始開發新的 Kubeflow 組件——模型注冊表。

模型注冊表為開發人員提供了一個集中化的目錄，用于索引和管理模型及其版本，以及相關工件元數據。它填補了模型實驗和生產活動之間的空白，為所有用戶提供了一個統一的界面，便于在 ML 模型上進行高效協作。這一工具對于希望在大型 Kubernetes 集群上運行多個模型實例的研究人員來說至關重要。目前，該項目正處于 Alpha 階段，并已包含在 Kubeflow 1.9 版本中。

更快的模型服務

Kubeflow 利用 KServe 項目在 Kubernetes 集群的服務器上運行模型。用戶非常關注模型的延遲和開銷，特別是在受監管行業中，許多組織都有針對響應時間的服務級別目標(SLO)。

為了優化性能，Red Hat 和 KServe 的工程師們開發了 ModelCars，這是一個保存 KServe 模型數據的被動“sidecar”容器。這樣，模型只需在集群節點上存儲一次，無論有多少副本正在訪問它。利用 Kubernetes 在容器鏡像處理方面的成熟技術，ModelCars 實現了更快的服務模型啟動時間，并顯著減少了集群節點的磁盤空間需求。目前，ModelCar 已在 KServe v0.12 及更高版本中可用。

更安全的模型使用

AI/ML 系統復雜且難以捉摸，但確保它們不會因意外偏見或邏輯錯誤而產生誤導性結果至關重要。TrustyAI 是一個新的開源項目，旨在將“負責任的人工智能”引入 AI/ML 開發生命周期的所有階段。

TrustyAI 通過將核心技術/算法(主要關注人工智能的可解釋性、指標和護欄)集成到生命周期的不同階段，實現了這一目標。例如，在模型實驗階段，可以使用 Python TrustyAI 庫在 Jupyter Notebook 中識別偏差。通過將此工具合并為管道步驟，還可以在生產模型中進行連續偏差檢測。目前，TrustyAI 已進入開發第二年，并得到了 KServe 的支持。

未來的人工智能/機器學習創新

借助這些功能和工具以及其他進步，AI/ML 模型的開發和部署變得更加一致、可靠、高效和可驗證。這使得組織能夠采用和定制自己的開源 AI/ML 堆棧，這在以前可能是困難或冒險的。

Kubeflow 和 KServe 社區正致力于下一代改進，包括 LLM 服務目錄、推薦配置和模式探索等。同時，KServe 項目也在開發支持超大型模型的功能，如多主機/多節點支持、推測解碼以及 LoRA 適配器支持等。此外，KServe 社區還在推動 GenAI 任務 API 的開放推理協議擴展，并與 Kubernetes Serving 工作組密切合作，推動各項工作的集成和發展。這些功能和其他功能都包含在 KServe 的路線圖中，預示著未來 AI/ML 的更多創新和進步。

上一篇：混合云大模型是云計算的“回春丹”

下一篇：中國大語言模型價格戰推動人工智能加速上云

更多欄目