物理 AI
開發世界基礎模型,推動物理 AI。
概覽
NVIDIA Cosmos™ 是專為物理 AI 打造的平台,採用最先進的生成式世界基礎模型 (WFM)、防護機制,以及加速的資料處理與庋用管道。開發者運用 Cosmos 來加速自駕車 (AV)、機器人與影像分析 AI 代理的物理 AI開發。
模型
一系列預先訓練的多模態模型,可供開發人員立即使用以生成及推理世界,或後訓練以開發專門的物理 AI 模型。
這是一款最先進的世界狀態預測模型,可根據多模態輸入生成長達 30 秒的連續影片,具備卓越的速度、擬真度與指令遵循能力。
這款多重控制模型在各種環境與光線條件,皆可快速擴展單一模擬或空間影片規模。
加速從 CARLA 或 NVIDIA Isaac Sim™ 等物理 AI 模擬架構的 3D 輸入,實現完全可控制的資料增強與合成資料生成流程。
完全可自訂的推理視覺語言模型 (VLM),能像人類一樣對影片和影像進行結構化推理,理解物理世界的能力卓越。
專為在執行時驅動影像分析 AI 代理而打造,具備對城市與工業運作的時空理解能力,可為機器人技術與自駕車 (AV) 和機器人決策策劃訓練資料。
NVIDIA Cosmos Curator 是一個框架,可讓開發人員針對物理 AI 開發所需的大量感測器資料進行快速篩選、註記及去除重複項目,建立量身打造的資料集來滿足模型需要。接著,開發人員可以立即透過 NVIDIA Cosmos Dataset Search 來查詢這些資料集,並針對目標的後期訓練檢索場景。
加速高效的資料集處理與生成。
使用案例
使用 Cosmos 世界基礎模型進行模擬、推理與資料生成,以支援機器人、自駕車和工業視覺系統的下游處理流程。
機器人需要大量多樣化的訓練資料,才能高效感知並與環境互動。開發人員可利用 Cosmos 世界基礎模型生成可控制的高擬真度合成資料,訓練機器人感知與策略模型。
安全訓練、測試及驗證自駕車的關鍵在於多元的高擬真感測器資料。開發人員以車輛資料對 Cosmos 世界基礎模型進行後期訓練,便可利用新的天氣、光線和地理位置擴大現有資料的多樣性,或是擴充至多感測器視角,大幅節省時間與成本。
這些 AI 代理可分析、彙整並與即時或錄製的影片串流互動,在工業與都市環境加強自動化、安全性與作業效率。Cosmos Reason 是可自訂的視覺語言模型 (VLM),利用對物理世界的先進視覺理解能力與時空推理能力,支援影像分析 AI 代理。這些 AI 代理提供即時問答、快速警示和豐富的情境深入解析,可全面強化邊緣與雲端部署,打造更智慧且具回應性的系統架構。
我們的承諾
Cosmos 模型、護欄和符元化工具在 Hugging Face 和 GitHub 上提供,資源可解決訓練物理 AI 模型時的資料稀缺問題。我們致力推動 Cosmos 發展,透明、開放且為所有人打造。
AI 基礎架構
NVIDIA RTX PRO 6000 Blackwell 系列伺服器,加速機器人、自駕車與 AI 代理的物理 AI 技術開發,涵蓋訓練、合成資料生成、模擬與推論等環節。
針對工業後期訓練與推論工作負載,在 NVIDIA Blackwell GB200 讓 Cosmos 世界基礎模型發揮最佳效能。
生態系統
機器人技術、自駕車與視覺 AI 產業的模型開發人員,正利用 Cosmos 加速物理 AI 開發。
物理 AI 開發人員可以從 Hugging Face 和 GitHub 上立即開始使用 Cosmos 世界基礎模型。 Cosmos 也提供端到端流程,以便使用 NVIDIA NeMo 微調基礎模型。開發人員可以從 GitHub 和 Hugging Face 上的 /NVIDIA/cosmos-tokenizer 使用該 Cosmos 符元化工具。
所有人均可透過 NVIDIA 開放式模型授權取得 Cosmos 世界基礎模型。
是,有兩種方法可對 Cosmos 模型進行後訓練:
1) 使用 NeMo,可以利用低秩適應 (LoRA) 和人類意見回饋的增強學習 (RLHF) 等熱門技術,高效能地訓練及微調模型。 您也可以選擇 PyTorch,使用自有的資料集繼續訓練 WFM。
2) 您可以使用 GitHub 的開放式 PyTorch 指令碼再訓練 Cosmos WFM。
是,您可以利用 Cosmos 使用自己偏好的基礎模型或模型架構,從頭開始建置。 您可以使用 NeMo Curator 開始進行影片資料預處理。 然後利用 Cosmos 符元化工具 壓縮並解碼資料。 處理完資料後,就可以使用 NVIDIA NeMo 訓練或微調模型。
透過 NVIDIA NIM™ 微服務,您可以輕鬆地將物理 AI 模型整合到雲端、資料中心和工作站的應用程式。
您也可以運用 NVIDIA DGX Cloud 訓練 AI 模型,並大規模部署在任何地方。
這三者皆是具有獨特角色的世界基礎模型:
Cosmos Reason 可從一段起始影片生成全新且多樣化的文字指令,以供 Cosmos Predict 使用,或是對 Predict 與 Transfer 所產生的合成資料進行評論與標註。
Omniverse 利用不同的生成 API、SDK 和 NVIDIA RTX 渲染技術,為實際任務建立逼真的 3D 模擬。
開發人員可以將 Omniverse 模擬作為教學影片輸入至 Cosmos Transfer 模型,生成可控制的擬真合成資料。
Omniverse 提供訓練前後的模擬環境,而 Cosmos 則提供基礎模型,用於生成影片資料並訓練物理 AI 模型。
深入瞭解 NVIDIA Omniverse。