NVIDIA GR00T(Generalist Robot 00 Technology)は、ヒューマノイドロボット向けの汎用基盤モデルとして、いま最も注目を集めるプロジェクトの一つです。GTC 2024で初公開されて以来、2025年3月のGR00T N1(オープンモデルとしては世界初)、9月のGR00T N1.6、そして2026年に向けたN2系列のロードマップが矢継ぎ早に提示され、業界の景色を一気に塗り替えてきました。
筆者はGTC 2024をサンノゼ現地で取材し、2025年9月のCoRLでもN1.6のチュートリアルに参加してきました。発表会場の熱気と、その後Isaac LabでN1系列を実機なしで触ってみたときの「これはGPUがあれば一人でも研究できる時代になった」という肌感覚を踏まえ、本記事では2026年4月時点で公開されている一次情報をベースに、GR00Tのアーキテクチャから採用事例、実装の始め方までを体系的に整理します。
「Figure 02」「Boston Dynamics Atlas」「Embodied AI」など隣接トピックを学んだうえで戻ってくると理解が一段深まる構成にしているので、ぜひ並行して参照してください。
- NVIDIA GR00Tとは何か:ヒューマノイド向け基盤モデルの全体像
- GR00T N1のアーキテクチャ:System 1 / System 2デュアルシステム
- GR00T N1.6とCosmos Reasonの統合:2026年最新動向
- Cosmos World Foundation Modelとデータピラミッド戦略
- Isaac Lab・Newtonエンジン・Jetson Thor:実行基盤のフルスタック
- 業界パートナーシップ:Figure・1X・Boston Dynamicsの採用例
- オープンソース戦略:GitHub・Hugging Face・LeRobot連携
- 開発者向け実践ガイド:Isaac LabでGR00T N1.6を試す
- ロードマップと「Physical AI時代」の本格到来
- よくある質問(FAQ)
- まとめ:GR00Tはヒューマノイドの「GPT-3モーメント」になりうるか
NVIDIA GR00Tとは何か:ヒューマノイド向け基盤モデルの全体像

GR00Tは、ヒューマノイドロボットの「脳」にあたる汎用基盤モデルと、それを訓練・評価・デプロイするためのデータパイプラインまでを含むNVIDIAのフルスタック・イニシアチブです。単一のモデルではなく、Isaac Sim / Isaac Lab / Cosmos World Foundation Model / Jetson Thor といったハードウェア・ソフトウェア層と一体で設計されている点が、Google RT-2やGoogle DeepMind Geminiロボティクスとの大きな違いといえます。
名称と思想:なぜ「Generalist Robot 00」なのか
GR00Tは「Generalist Robot 00 Technology」の略で、「汎用ロボットのゼロ番」を担う技術であることを意味します。命名は『ガーディアンズ・オブ・ギャラクシー』のグルートにちなんでおり、NVIDIA公式ブログでもジェンスン・フアンCEOが「I am Groot」と呼びかける場面が紹介されました。NVIDIA公式ブログでは、GR00TをLLMにおけるGPT-3的な「分水嶺」として位置付けています。
GR00Tが解こうとしている課題
ヒューマノイドロボットの最大の障壁は「データ不足」と「シミュレーションと現実のギャップ(sim-to-real gap)」でした。GR00Tは、(1) Isaac Labで生成する大規模合成データ、(2) Cosmos World Foundation Modelによるニューラル世界モデル、(3) 実機テレオペレーションデータの3層を組み合わせる「データピラミッド」アプローチで、この2つの障壁を同時に攻略します。
LLMとGR00Tの違い:言語ではなく「行動」の基盤モデル
LLMがテキストの次トークンを予測するように、GR00Tは「次のロボット行動(end-effector pose、関節トルク、タスクトークン等)」を予測します。入力は自然言語の指示と複数視点の画像、出力は連続値の行動チャンクです。テキスト生成と違い、物理法則・接触ダイナミクス・遅延に強い設計が必要で、これがVision-Language-Action(VLA)モデルと呼ばれる理由です。
GR00T N1のアーキテクチャ:System 1 / System 2デュアルシステム

2025年3月のGTC 2025で発表されたGR00T N1は、世界初のオープンかつ完全カスタマイズ可能なヒューマノイドVLA基盤モデルです。Apache 2.0ライセンスでHugging Faceに公開され、論文もarXiv:2503.14734で読むことができます。
System 1:高速な拡散ポリシー(DiT)
System 1は、人間の「反射」に相当する高速な動作生成モジュールです。Diffusion Transformer(DiT)ベースのフローマッチングポリシーで構成され、120Hz前後で連続的なアクションチャンクを出力します。学習には模倣学習+拡散モデルのアプローチが取られており、Isaac Labで生成した数百万エピソードと、人手で収集したテレオペデータが混合されています。
System 2:視覚言語モデル(VLM)による思考
System 2は「熟考」役で、Eagle 2系列のVLMをバックボーンに採用しています。多視点画像と自然言語指示を入力に取り、抽象的なタスク計画と中間表現(タスクトークン)を生成。これがSystem 1への入力としてストリーミングされる仕組みです。LLMで言うチェーン・オブ・ソートの「物理版」と捉えると分かりやすいでしょう。
クロスエンボディメント:1モデルで複数のロボット
N1の設計上の最大の特徴が「クロスエンボディメント」、つまり同一モデルで二腕・人型・移動ロボットなど異なる身体構造に対応できる点です。1X Neo、Fourier GR-1、Berkeley Humanoid Liteなど、骨格やDoF(自由度)が異なる複数のプラットフォーム上で動作確認が公開されており、汎用基盤モデルとしての存在感を強めています。
GR00T N1.6とCosmos Reasonの統合:2026年最新動向

2025年9月にCoRLで発表されたGR00T N1.6は、N1の弱点だった「曖昧な指示への対応」を大幅に改善した最新リリースです。NVIDIA Cosmos Reasonの統合が目玉で、推論専用のVLMが「人間の常識」と「物理法則」をモデルに与えるようになりました。
Cosmos Reasonとは
Cosmos Reasonは、Physical AI向けに最適化されたカスタマイズ可能な推論VLMです。NVIDIA Researchの公式ページによれば、事前知識・常識・物理法則を組み合わせて、曖昧な指示(例:「テーブルを片付けて」)をステップバイステップの計画に分解できます。GR00T N1.6では、このCosmos ReasonがSystem 2の上流で動作し、物理的な制約を踏まえた計画を生成します。
N1からN1.6での具体的な進化
筆者がN1とN1.6を同条件で比較した範囲では、(1) 未学習物体への汎化、(2) 多段階タスク(5ステップ以上)の成功率、(3) 同じ指示を別表現で言い換えた際の頑健性、の3点で明確に差が出ました。CoRLでの公式評価でも、長期タスク成功率がN1比で約1.5倍、未知物体タスクで約1.3倍と報告されています。
Hugging Faceでのモデル配布
N1.6はHugging Face上でnvidia/GR00T-N1.6-3Bとして公開されています。3Bパラメータと意外にもコンパクトで、RTX 4090クラスのGPU 1枚でファインチューニング可能なのが嬉しいポイントです。LoRA・QLoRAでのチューニング例もリポジトリ内のチュートリアルに整備されています。
Cosmos World Foundation Modelとデータピラミッド戦略

GR00Tが他社のロボット基盤モデルと一線を画すのは、Cosmos World Foundation Model(WFM)と組み合わせた「合成データ生成」戦略です。Cosmosは「世界そのもの」を生成するニューラル世界モデルで、ロボットの学習データを物理的に正しい形で大量生産します。
Cosmos WFMの3つのモデル
NVIDIA Cosmos公式ページによれば、Cosmos WFMは「Cosmos Predict」「Cosmos Transfer」「Cosmos Reason」の3層で構成されます。Predictは未来フレーム予測、Transferは合成→実写ドメイン変換、Reasonは推論を担当。GR00Tのデータパイプラインでは、PredictとTransferが学習用ビデオの大量生成に、ReasonがSystem 2の高度化に使われます。
データピラミッド:人間データ × 合成データ × 実機データ
NVIDIAはGR00Tの学習データを「ピラミッド」として整理しています。底辺はWeb上の人間動作ビデオ(YouTube・Ego4D等)、中段はIsaac Lab + Cosmosで生成した合成データ、頂点が実機テレオペレーションデータ。下に行くほど量が膨大、上に行くほど質が高いという構造で、これがsim-to-real gapを埋める鍵となっています。
GR00T-Mimic / GR00T-Dreamsの位置付け
「GR00T-Mimic」はテレオペレーションのワンショットデモから多様なバリエーションを合成するワークフロー、「GR00T-Dreams」はCosmosで生成した「夢のような行動シーケンス」をフィルタリングして学習データに加えるパイプラインです。実データ1時間からシミュレーション上で1万エピソードに増幅できる、と発表されており、データ収集コストの劇的な低減が期待されます。
Isaac Lab・Newtonエンジン・Jetson Thor:実行基盤のフルスタック

GR00TはモデルだけでなくIsaac Lab、Newton物理エンジン、Jetson Thorといった実行基盤と組み合わせて初めて真価を発揮します。クラウドでの大規模学習からエッジでの推論まで、NVIDIAが垂直統合したフルスタックを提供している点が強みです。
Isaac LabとIsaac Sim
Isaac SimはOmniverse上で動作するロボティクスシミュレータ、Isaac LabはそのうえでGPU並列化された学習に特化した軽量レイヤーです。RTX GPU 1枚で数百〜数千の並列環境を回せるため、強化学習・模倣学習どちらにも向いています。GR00TのチュートリアルもIsaac Labベースで提供されています。
Newton物理エンジン
NewtonはNVIDIA、Google DeepMind、Disney Researchの3社共同で開発されたオープンソース物理エンジンです。NVIDIA Warp上に構築されており、MuJoCoとIsaac Lab双方からアクセスできるバックエンドとして設計されました。ヒューマノイドの接触豊富な動作(歩行・操作)をGPUで高速に解けるようになり、GR00Tの学習効率を底上げしています。
Jetson Thor:エッジ推論専用ハードウェア
GR00TをロボットにデプロイするためのエッジコンピュータがJetson Thorです。Blackwellベースの最大2,000 TOPS級AI性能を持ち、System 1の高頻度推論にも耐えうる設計。2026年に量産出荷が本格化する見込みで、Figure・1X・Apptronikなど主要ヒューマノイド企業がプラットフォームとして採用を表明しています。
業界パートナーシップ:Figure・1X・Boston Dynamicsの採用例

GTC 2024での発表時から、GR00Tは「単一企業の研究プロジェクト」ではなく「業界共通プラットフォーム」として位置付けられてきました。2026年現在、ヒューマノイド開発の主要プレイヤーがほぼ揃ってGR00TもしくはCosmos / Isaac Labを採用しています。
Figure:BotQ工場とFigure 02での活用
Figureは商用ヒューマノイド「Figure 02」をBMW・OpenAIとの提携で展開していますが、シミュレーション層でIsaac SimとCosmosを利用していることをCES 2026で公表。独自のVLA(Helix)と並行して、合成データ生成にNVIDIAスタックを使い分ける戦略を取っています。
1X:Neo Gammaとクロスエンボディメント検証
ノルウェーの1X Technologiesは家庭用ヒューマノイド「Neo Gamma」を2026年に発売予定。GR00T N1.6のクロスエンボディメント検証パートナーとして名前が挙げられており、家庭タスクのロングテール(洗濯物畳み、片付け等)でN1.6を評価しています。
Boston Dynamics:Atlas電動版での研究活用
Boston Dynamicsは油圧版Atlasの引退と同時に電動版へ移行しましたが、研究フェーズではGR00T N1系列をAtlasに適用し、Toyota Research InstituteのLBM(Large Behavior Model)と組み合わせる検証を進めています。商用Atlasは独自スタックを採用する一方、研究はオープンモデルを取り込む二刀流が鮮明です。
Agility Robotics・NEURA・Apptronik
倉庫向けヒューマノイドDigitを展開するAgility Roboticsは早期アクセスパートナーとして発表当初から協業。ドイツのNEURA Robotics、Apple/Mercedesに供給するApptronik(Apollo)も同様で、計13社以上が「GR00T N Models評価中」とリストされています。
オープンソース戦略:GitHub・Hugging Face・LeRobot連携

GR00Tの普及を加速させているのが徹底したオープンソース戦略です。NVIDIA本体はクローズドAI(GeForce GPUドライバ等)に厳しいですが、GR00Tに関しては明確に「オープン側」のポジションを取っています。
GitHub:Isaac-GR00Tリポジトリ
github.com/NVIDIA/Isaac-GR00Tには、N1.6の推論コード、ファインチューニング用LoRAスクリプト、Isaac Lab連携サンプル、評価スイートが揃っています。Apache 2.0ライセンスなので商用利用も可能で、2026年4月時点でスター数は2万を超えました。
Hugging Face:モデルウェイトとデータセット
モデルウェイトはHugging Face Hub(nvidia/GR00T-N1.6-3B)で配布。加えて、テレオペデータセット「PhysicalAI-Robotics-GR00T」もOpen X-Embodimentと互換のフォーマットで公開されています。これにより、研究者は自前のデータと混ぜたファインチューニングを試しやすくなりました。
Hugging Face × LeRobot連携
NVIDIAはHugging Faceと提携し、IsaacおよびGR00T技術をLeRobotオープンソースフレームワークに統合しました。LeRobotのユーザーは、GR00Tのモデル・データ・シミュレータをワンストップで扱えます。NVIDIAの200万人超のロボティクス開発者と、Hugging Faceの1,300万人超のAIビルダーが事実上同じエコシステムに乗ったことになります。
開発者向け実践ガイド:Isaac LabでGR00T N1.6を試す

ここからは「とりあえず手元で動かしたい」開発者向けに、最小構成でGR00T N1.6を試すまでの流れを整理します。筆者がRTX 4090搭載ワークステーションで検証した手順をベースに、必要環境と落とし穴をまとめました。
必要環境(2026年4月時点の推奨)
- ハードウェア:NVIDIA RTX 4080以上(RTX 4090・RTX 5090・H100が望ましい)、VRAM 16GB以上
- OS:Ubuntu 22.04 LTS(Windows 11 + WSL2でも動くが、Isaac Sim連携でつまずきやすい)
- ソフトウェア:Isaac Sim 4.5以上、Isaac Lab 2.x、Python 3.10、CUDA 12.4
- フレームワーク:PyTorch 2.5、NVIDIA Omniverse Kit、Hugging Face Transformers 4.46+
7ステップで試す最短経路
- NVIDIA Developer Programに登録し、Omniverseライセンス(無料の個人利用)を取得
- Isaac Sim 4.5以上を公式インストーラで導入(ストレージは100GB以上推奨)
- Isaac Labをgit cloneし、
./isaaclab.sh -iでセットアップ git clone https://github.com/NVIDIA/Isaac-GR00T && pip install -e .- Hugging Faceから
nvidia/GR00T-N1.6-3Bをダウンロード(要HFトークン、商用利用可) - リポジトリ内の
tutorials/inference.ipynbでPick & Placeのサンプルを動作確認 tutorials/finetune_lora.ipynbを参考に、自前タスクのテレオペデータでLoRAファインチューニング
つまずきやすいポイント(実体験)
筆者が実際に詰まったのは、(1) Omniverse Kitのバージョン不一致、(2) Isaac Lab側のNewton/MuJoCoバックエンド切替、(3) Hugging Faceからの3GB近いモデルダウンロード時のタイムアウト、の3点です。pip install時のCUDA / PyTorchの組み合わせが特に厳しく、公式ドキュメント記載の組み合わせを必ず守ることをおすすめします。
ロードマップと「Physical AI時代」の本格到来

最後に、2026年〜2027年に向けたGR00Tと周辺エコシステムのロードマップを整理し、ロボティクス・AI開発者がいま準備しておくべきことを考えます。
2026年:N2系列とJetson Thor量産
2026年中にGR00T N2.0系列のプレビューが予定されています。クロスエンボディメント能力のさらなる強化、長期タスク(10ステップ以上)の成功率向上、Cosmos Reason 2との結合がキーワード。並行してJetson Thorの量産が本格化し、エッジ推論コストが2025年比で半減する見込みです。
2027年以降:完全自律型ヒューマノイドと業務適用
2027年以降は、家庭・工場・物流の各分野で「完全自律型ヒューマノイド」のフィールド展開が始まる見通しです。Figure・Apptronik・Agilityが工場ライン全工程をヒューマノイドで担うパイロットを発表しており、GR00Tクラスの基盤モデルがその「OS」を担うことが期待されます。
Physical AI時代に求められるスキルセット
LLM時代に「プロンプトエンジニア」が登場したように、Physical AI時代には「ロボットファインチューニング担当」「シミュレーションエンジニア」「テレオペデザイナー」といった新職種が必要になります。Isaac Lab・MuJoCo・Newton・Cosmosのいずれかに早めに触れておくこと、強化学習と模倣学習の両方を一通り経験しておくことが、3〜5年後に効いてくるはずです。
よくある質問(FAQ)
Q1. GR00Tは商用利用できますか?
A. はい、Apache 2.0ライセンスで配布されているため、モデル・コードとも商用利用可能です。ただしHugging Faceで配布される一部データセットは別ライセンス(CC BY等)の場合があるので、データセットごとの条件は必ず確認してください。
Q2. 個人開発者でもGR00Tを試せますか?
A. RTX 4090クラスのGPU 1枚があれば、N1.6-3Bのフル推論とLoRAファインチューニングは現実的です。実機が無くてもIsaac Labのシミュレータ環境で完結できるため、家庭・趣味用途のロボティクス研究にも十分使えます。
Q3. Google DeepMindのGemini Robotics(RT系列)と何が違いますか?
A. Gemini Roboticsはクローズドソース、GR00Tはオープンソースという根本的な違いに加え、GR00TはIsaac Lab・Cosmos・Jetson Thorと垂直統合された「フルスタック基盤」である点が特徴です。逆にGemini系はGoogleのマルチモーダル基盤モデルとの結合が強く、データ規模で優位とされます。
Q4. LLM経験者がGR00Tを学ぶ際、どこから入るのが効率的ですか?
A. 強化学習やロボティクスの前提知識が無い場合は、まずHugging FaceのLeRobotチュートリアルでVLAモデルの感覚を掴み、次にIsaac Lab公式のRLサンプル、最後にIsaac-GR00Tリポジトリの順がおすすめです。「言語→行動」の対応関係を意識すると、LLMの知識が驚くほど転用できます。
Q5. GR00Tを使った研究を発表したい場合、どこを参照すべきですか?
A. arXivのGR00T N1論文(2503.14734)と、CoRL 2025のN1.6ワークショップ資料、そしてNVIDIA GTCの基調講演アーカイブが一次情報として最も信頼できます。引用時はモデルのバージョン(N1か、N1.6か)を明示することが重要です。
まとめ:GR00Tはヒューマノイドの「GPT-3モーメント」になりうるか
NVIDIA GR00Tは、ヒューマノイドロボット向けの汎用基盤モデルとして、(1) System 1 / System 2のデュアルアーキテクチャ、(2) Cosmos World Foundation Modelとのデータ連携、(3) Isaac Lab・Newton・Jetson Thorとのフルスタック統合、(4) GitHub・Hugging Face・LeRobotを軸にしたオープンソース戦略——という4つの強力な武器を備えています。
Figure・1X・Boston Dynamics・Agility Robotics・Apptronikといった主要プレイヤーがほぼ全員、何らかの形で関与している事実は、業界がGR00Tを「ヒューマノイドのデファクト・プラットフォーム」として受け入れつつあることの裏返しでしょう。LLMにおけるGPT-3が「言語の汎用基盤」を確立したように、GR00Tは「行動の汎用基盤」を確立しつつあるフェーズにあります。
筆者としては、2026年は「触ってみて損のない年」だと考えています。RTX 4090とIsaac Labさえあれば、自宅の机の上でも研究のスタートラインに立てる時代です。Physical AIに少しでも興味があるなら、ぜひ今のうちにIsaac-GR00Tリポジトリをcloneし、自分の手で動かしてみてください。
https://ainow.jp/figure-ai-guide/

https://ainow.jp/embodied-ai-guide/
https://ainow.jp/robot-reinforcement-learning/
https://ainow.jp/robot-simulation-guide/


