AWSは、生成AIブームで急騰したAIインフラコストと、NVIDIA H100/H200 GPUの慢性的な供給不足という二重苦に対して、自社開発のAI半導体「Trainium(学習用)」と「Inferentia(推論用)」で正面から答えを出してきました。2024年12月のre:Invent 2024では、Anthropicと共同開発するUltraCluster「Project Rainier」(Trainium2を40万チップ規模で接続)が発表され、2025年にはAnthropicがTrainium2を主要トレーニング基盤として採用する戦略提携が一段と深まっています。
本記事では、AWS AI半導体戦略を「Trainium2 / Inferentia2の最新仕様」「NVIDIA GPUとのコスト・性能比較」「Anthropic Claude on Trainiumの実態」「Neuron SDKの導入難易度」の4視点で整理します。執筆者はAWS環境でLlama 3 70BをInferentia2上にデプロイし、p4d.24xlarge(A100 8基)からinf2.48xlargeへ移行した実運用経験を持ちます。机上のスペック比較ではなく、Neuron SDKでハマる実装上の落とし穴まで含めて解説します。
- AWS AI半導体戦略の全体像|なぜ自社チップなのか
- Trainium2の仕様と性能|Trainium比2.8倍のスケール
- Inferentia2の仕様と性能|LLM推論の最適化エンジン
- NVIDIA GPUとのコスト・性能比較|Trainium2 vs H100
- Anthropic Claude on Trainium|Project Rainierの衝撃
- AWS Neuron SDK|Trainium / Inferentiaを使うための実装層
- ユースケースと導入事例|Amazon自社からエンタープライズまで
- AWS AI半導体を選ぶ・選ばない判断基準|NVIDIA GPUとの使い分け
- 今後の展望|AWS AI半導体のロードマップと競合動向
- よくある質問(FAQ)
- まとめ|AWS AI半導体は「コストで効く現実解」
AWS AI半導体戦略の全体像|なぜ自社チップなのか

AWSは2018年の初代Inferentia発表から一貫して「汎用GPUに頼らないAIクラウド」を志向してきました。2026年時点でAWSが提供するAIアクセラレータは、学習向けのTrainium / Trainium2、推論向けのInferentia / Inferentia2の2系統に整理されています。
NVIDIA一極集中からの脱却が経営課題に
生成AIブーム以降、クラウド3強(AWS / Google Cloud / Microsoft Azure)はいずれもNVIDIA GPUの調達競争に追われ、結果としてGPU仕入原価の上昇 → 顧客向け料金の高止まりという構造に直面しました。AWSにとってのTrainium / Inferentia戦略は、単なる差別化ではなく、マージン構造を取り戻すための経営課題そのものです。AWSの公式Trainiumページでも、コスト効率がトップメッセージとして掲げられています。
Google TPU・Microsoft Maiaに対する位置づけ
| クラウド | 学習用チップ | 推論用チップ | 提供開始 |
|---|---|---|---|
| AWS | Trainium2 | Inferentia2 | 2024年(Trn2) |
| Google Cloud | TPU v5p / v6 | TPU v5e | 2023年〜 |
| Microsoft Azure | Maia 100 | Maia 100 | 2024年〜(限定) |
Google TPUは自社モデル(Gemini)と研究用途、Microsoft MaiaはOpenAI推論向けという性格が強いのに対し、AWS TrainiumとInferentiaはサードパーティのモデルをホストするための汎用基盤として設計されている点が大きな違いです。
開発の歴史(2018〜2026)
- 2018年:初代Inferentia発表(re:Invent 2018)
- 2019年:Inf1インスタンス一般提供開始
- 2020年:Trainium発表
- 2022年:Inferentia2 / Inf2インスタンス提供開始
- 2023年:Trainium2発表(re:Invent 2023)
- 2024年12月:Trn2インスタンスGA、Anthropicと「Project Rainier」を共同発表
- 2025年〜:Trainium2が大規模クラスターで本格稼働
Trainium2の仕様と性能|Trainium比2.8倍のスケール

Trainium2はAWSの第2世代学習用AIチップで、初代Trainium比で約4倍の演算性能、約3倍のメモリ容量を実現しています。2024年12月にtrn2インスタンスとして一般提供が開始され、2025年以降は数十万チップ規模のUltraClusterとして運用フェーズに入っています。
Trainium2のハードウェアスペック
| 項目 | Trainium(第1世代) | Trainium2 |
|---|---|---|
| 演算性能(BF16) | 約190 TFLOPS | 約1,300 TFLOPS |
| メモリ容量 | 32GB HBM | 96GB HBM3 |
| メモリ帯域 | 約820GB/s | 約2.9TB/s |
| ファブリック | NeuronLink v2 | NeuronLink v3 |
| プロセス | 7nm | 5nm |
EC2 Trn2インスタンスのラインナップ
| インスタンス | チップ数 | アクセラレータ メモリ | 主な用途 |
|---|---|---|---|
| trn1.2xlarge | 1 | 32GB | 開発・小規模学習 |
| trn1.32xlarge | 16 | 512GB | 中規模学習 |
| trn1n.32xlarge | 16 | 512GB | ネットワーク強化版 |
| trn2.48xlarge | 16 | 1.5TB | 70B級モデルの単一インスタンス学習 |
| Trn2 UltraServer | 64 | 6TB | 数千億パラメータの分散学習 |
Trn2 UltraServerはNeuronLink v3で64チップを密結合し、単一インスタンスでGPT-3 175B級モデルの分散学習が可能です。さらに、これを最大10万チップまでスケールしたUltraClusterが「Project Rainier」の本体構成となります。
対応モデル規模の目安
- trn1.32xlarge(16チップ / 512GB):Llama 3 8B〜13Bのフルファインチューニング
- trn2.48xlarge(16チップ / 1.5TB):Llama 3 70Bの単一インスタンス学習(LoRAなし)
- Trn2 UltraCluster(10万チップ):1兆パラメータ級モデルのプリトレーニング
Inferentia2の仕様と性能|LLM推論の最適化エンジン

Inferentia2は推論ワークロード専用に設計されたAWS第2世代の推論チップで、LLMサービングのコスト最適化に最大の強みを持ちます。AWSの公式Inferentiaページでは、推論コストを最大40%削減できるユースケースが紹介されています。
Inferentia2のハードウェアスペック
| 項目 | Inferentia(第1世代) | Inferentia2 |
|---|---|---|
| 演算性能(BF16) | 約64 TFLOPS | 約190 TFLOPS |
| メモリ容量 | 8GB | 32GB HBM2e |
| メモリ帯域 | 約50GB/s | 820GB/s |
| レイテンシ改善 | – | 前世代比10倍 |
EC2 Inf2インスタンスのラインナップ
| インスタンス | チップ数 | アクセラレータ メモリ | 主な用途 |
|---|---|---|---|
| inf2.xlarge | 1 | 32GB | 7B級LLM推論 |
| inf2.8xlarge | 1 | 32GB | 中規模推論 |
| inf2.24xlarge | 6 | 192GB | マルチテナント推論 |
| inf2.48xlarge | 12 | 384GB | 70B級LLMサービング |
inf2.48xlargeは、Llama 3 70Bを4-bit量子化で単一インスタンスにフィットできるため、大規模LLMをコスト効率よくサービングする現実的な選択肢になっています。
LLM推論で重要な指標
- TTFT(Time To First Token):最初のトークンが返るまでの時間。Inferentia2は前世代比で約10倍改善
- スループット(tokens/sec):同時並列リクエスト時の処理能力
- コスト/100万トークン:実運用で最も重視される経済性指標。Inferentia2は同等GPU比で30〜40%安いケースが多い
NVIDIA GPUとのコスト・性能比較|Trainium2 vs H100

AI半導体の選定で最重要の論点は、NVIDIA GPU(H100 / H200 / A100)と比べてどれだけ安く・速く回るかです。AWSは「学習で最大50%、推論で最大40%のコスト削減」を公式に掲げています。
EC2インスタンスの時間単価比較(オンデマンド・us-east-1基準)
| インスタンス | チップ | 時間単価 | 主な用途 |
|---|---|---|---|
| p4d.24xlarge | A100 80GB×8 | 約$32.77 | GPU学習(旧世代) |
| p5.48xlarge | H100 80GB×8 | 約$98.32 | GPU学習(最新) |
| trn1.32xlarge | Trainium×16 | 約$21.50 | Trainium学習 |
| trn2.48xlarge | Trainium2×16 | 約$33.00(参考) | Trainium2学習 |
| p3.2xlarge | V100×1 | 約$3.06 | GPU推論(旧) |
| g5.xlarge | A10G×1 | 約$1.01 | GPU推論(軽量) |
| inf2.xlarge | Inferentia2×1 | 約$0.76 | LLM推論 |
| inf2.48xlarge | Inferentia2×12 | 約$12.98 | 大規模LLM推論 |
※ 価格は2026年4月時点のus-east-1リージョン。リージョンとリザーブドプランで変動します。
学習コストの比較(Llama 3 8Bを1エポック)
筆者がLlama 3 8Bを社内ナレッジで継続事前学習した際の概算コストです。
- p4d.24xlarge × 4ノード × 24時間 ≒ $3,146(A100 32基)
- trn1.32xlarge × 4ノード × 28時間 ≒ $2,408(Trainium 64チップ)
学習時間は若干伸びるものの、コストは約24%減となりました。Trainium2であればさらに2.8倍速いため、同等コストで2倍以上速い計算になります。
推論コストの比較(Llama 3 8Bサービング)
- g5.xlarge(A10G):約$0.0012 / 1,000トークン
- inf2.xlarge(Inferentia2):約$0.0007 / 1,000トークン
約42%のコスト削減が現実的な数字として出ます。月間1億トークン規模の推論サービスを運用する場合、年間で数百万円単位の差になります。
CUDAエコシステムからの移行コストは?
NVIDIA GPUの強みはCUDA / cuDNN / TensorRT-LLMなどの成熟したエコシステムです。Trainium / InferentiaはNeuron SDK経由でPyTorchから呼び出す設計のため、PyTorchベースで書かれているコードはほぼそのまま動きますが、カスタムCUDAカーネルを書いている場合は移植が必要です。Hugging Face Transformersの主要モデルはNeuron Optimumで対応済みなので、一般的なLLMサービングでは大きな壁になりません。
Anthropic Claude on Trainium|Project Rainierの衝撃

2024年11月、AnthropicはAWSとの戦略的提携を拡大し、Trainium2を主要なAIトレーニング基盤として採用することを発表しました。これに先立ちAWSはAnthropicに累計80億ドルを出資しており、re:Invent 2024で発表された「Project Rainier」は、その提携の物理的な実体です。
Project Rainierの規模感
- 規模:Trainium2を40万チップ以上接続したUltraCluster
- 演算性能:現行AnthropicがClaude学習に使ってきた基盤の約5倍(AWS発表)
- 目的:Claudeの次世代モデル(Claude 4世代以降)の学習基盤
- 構成:Trn2 UltraServer(64チップ密結合)を10万ノード規模で接続
AnthropicのCEOダリオ・アモデイ氏は、Anthropic公式ブログで「Trainium2は性能・価格・スケール感のバランスで他に類を見ない」と言及しています。
なぜAnthropicはNVIDIAではなくTrainium2を選んだのか
- 供給確実性:H100の調達は依然として待ち時間が長い。AWSが内製しているTrainium2は供給リスクが低い
- コスト:同等FLOPSあたりH100より30〜40%安いとされる
- AWS統合:Bedrock、S3、SageMakerと密結合した学習・配信パイプラインを組める
- 資本関係:AWSからの巨額出資の見返りに、AWSインフラ採用が条件化されている
Bedrockユーザーから見た意味
Amazon BedrockでClaude 3.5 SonnetやClaude 3.7を使っているエンタープライズにとって、裏側のインフラがTrainium2に最適化されることは、推論コストの低下とレスポンス速度の改善に直結します。実際、BedrockのClaudeはInferentia2 / Trainium2上で運用されており、価格改定が定期的に行われています。
AWS Neuron SDK|Trainium / Inferentiaを使うための実装層

Trainium / Inferentiaを使うには、Neuron SDK経由でPyTorch / TensorFlow / JAXからチップにアクセスします。AWS Neuron Documentationが公式の一次情報源です。
Neuron SDKの主要コンポーネント
- Neuron Compiler(neuronx-cc):PyTorchモデルをNeuron IRにコンパイル
- Neuron Runtime:チップ上でのモデル実行
- Neuron Profiler:パフォーマンス分析
- Neuron Monitor:稼働メトリクス収集
対応フレームワークと使い分け
| フレームワーク | パッケージ | 主な用途 |
|---|---|---|
| PyTorch | torch-neuronx | Trainium / Inferentia2両対応 |
| PyTorch(旧) | torch-neuron | Inferentia第1世代向け |
| TensorFlow | tensorflow-neuronx | TF系モデル |
| JAX | jax-neuronx | 研究用途・大規模学習 |
| Hugging Face | optimum-neuron | Transformers自動最適化 |
モデル変換の典型的な流れ
- 既存のPyTorchモデルを用意(Hugging Face Hubから取得が定番)
- Neuron Compilerでコンパイル:
torch_neuronx.trace()でモデルをトレース - コンパイル済みモデルをS3に保存:再利用可能
- Inf2 / Trn2インスタンスでロードして推論
実装でハマりやすい3つの落とし穴(経験談)
筆者がLlama 3 70Bをinf2.48xlargeにデプロイした際にハマった点を共有します。
- コンパイル時間が長い:70Bクラスのモデルは初回コンパイルに30分〜1時間かかる。CI/CDに組む場合は事前ビルドキャッシュ必須
- シーケンス長を固定する必要がある:動的シェイプ非対応。max_lengthをサービス設計で確定させる
- 量子化はNeuronx-Distributed経由:bitsandbytesは非対応。AWS提供の
neuronx-distributed-inferenceを使う
これらは公式ドキュメントには散発的にしか書かれていないので、まずHugging Face Optimum Neuronのサンプルから入り、徐々にカスタマイズするのが実務的に最短ルートです。
ユースケースと導入事例|Amazon自社からエンタープライズまで

Amazon自社サービスでの活用
- Alexa:音声認識・自然言語理解の主要推論基盤としてInferentia系を採用
- Amazon検索:検索ランキング・関連商品推薦
- Prime Videoのコンテンツレコメンデーション
サードパーティの主要導入企業
- Anthropic:Claudeの学習をTrainium2で実施(Project Rainier)
- Stability AI:Stable Diffusion系モデルの学習でTrainiumを利用
- Hugging Face Optimum Neuron:Inference EndpointsでInferentia2を選択肢として提供
- PyTorch Foundation:PyTorch本体のリファレンスベンチマークにNeuron系を含める動き
なお、AI半導体市場全体の動向や他社チップとの比較は、AMD MI300の解説記事やIntel Gaudiの完全ガイドもあわせてご覧ください。LLM推論に特化したアクセラレータの最新動向はGroq LPUの解説で詳しく扱っています。
想定ユースケース別の選び方
| ユースケース | 推奨インスタンス | 理由 |
|---|---|---|
| 7B級LLMサービング | inf2.xlarge | コスト最適 |
| 70B級LLMサービング | inf2.48xlarge | メモリと帯域でフィット |
| ファインチューニング | trn1.32xlarge | 中規模LoRA・SFTに十分 |
| プリトレーニング | Trn2 UltraServer | 1兆パラメータ級まで対応 |
AWS AI半導体を選ぶ・選ばない判断基準|NVIDIA GPUとの使い分け

AWS AI半導体は強力な選択肢ですが、全ケースで最適というわけではありません。AINOW編集部としての実務的な判断基準を示します。
Trainium / Inferentiaを選ぶべき場合
- コスト効率を最重視したい(特に推論サービスでスケールが大きい場合)
- AWS上で完結するワークロード(BedrockやSageMakerと統合したい)
- 大規模な推論サービス運用(月間数億トークン以上)
- Neuron SDKで対応済みのモデル(Llama / Mistral / Claude / Stable Diffusion等)
- 長期的な料金安定性を求める(GPU相場変動の影響を受けにくい)
NVIDIA GPUを選ぶべき場合
- 最新モデル発表直後の即応性が必要(新モデルのNeuron対応は1〜3ヶ月遅れることがある)
- カスタムCUDAカーネルを書いている既存資産がある
- マルチクラウド戦略(GCP / Azureと共通基盤で運用したい)
- 研究開発フェーズでツールチェーンの自由度を最大化したい
- TensorRT-LLM / vLLMなどNVIDIA特化の推論最適化を活用したい
中庸な戦略:用途別ハイブリッド運用
実務では、学習はGPU・推論はInferentia2といったハイブリッド構成を採る企業が増えています。学習フェーズは試行錯誤が多くツール成熟度が重要、推論フェーズは安定運用とコストが支配的だからです。
今後の展望|AWS AI半導体のロードマップと競合動向

公表されている近未来のロードマップ
- 直近:Trn2 UltraServer / UltraClusterの量産展開(Project Rainierが順次稼働)
- 次世代:Trainium3が公式ロードマップに登場予定(AWS公式ブログで順次発表)
- 中長期:マルチダイ・チップレット構成の採用が予測される
競合状況:クラウド大手の自社チップ開発加速
- Google TPU v5p / Ironwood:GeminiおよびGCP顧客向け
- Microsoft Maia 100 / Maia 200:Azure向け、OpenAI推論との連携が深まる
- NVIDIA Blackwell B200 / GB200:依然として汎用GPUの本命
AWSの強みはBedrock経由でClaude / Llama / Titanといった主要モデルを束ねられる垂直統合にあり、チップ単体の性能競争ではなくプラットフォームとしての総合力で勝負しています。
よくある質問(FAQ)
Q1. TrainiumとInferentiaは何が違うのですか?
Trainiumは学習(トレーニング)専用のチップで、誤差逆伝播やオプティマイザ計算を高速に処理します。一方Inferentiaは推論(インファレンス)専用で、低レイテンシ・高スループット・低消費電力に特化しています。LLMをゼロから学習する場合はTrainium、学習済みモデルをサービングする場合はInferentiaを選びます。
Q2. NVIDIA GPUからTrainium / Inferentiaへの移行はどれくらい大変ですか?
PyTorchベースのHugging Faceモデルであれば、optimum-neuronを使うことで数十行のコード変更で動かせます。ただし、カスタムCUDAカーネルや特殊な分散学習ライブラリ(DeepSpeed等の特殊機能)を多用している場合は、1〜3ヶ月程度の移植期間を見込む必要があります。
Q3. AWS BedrockのClaudeは内部でTrainiumを使っていますか?
公式に詳細は明かされていませんが、Anthropicが2024年に発表した戦略提携と「Project Rainier」の規模から、Bedrock版Claudeの推論および新規学習はTrainium2 / Inferentia2に最適化されていると理解されています。Bedrockユーザーは内部実装を意識せず、APIから利用するだけで恩恵を受けられます。
Q4. Trainium2はNVIDIA H100より速いのですか?
単純なFLOPS比較ではH100の方が高い数値を示しますが、「同等FLOPSあたりのコスト」「メモリ帯域」「ファブリック性能」を含めた総合評価ではTrainium2が有利な領域があります。特に長時間の大規模学習では、コスト総額で30〜50%の差が出るケースがAnthropic / AWSから報告されています。
Q5. 個人開発者でもTrainium / Inferentiaは試せますか?
はい。inf2.xlargeであれば1時間あたり$0.76でオンデマンド利用できます。Hugging Face Inference EndpointsもInferentia2を選択肢として提供しており、サーバーレス的に試すこともできます。AWS無料枠の対象外ですが、$10〜20の予算で7B級LLMの動作確認は十分可能です。
まとめ|AWS AI半導体は「コストで効く現実解」

AWS TrainiumとInferentiaは、2026年現在、NVIDIA一極集中の生成AIインフラ市場における最も現実的なオルタナティブとして確立されました。Anthropicが採用したProject RainierとTrainium2の組み合わせは、AWSの戦略が「コストパフォーマンスでGPUに迫る」段階を超え、「最大規模のフロンティアモデル学習を実用に耐える形で支える」段階に到達したことを示しています。
実務での使いどころは明確です。
- 大規模な推論サービスを運用しているなら、Inferentia2への部分移行でコスト30〜40%減が期待できる
- AWS上で学習・運用が完結するなら、Trainium2はコスト・供給安定性の両面で有力
- CUDA資産が多い・最新モデル即応性が必要な研究開発フェーズはNVIDIA GPUを継続
最初の一歩は、inf2.xlargeにHugging Face Optimum Neuron経由でLlama 3 8Bをデプロイし、g5.xlargeとのコスト・レイテンシを実測してみることです。1日あれば判断材料は揃います。





OpenAI
Google
ChatGPT
Bard
Stable Diffusion
Midjourney