生成AI技術とは
生成AI(Generative AI)とは、大量のデータを学習することで、画像、文章、音声など様々なコンテンツを独自に生成できるAI技術のことです。 従来のAIが与えられたデータから判断や予測を行うのに対し、生成AIは新しいコンテンツを創造することが大きな特徴です。
生成AI技術の最前線
大規模言語モデル:生成AIの中核を成す技術が大規模言語モデル(LLM)です。SB Intuitionsは2024年度中に3,900億パラメーターのLLMを目指し、日々モデル構築を進めています。 大規模なコンピューティング基盤を活用し、ゼロからモデルを作ることが同社の強みとなっています
マルチモーダル対応:生成AIは文章だけでなく、画像、音声など様々なモーダリティに対応しつつあります。マイクロソフトは画像生成AIなども開発しており、生成AIの活用領域が広がっています。
ビジネス活用の促進:AI Shiftは生成AIのビジネス活用を目指し、AIコールセンターやAI Workerなどのソリューションを提供しています。 生成AI Confなどのコミュニティも立ち上がり、生成AIのビジネス活用が進んでいます。生成AI技術は急速に進化を遂げており、大規模言語モデルを中核に据えつつ、マルチモーダル対応が進み、ビジネス活用が本格化する最前線にあります。
マルチモーダルの意味
マルチモーダルとは、複数の異なる種類の情報(モダリティ)を組み合わせて処理することを指します。
マルチモーダルAIとは
- マルチモーダルAIは、複数の異なるモダリティのデータを入力として受け取り、それらを統合的に処理する人工知能のことです。
- 従来のAIはひとつのモダリティ(シングルモーダル)しか扱えませんでしたが、マルチモーダルAIは複数のモダリティを同時に扱えます。
- 人間は五感から入力される視覚、聴覚、触覚などの複数の情報を統合して認識しています。マルチモーダルAIはこの人間の情報処理に近い働きをします。
マルチモーダルAIは、異種の情報を組み合わせて処理できるため、より高度な認識や判断が可能になると期待されています。
マルチモーダルAIと単一モーダル(シングルモーダル)AIの主な違い
入力データの種類
- マルチモーダルAIは、テキスト、画像、音声、動画など複数の異なる種類(モダリティ)のデータを同時に入力して処理できます。
- シングルモーダルAIは、テキストや画像など1種類のデータ形式(モダリティ)しか入力できません。
処理能力
- マルチモーダルAIは複数のモダリティを統合して処理できるため、より高度な認識や判断が可能です。人間の五感に近い情報処理ができます。
- シングルモーダルAIは単一のモダリティしか扱えないため、処理能力が限定的です。
適用範囲
データ量と計算コスト
つまり、マルチモーダルAIはデータの種類を問わず統合処理できる反面、より大規模な計算リソースを必要とする点が、シングルモーダルAIとの大きな違いです。