グローバルの生成AI業界を牽引する「Stability AI」
藤平:連載6回目は、Stability AI Japan 代表のJerry Chi(ジェリー・チー)さんをゲストにお迎えしました。ジェリーさん、貴重な機会をありがとうございます!
今回は、画像/動画生成AI「Stable Diffusion(ステーブル・ディフュージョン)」を展開しているStability AIの、日本における現在地&見据えている将来像をお聞きしつつ、「クリエイティブ(×マーケティング)領域におけるAI活用は、今どのあたりにいるのか、今後どのような方向に進化していくのか」を掴めればと思っています。
ジェリー:はい、よろしくお願いします。
藤平:まずは、Stability AIがどういった理念のもとAI開発に向き合っているのか、Stability AI社のミッションからお聞きできますか?
ジェリー:Stability AIのミッションは「人類の潜在能力を引き出す“基盤”を提供すること(build the foundation to activate humanity’s potential)」です。今後AIがどんな方向へ進化していくのか? そのシナリオは1つではなく、色々なパターンがあり得ると考えています。少数のビッグテックカンパニーのみでコアな技術を占有するような未来がくるかもしれませんし、AI技術がよりオープンに扱われる世界になるかもしれません。
我々が臨むのは後者のほう、AI技術が民主化された世界です。オープンなAIを提供することで、世の中のあらゆる人々がAIの恩恵を受けられる世界をつくることを目指しています。
たとえば、Stability AIはオープンソースの生成AIモデル「Stable Diffusion」を提供しており、ユーザーは私たちのAI技術を拡張したり、調整したりしながら、自由にAIを用いることができます。
CanvaやAdobe Expressなど、AIサービスの基盤を成す「Stable Diffusion」
藤平:かなり多くのAIサービスがある中、Stable Diffusionがどのレイヤーのサービスなのかを理解するのは、AIに造詣が深い方じゃないと難しいかもしれません。というのも、Stable Diffusionはオープンソースのモデル(基盤)であり、UX/UIのある「アプリケーション」というわけではないですよね。
様々なAIサービス(特に画像生成系)の“バックエンド”で動いているという風に理解すると、概ね間違いないでしょうか?
ジェリー:そうですね。モデルを搭載したチャットボットも提供していますが、Stable Diffusionに関しては、バックエンドという表現をされることが多いです。
Stable Diffusionは、画像(動画)生成に特化した生成AIモデルで、これ自体はいわば数字の羅列のようなものです。世の中で提供されている様々なアプリやSaaSツールの基盤にStable Diffusionが使用されており、たとえばCanvaやAdobe ExpressなどでもStable Diffusionを使うことができます。
藤平:つまり、Stable Diffusionは「画像生成を実現するAI基盤技術」という位置づけで、様々な生成AIサービスと連携しているわけですね。だから、「オープンソース」を謳っていると。
ちなみに、画像生成AIサービスもいくつかある中で、その強さ・競争力はどんな要素の掛け算で決まるのでしょうか? Stable Diffusionの場合は、多くのサービスで使われているという“学習量”が強みになっているのかなと推察しますが。
ジェリー:生成AIモデルの強さは、「データ」「計算力」「技術力」の大きく3つの掛け算で決まってきます。データはおっしゃる通り学習量とその質が問われてくるところで、計算力と技術力に関しては、いかに優れた人材を確保できるか? いかに優れた形でモデルの改善を管理できるか? などが問われてきます。
計算力・技術力に関しては資本力も大きく関係してくるので、その意味ではビッグテックカンパニーが優位性を持つことが多いです。
藤平:なるほど。Stable Diffusionの位置づけや役割、可能性をようやく理解できたところで、本題である「実務においてどう活用できるのか?」という話題に入っていこうと思います。