Napkin AIのテクノロジーの特徴
Napkin AIの特徴は、従来のグラフィックデザインツールとは一線を画す独自のアプローチにある。同社は4つのAIエージェントを組み合わせたシステムを採用し、ユーザーのニーズに応える高品質なグラフィックを生成する仕組みを確立した。
システムの中核を担うのは、OpenAIのGPT-4o miniをベースとしたオーケストレーターLLMだ。オーケストレーターLLMとは、複数のLLM(大規模言語モデル)や関連するAIツールを統合・制御する役割を持つシステムやフレームワークのことを指す。
このLLMがユーザーの入力を解析し、4つのサブエージェントに適切な指示を与える。具体的には、テキスト、レイアウト、アイコン・イラスト、スタイルの各エージェントが連携して作業を進める仕組みとなっている。
まず、テキストエージェントがデザインに使用するテキストの提案を行う。次に、レイアウトエージェントがそのテキストを分析し、最適なデザインレイアウトを決定。アイコン・イラストエージェントは、データベースから適切なアイコンを選択するか、必要に応じて新しいアイコンを生成する。最後に、スタイルエージェントが企業のカラーや独自のスタイルを適用して、最終的なデザインを完成させる。驚くべきなのは、一連のプロセスに要する時間が、わずか数秒ほどである点だ。
画像生成AIとは異なるアプローチを採用している点も特筆に値するだろう。MidJourneyやStable Diffusion、Runway、Ideogramなどが採用するディフュージョンモデルは、高品質な画像生成を得意とするものの、パイチャートのスライスやテキストなど、個別の要素を編集することが困難だ。一方、Napkin AIは独自のレンダリングエンジンを採用することで、これらの要素を容易に編集できる機能を実現した。

直近では、スタイルをカスタマイズできる機能を実装。これによりブランド企業は、一貫したフォントやカラーで、グラフィックスを生成できるようになった。