2023年10月にAdobeの画像生成AIであるFireflyがバージョン2を発表し、利用できるようになりました。使ってみたところ、たしかに以前のバージョン1からより品質の高い画像が生成できるようなっているようです。
一方、ChatGPTを提供するOpen.aiでは画像生成AIのDALL-E 3があり、こちらも高品質な画像を生成します。
そこで、両者を同じような画像で生成した時、どのような違いが生まれるのか比較してみました。
目次
Firefly2 ではより高品質な画像が生成できるように
公式発表にある通り、Fireflyバージョン2では画像品質の改良が行われました。具体的には以下の通りです。
- 世界中のシンボルやランドマークといった知識をより持つようになり、以前よりも長いプロンプトで画像生成をコントロールできる
- 手や体の構造を改善し、特に肌、髪、目、多様性が改善された人物画像生成をサポート
- 色彩が向上し、豊かなダイナミックレンジを表現
- コンテンツタイプを自動的に解釈し、プロンプトに適した画像を写真またはアートから選択する
- 深度のコントロール、4メガピクセル出力、構図をコントロールする写真設定など、より優れた写真品質をサポート
Firefly1 と Firefly2の品質の違い
どのくらい品質が良くなったかというと、上記ページ内にある画像がとてもわかりやすいため紹介します。
左は人間というのは認識できるものの、顔が潰れて腕が不自然です。一方、右は顔がキレイに生成され、体全体に不自然なところは見当たりません。髪の感じは本物と見分けがつかない程度のクオリティです。これは期待できそう!
DALL-E 3とFirefly 2の画像生成を比較
DALL-E 3のことは以前ご紹介しました。
果たしてDALL-E 3とFirefly 2 ではどちらのほうが画像生成品質が上なのでしょうか?今回色々なプロンプトで試してみました。
ちなみに、Firefly2はまだベータ版となり、現在は言語を英語にしておくことでAdvanced Settingが有効となるようなので今回は言語を英語に設定しています。
人物が含まれる画像はDALL-E 3が優位
公園で遊ぶ親子の画像を生成してもらいました。まずはDALL-E3から。
写真を見ていただくと分かる通り、高品質で体の一部が変、といったことは無し。このまま使えそうなくらいですね。
ではFirefly2でも同様のプロンプトで生成します。
人物の画像生成品質が向上したとアナウンスがあったわりには、まだDALL-E3には及ばないと感じました。
人物部分について比較をまとめます。あらゆる点においてDALL-E3の方が優秀。
DALL-E3 | Firefly2 | |
顔 | 表情まで読み取れる | 問題ないレベルと不自然な場合が入り交じる |
髪 | 基本的に写真と変わらないくらい高品質 | まれに境界が不自然な場合がある |
手・腕・足 | 血管や骨格、光の当たり具合まで考慮されている | まれに指が足りなかったり、重なっている部分や境界が不自然な時がある |
動き | 早く動いている場所はボケかかっていたり、影があったりと写真から動きが伝わってくる | 良くも悪くもその場を切り取ったような画像 |
イラスト系は「会話形式で推敲していくDALL-E3」「微調整のできるFirefly2」と目的によって変わる
次に、イラスト系の画像を生成します。渋谷の様子をイラストにしてもらいます。まずはDALL-E3。
基本的に高品質です。そしてChatGPTを利用しているため、生成された画像に対してあれこれ注文を付ける形でイラストを推敲して仕上げられるのが強みです。これはFireflyではできないですから。文字列は日本語が表示されていないためよく見ると不自然ですが、雰囲気は伝わってくるイラストになっています。
Firefly2でも同じプロンプトで作ってみます。
一方Filrefly2ではそこまで渋谷らしさは出ていないものの、生成された画像に対してパラメータを調整して色々な画像を生成できるフローのため、予期していないような様々な画像を作ってくれます。これにより「こんな感じ、いいかも!」というような画像への出会いがあるのは楽しいですね。
生成された画像に対して一部を消して馴染ませたり、指定した別の画像に変換したりできる
また、AdobeのGenerative fill機能を使って生成された画像に対して編集できる機能があります。例えば、不要な部分を消した上で、周辺の画像に合わせたい時です。
さらに、生成した画像に特定の何かを挿入したい場合、なんとそれが可能に!
Photoshopでは既に実装されていた機能ですが、これがブラウザ上でもできているようになっていました。すごいスピード感……。
このように、Firefly2にはDALL-E3にない機能があります。そのため単純比較は少し難しいですが、感じた部分を列挙します。
DALL-E3 | Firefly2 | |
生成品質 | 高品質で十分に使えるレベル | 場合によっては品質クオリティが足りないと思うケースもあり |
スタイルのバラエティさ | 用途にあったスタイルを指定することで作成可能 | プロンプトに指定する方法と、パラメータを調整する方法があり、色々な画像を作成できる |
生成後に画像に対しての修正 | 生成した画像自体に微調整を加えることはできないため、ChatGPTに都度リクエストが必要でその度に画像が毎回生成される | 生成した画像に対して不要な部分を削除したり、別のものに置き換えたり、追加変更することができる |
生成画像の管理 | ChatGPTの履歴に残るため、容易に遡れ、さらに一連のチャットURLを生成して簡単に共有することが可能 | 毎回生成していくため、過去に生成した画像にアクセスできない上に、残したい画像は都度ダウンロードが必要 |
ロゴ生成などテキストが含む場合はDALLE-3が優位
最後に、ロゴ作成をお願いしてみました。テキストが含まれるため生成能力が問われる作業ですね。プロンプトは「「high five create」という会社ロゴを作成してください。イメージはおまかせします。」としました。
まずはDALL-E3から。
小文字でプロンプトをいれたものの、ロゴ用ということ大文字に変換してくれました。一つは間違っていましたがスペルもあっており、ハイタッチするロゴを生成していて意味合いも合っています。ここまでの生成力とは思わず驚き!
同じくFirefly2にて。
Firefly2ではいずれもスペルミスでした。デザイン性は背景まで含めてデザインしているため、見た瞬間はクオリティが高いと感じるものの、このままロゴとしての利用はできません。好みの問題もあると思いますが、DALL-E3の方が優れていると感じました。
一方、インスピレーションのサポートという意味で利用する分には全く問題なく利用できるため、クリエーターがアイデア出しの一貫として利用する価値はあるでしょう。
以下、比較表です。
DALL-E3 | Firefly2 | |
テキストの再現力 | スペルミスもあったが、間違いなく生成できた | スペルミスが発生のためテキスト処理はまだできていない |
生成品質 | テキストを理解してロゴとして作成することができる | テキストの意味の理解度はまだ発展途上 |
ロゴとして利用できるかどうか | 少々の手直しでロゴとして利用できる | 背景までデザインされているため、ある程度の手直しが必要 |
目的に応じた使い分けが今のところ最適
以上、DALL-E 3とFIrefly 2 の画像生成の比較でした。今回は生成した画像ジャンルが限られていましたが、それぞれ得意分野や領域、使い方があるため、目的に応じた使い分けがいいでしょう。
総じて、ChatGPTを利用したDALL-E 3というのは会話形式で画像生成ができるため、とてもやりやすかったです。文句を一切言わないアシスタントに指示を出し、次々に画像を生成してくれるというのは今までになかった感覚です。
DALL-E 3 は現時点ではまだChatGPT Plusユーザー向けとなり有料課金が必要です。一方、Firefly2はベータ版でAdobeアカウントがあれば無料で利用することができるようです。まだの方はぜひ触ってみることをおすすめします!
コメントを残す