【DALL-E 3】ChatGPTで画像生成できるDALL-E 3を使ってみました！使えます！

みなさんはDALL-E 3をご存じですか？

先日、OpenAI社から発表された最新の画像生成AIで、ChatGPTを使って画像を生成することができるんです！

DALL‐E 3 は、以前のシステムよりもはるかに多くのニュアンスや詳細を理解できるため、アイデアを非常に正確な画像に簡単に変換できます。

今回はDALL-E 3の概要や使い方、他の画像生成AIとの比較、OpenAIの公式リリース前からDALL-E 3を使う方法を紹介していきます。

DALL-E 3の活用事例について知りたい方はこちらの記事をご覧ください。

DALL-E 3とは

DALL-E 3は2023年9月21日にOpenAI社が公開した最新の画像生成AIです。DALL-E 3は、OpenAIによって開発された革新的な画像生成AIです。このシステムは、自然言語処理と画像生成の技術を組み合わせており、ユーザーが入力したテキストに基づいて、リアルで創造的な画像を生成することができます。この技術は、GPT-3という強力な言語理解モデルをベースにしており、非常に複雑な指示や抽象的な概念でも理解し、視覚化することが可能です。

そんなDALL-E 3の特徴は以下の4つです。

理解力：前のバージョンであるDALL・E2よりも、遥かに高いプロンプトのニュアンスや詳細を理解する能力を持っています。これにより、ユーザーのテキストプロンプトに正確に従った画像を簡単に生成できます。

ChatGPTとの統合：ChatGPT上でネイティブに構築されており、アイデアを提示すると、それをもとにアイデアを具体化する詳細な画像をChatGPTが自動的に生成します。

安全性：暴力的、成人向け、または憎悪的なコンテンツを生成する能力は制限されており、フェイクニュースなどに悪用されないために、公人などの名前を含むリクエストを拒否するといった対策も進められています。

クリエイティブコントロール：DALL-E 3で生成されたものの所有権はユーザー側にあるが、著作権侵害対策として、存命アーティストのスタイルでの画像のリクエストを拒否するように設計されています。

さらに、クリエーターは、将来の画像生成モデルのトレーニングから自分の作品の仕様を拒否することができます。

やはり、とても大規模で高性能なモデルであるため、多くの人が使用することが予想されています。したがって悪用されないための対策や、プロクリエイターの方を守るような対策を積極的に行っているようです。

DALL-E 3の性能

DALL-E 3の最大の特徴は、その驚異的な画像生成能力です。このAIは、具体的な物体やシーンだけでなく、感情や雰囲気を表現するような抽象的な概念まで捉えることができます。例えば、「秋の夕暮れに浮かぶ静かな湖」といった情景や、「未来都市の夜景」といった複雑なシナリオを、リアルで詳細な画像として生成することが可能です。

ここからは、実際にDALL-E 3で生成された画像と、DALL‐E2との比較を公式サイトや公式Xからの情報をもとに紹介していきます。

1. モダンな建物

A modern architectural building with large glass windows, situated on a cliff overlooking a serene ocean at sunset.

プロンプト和訳

夕暮れ時の穏やかな海を望む崖の上に建つ、大きなガラス窓を備えたモダンな建築の建物。

とっても綺麗な画像ですね！これをAIが生成したと思うと驚きです。

画像の内容も、プロンプトを忠実に再現したものになっており、それほど詳しく指定しなくても、高品質の画像を生成してくれることが分かります。

2. 人間の心臓

An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea.
Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within.
The quote 'Find the universe within you' is etched in bold letters across the horizon.

プロンプト和訳

嵐の海で台座の上に立っている半透明のガラスでつくられた人間の心臓のイラスト。太陽光線が雲を突き抜けて心臓を照らし、その中に小さな宇宙が見える。水平線の向こう側には、『Find the universe within you 』という言葉が太い文字で刻まれている

こちらは、かなり詳細で複雑な指定をしていますが、こちらも忠実に再現されており、かつとても詳細で綺麗な画像が生成されています。

DALL-E 3の認識能力の高さが伺えますね！

このような超高性能画像生成AIがChatGPTで簡単に使用できるので、他の画像生成AIは太刀打ちできないかもしれません。

次に、DALL-E 2からどれほど進化したのか示す比較を見ていきましょう。

以下のプロンプトを入力し、出力された画像です。

An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.

プロンプト和訳

星雲の爆発として描かれたバスケットボール選手のダンクを表現した油絵

【DALL-E 2】

【DALL-E 3】

こう見るとディテールが全然違いますよね！

どちらも正しくプロンプトを認識して画像を出力していますが、DALL-E 3は一つ一つの指定を忠実に高精細に表現しており、もはやアートのような感じさえあります。

これは一刻も早く自分で試してみたいので、早速使っていきましょう！

まずは使い方から説明します。

DALL-E 3の商用利用や著作権について

DALL-E 3のヘルプを見ると次のような記載があります。

コンテンツポリシーおよび利用規約に従う限り、DALL-Eで作成した画像の所有権はあなたにあります。これには、無料または有料のクレジットを通じて生成された画像に関係なく、再印刷、販売、商品化の権利も含まれます。

引用元：https://help.openai.com/en/collections/3643409-dall-e-content-policy

上記のことからDALL-Eで生成した画像については著作権はユーザー側にあり、商用利用も可能だということです。

そして、コンテンツポリシーには「AI の関与について視聴者を誤解させないでください。」「他人の権利を尊重します。」といった項目も存在します。

つまり「DALL-Eで生成したものは自由に使っていいけれど、生成する際には著作権などを考えて使ってください」ということですね。

ただし、Microsoft Bing Image Creatorは個人の非商業目的のみ利用可能で、商用利用不可となっていますのでご注意ください。

DALL-E 3の利用料金

DALL-E 3はChatGPTとMicrosoftのBing Image Creatorで使えます。

ChatGPTは月20ドル（約3,000円）のChatGPT Plusと、企業向けのEnterpriseの２つの有料プランでDALL-E 3を利用可能です。

Bing Image CreatorはMicrosoftアカウントがあればDALL-E3を無料で使えます。

ChatGPTに課金できない方は、Bing Image Creatorを使いましょう。

ただし、「DALL-E 3の商用利用や著作権」でお伝えしたとおり、Microsoft Bing Image Creatorは個人の非商業目的のみ利用可能で、商用利用不可なので気をつけてください。

DALL-E 3の使い方

DALL-E 3の基本的な使い方は非常にシンプルです。ユーザーはテキストボックスに具体的な記述や指示を入力し、そのテキストに基づいてAIが画像を生成します。このプロセスは、非常に直感的で、特別な技術的な知識は必要ありません。

それでは、DALL-E 3の使い方を解説します。

ChatGPT

ChatGPTは、自然言語処理を行うAIで、テキストベースの対話を通じて情報提供や質問に答えることができます。DALL-E 3と組み合わせることで、ユーザーはChatGPTに画像生成の指示を出すことができ、よりダイナミックなインタラクションが可能になります。

導入する際、特に難しいことはなく、GPT 4→DALL-E 3と選ぶと利用可能です。

ただし、ChatGPT Plusユーザー（月額20ドル）でなければなりません。

DALL-E 3が出てこない方は、ChatGPT Plusユーザーになりましょう。

プロンプトを入力し、しばらく時間が経つとこのように画像が出力されます！

Bing Image Creator

今すぐにDALL-E 3を使う方法はBingのImage Generatorを使うことです。Bing Image Creatorは、Microsoftが提供する画像生成ツールで、DALL-E 3と同様の機能を持っています。このツールもまた、テキスト入力に基づいて画像を生成することができ、ウェブやアプリケーションでの使用が可能です。

Bingでの使い方は非常に簡単で、以下のImage Creatorのサイトにアクセスし、Microsoftアカウントでログインする事で利用できます。

Bing

BingBing のインテリジェント検索機能により、探しているものをより簡単にすばやく見つけられるようになり、リワードも得られます。

アクセスしてログインすると以下のような画面になります。

赤枠の部分にテキストプロンプトを入力すると画像を生成してくれます。

日本語にもしっかり対応しているようです！

ChatGPTと違って無料で使えるので、ChatGPTの有料プランに入っていない方やDALL-E 3だけを目当てに有料プランに入会する予定の方は、こちらを使った方がよさそうです。

DALL-E 3のAPIを経由して利用する手順

次にAPI経由でDALL-E 3を動かす手順についても紹介していきます。ちなみに今回はGoogle Colabのpython環境上にて、DALL-E 3を使ってみました。

ではさっそく、APIキーの発行からみていきましょう！

OpenAIアカウントからAPIキーを発行

まずはOpenAIのアカウントを使って、APIキーを発行していきます。手始めに以下のリンクから、発行用の画面に移動してください。

OpenAI PlatformのAPI発行画面

ここからログインすると、以下のような画面が表示されます。

次はグレーのボタン「＋ Create new secret Key」をクリック！するとNameの画面が出てくるので、APIに付けたい名前を入力してください。入力を終えると……

APIキーが発行されましたね。あとはAPIキーの右側、緑色の部分をクリックするとコピーができます。

必要なライブラリをインストール

続いて、Pythonの実行環境（今回はGoogle Colab）での操作に移ります。

PythonでDALL-E 3を含むOpenAIのモデルを使いたい場合、以下のライブラリ&モジュールが必要です。

OpenAI Pythonライブラリ / openai
OSモジュール / os
getpassモジュール / getpass

この３つのうち、OpenAI Pythonライブラリはデフォルトで入っていないはず。ということで下記のコードを実行して、インストールしてみましょう！

!pip install openai

このようにインストールが終われば、実行環境側での下準備は完了です。

API キーの設定

もうひとつ、DALL-E 3を使う直前に必要な準備を紹介します。

というのは、実行環境側でのAPIキーの設定です。まずは下記のコードを実行してください。

import os
import getpass
os.environ["OPENAI_API_KEY"] = getpass.getpass('OpenAI API Key:')

実行するとプロンプト「OpenAI API Key:」が返ってきます。

ここで先ほどのAPIキーを入力してEnterを押せば、連携が完了します。

DALL-E 3を呼び出して画像を生成

さてここからは、python環境上でDALL-E 3を動かしていきます。

まず下記のコードについて、プロンプト・画像サイズ・画像の品質・生成回数を指定して、実行するのですが……

from openai import OpenAI
client = OpenAI()

#プロンプト・画像サイズ・画像の品質・生成回数を指定
response = client.images.generate(
  model="dall-e-3",
  prompt="プロンプトを指定",
  size="画像サイズを指定",
  quality="画像の品質を指定",
  n=1,
)

image_url = response.data[0].url
print(image_url)

DALL-E 3では、指定できる画像サイズ・画像の品質・生成回数が決まっています。詳細は以下をご覧ください。

DALL-E3で選べる設定

画像サイズ / size：1024×1024 / 1024×1792 / 1792×1024
画像の品質 / quality：standard / HD
生成回数 / n：1回

先ほどのコードを実行すると画像が生成され、URLで返ってきます。これにてAPI経由でのDALL-E 3の使い方の説明は終わりです。

次の項目では、実際にChatGPTからDALL-E 3を動かしていきます。先代DALL・E2から進化した、その実力をご覧あれ。

ChatGPTでDALL-E 3を使って画像生成してみた

ChatGPTのDALL-E 3はPCブラウザとスマホアプリの両方で使うことができます。ここではそれぞれのデバイスでDALL-E 3を使い、画像生成を行いました。

ブラウザ版ChatGPTのDALL-E3で画像生成してみた

実際にChatGPTでDALL-E 3を使い、プロンプトを入力して画像を出力してみます。

以下のようなChatGPTのプロンプトを入力しました。

黒髪ショートの日本人女性

すると、この内容から、DALL-E 3は２つ（以前は４つでした）の画像を出力してくれました。

水彩画にスタイルを変えて描いてもらいました。

生成される画像は、リアル風 / アニメ・イラスト風 / CG風、と調整も可能です。

DALL-E 3で作られたAI画像は商標利用可かつ著作権フリーのため、AI美女をまとめた本をコンテンツとして売ることもできます。

スマホでChatGPTのDALL-E3で画像生成してみた

次に、スマホ版のChatGPTにてDALL-E3を使って画像を生成してみました。

queenに合うティアラつきのライオンの絵を描いて

「モンスターハンターnow」（ゲーム）の絵を描いて

これだとイメージが違うので工夫しました。一度、もとになる絵

をDALL-E3に読み込ませ絵をテキスト化してから再挑戦しました。

↓もとになった絵

「Monster Hunter NOW」というタイトルのゲームの広告またはスプラッシュスクリーンを表示する画像です。ビジュアルは、それぞれ異なる鎧と武器を装備したゲームのキャラクターのグループを特徴としています。これは、プレイヤーが生き物を狩り、それらからリソースを使用して新しいギアを作ることができるモンスターハンターシリーズの特徴です。キャラクターは、建物の目に見えるシルエットを持つ様式化された日没の空を背景に設定されています。