Что такое Dall-E 3
Dall-E 3 — модель генерации изображений по текстовому описанию, разработанная компанией OpenAI. Графическая нейросеть обучена на более чем 500 миллионах изображений, что позволяет ей создавать рисунки в разных стилях.
Нейросеть стала доступна для общего пользования только в сентябре 2023 года, до этого воспользоваться ей можно было только через список ожидания. Сейчас создать изображения можно бесплатно через Bing Image Creator или же в платной подписке ChatGPT.
Также до сих пор существует упрощенная версия — Dall-E mini, выпущенная весной 2021 года. Она позволяет сгенерировать изображения среднего качества и в маленьком размере.
Как работает Dall-E 3
В основе Dall-E 3 лежит модель глубокого обучения — генеративная контрактивная сеть. Она состоит из двух основных компонентов: генератора и дискриминатора. Генератор создает изображения, а дискриминатор оценивает их качество. Процесс обучения происходит во время создания изображения — генератор стремится создать такие сцены, которые дискриминатор не сможет отличить от настоящих изображений.
Отличия от Dall-E 2
Сам принцип работы остался таким же, как и раньше, но предшественник графической нейросети отстает по многим параметрам: качество генерации, детализация, работа с текстом и другие факторы.
Основное отличие версий в том, что Dall-E 3 за несколько лет успела обучиться на большом массиве информации, что позволяет ей допускать меньше ошибок. Например, она лучше распознает эмоции и добавляет меньше артефактов.
Также в версиях изменился подход к созданию промптов: раньше нейросеть боялась больших запросов и не могла обработать их полностью, забывая важные детали. Сейчас промпт может содержать все подробности, а также Dall-E 3 сам перепишет его для лучшего понимания генератора.
Еще одно значимое отличие версий — работа с текстом. В предыдущей версии нейросеть не могла генерировать слова с правильным написанием, поэтому создание комиксов или постеров было невозможным. Сейчас это исправлено и Dall-E 3 может создать плакат с фразой или изображение с дополнительными плашками под текст.
Особенности создания промпта
Основная особенность графической нейросети Dall-E 3 — создание изображений на основе текста, а если точнее — промпта, описания с четким запросом на генерацию. Можно написать случайные слова, но результат будет лучше, если промпт составлен по правилам.
- Выберите основу. Для начала нужно определить цель и понять, что именно вы хотите сгенерировать: человека, пейзаж, абстракцию, анимацию или же аниме-персонажа.
- Укажите стиль. Важно прописать, в каком стиле должно быть изображение — анимация, скетч, 3D, стиль любимого художника или что-то другое. Также можно прописать цвета изображения.
- Пропишите основные и второстепенные объекты. Здесь вы можете указать все объекты, которые хотите увидеть.
На этом создание промпта можно прекратить, так как нейросеть обладает навыком доработки запроса — она сама переписывает его так, чтобы алгоритму было понятно, что вы хотите получить.
Важно, что Dall-E не может сгенерировать изображения, которые содержат насилие или находятся «на грани» — повреждения человеческого тела, насилие, разрушения, эротические изображения. Также у нейросети есть запрет на создание знаменитых личностей и повторение стиля известных творческих деятелей за последние 100 лет — это связано с авторским правом.
Пример промптов для Dall-E 3
Разберем примеры двух промптов для генерации изображения: подробный с описанием деталей и краткий.
Первый промпт, который мы решили использовать, звучал так: «Создай изображение природы и восходящего солнца над горами. В центре кадра должна быть высокая гора, покрытая снегом. Солнце должно находиться чуть выше горизонта, озаряя небо яркими лучами, создавая оранжево-розовое отражение на облачном фоне. Внизу кадра должен быть лес, окружающий горы. В сцене должен чувствоваться покой и умиротворение».
В итоге получилось такое изображение, как мы и запросили. В доработке оно не нуждается.
С другой стороны, краткий промпт для генерации изображения не структурирован. Он не указывает на конкретные элементы или сюжет и оставляет все на усмотрение генератора. В результате изображение, созданное из такого промпта, может быть беспорядочным, что не будет соответствовать ожиданиям пользователя.
бесплатный проект
бесплатный проект
Дизайн-волна — ваше экспресс-погружение в дизайн-профессии. Участвуйте в эфире с экспертами, выполните несложные практические задания и получите подарки.
зарегистрироваться
Как пользоваться Dall-E 3
Шаг 1. Перейдите на страницу Bing Image Creator.
Шаг 2. Войдите в свой профиль Microsoft или зарегистрируйтесь, если у вас его нет.
Шаг 3. Напишите запрос в поле и нажмите «Создать» или кликните на кнопку «Удиви меня» — в этом случае нейросеть сама напишет промпт. В день можно создать неограниченное количество генераций, но сделать быстро получится только 15. После этого нейросеть начинает обработку медленнее, чтобы снизить нагрузку на сервера.
Шаг 4. По запросу генерируются три или четыре изображения. Каждое изображение создается в формате 1024 × 1024 пикселя. Поменять соотношение сторон или разрешение нельзя. Чтобы сохранить, нажмите на понравившийся результат и выберите «Загрузить».
Минусы нейросети Dall-E 3
- Ограниченная точность. Нейросеть Dall-E 3 все еще может создавать изображения с некоторыми артефактами и искажениями. Например, у человека могут быть три глаза или рука с шестью пальцами.
- Нельзя генерировать знаменитостей и картинки в стиле художников, живших в последние сто лет. Решение было принято после судебных процессов, инициированных художниками.
- Размер изображений. Итоговая генерация выдается в формате 1024 × 1024 пикселя, увеличить ее нельзя.
- Нет функций INPAINT и DeepFace. Нейросеть не позволяет изменить детали на генерациях и менять лица.
Отличие Dall-E 3 от MidJourney и Stable Diffusion
| Dall-E 3 | MidJourney 5.2 | Stable Diffusion XL |
Качество изображения | Высокое | Очень высокое | Высокое |
Скорость генерации | Средняя, ограничена 15 «ускорениями» в день | Высокая | Низкая, так как изображения требуют детальной проработки |
Поддержка форматов | Растровые изображения | Растровые и векторные изображения | Растровые и векторные изображения |
Производительность | Средняя | Высокая | Низкая |
Легкость в использовании | Легко, можно пользоваться без умения писать промпты | Средне, нужно знать правила написания промпта | Сложно, нужно прописывать все детали для точной генерации |
Цена | Бесплатно через Bing, платно через ChatGPT | Платно, от 8 до 96 долларов в месяц | Бесплатно через консоль с вводом кода, есть платные функции в веб-версии |
Всё о дизайне за 2 часа
Всё о дизайне за 2 часа
Бесплатный практикум + гайд "300 полезных ресурсов для дизайнера" после регистрации
Участвую