обзор самых востребованных
дизайн-профессий в 2024 году

Dall-E 3 — что это за нейросеть и как пользоваться

Dall-E 3 — что это за нейросеть и как пользоваться
13 февраля, 2024
5 мин

Dall-E 3 — самая доступная из существующих графических нейросетей. Она бесплатна, не требует мощного компьютера для генерации и самостоятельно дорабатывает промпты. В статье рассказываем, как ей пользоваться. 

Что такое Dall-E 3

Dall-E 3 — модель генерации изображений по текстовому описанию, разработанная компанией OpenAI. Графическая нейросеть обучена на более чем 500 миллионах изображений, что позволяет ей создавать рисунки в разных стилях.

Нейросеть стала доступна для общего пользования только в сентябре 2023 года, до этого воспользоваться ей можно было только через список ожидания. Сейчас создать изображения можно бесплатно через Bing Image Creator или же в платной подписке ChatGPT.

Также до сих пор существует упрощенная версия — Dall-E mini, выпущенная весной 2021 года. Она позволяет сгенерировать изображения среднего качества и в маленьком размере.

Коллекция «Вдохновение»
Коллекция «Вдохновение» в Dall-E mini. Источник 

Как работает Dall-E 3 

В основе Dall-E 3 лежит модель глубокого обучения — генеративная контрактивная сеть. Она состоит из двух основных компонентов: генератора и дискриминатора. Генератор создает изображения, а дискриминатор оценивает их качество. Процесс обучения происходит во время создания изображения — генератор стремится создать такие сцены, которые дискриминатор не сможет отличить от настоящих изображений.

Промпт Dall-E
Промпт: «Портрет молодой девушки, стиль реализм, размытый футуристичный фон, студийное качество»

Отличия от Dall-E 2 

Сам принцип работы остался таким же, как и раньше, но предшественник графической нейросети отстает по многим параметрам: качество генерации, детализация, работа с текстом и другие факторы. 

Основное отличие версий в том, что Dall-E 3 за несколько лет успела обучиться на большом массиве информации, что позволяет ей допускать меньше ошибок. Например, она лучше распознает эмоции и добавляет меньше артефактов. 

Также в версиях изменился подход к созданию промптов: раньше нейросеть боялась больших запросов и не могла обработать их полностью, забывая важные детали. Сейчас промпт может содержать все подробности, а также Dall-E 3 сам перепишет его для лучшего понимания генератора. 

Еще одно значимое отличие версий — работа с текстом. В предыдущей версии нейросеть не могла генерировать слова с правильным написанием, поэтому создание комиксов или постеров было невозможным. Сейчас это исправлено и Dall-E 3 может создать плакат с фразой или изображение с дополнительными плашками под текст. 

Особенности создания промпта 

Основная особенность графической нейросети Dall-E 3 — создание изображений на основе текста, а если точнее — промпта, описания с четким запросом на генерацию. Можно написать случайные слова, но результат будет лучше, если промпт составлен по правилам. 

  1. Выберите основу. Для начала нужно определить цель и понять, что именно вы хотите сгенерировать: человека, пейзаж, абстракцию, анимацию или же аниме-персонажа. 
  2. Укажите стиль. Важно прописать, в каком стиле должно быть изображение — анимация, скетч, 3D, стиль любимого художника или что-то другое. Также можно прописать цвета изображения. 
  3. Пропишите основные и второстепенные объекты. Здесь вы можете указать все объекты, которые хотите увидеть. 

На этом создание промпта можно прекратить, так как нейросеть обладает навыком доработки запроса — она сама переписывает его так, чтобы алгоритму было понятно, что вы хотите получить. 

Важно, что Dall-E не может сгенерировать изображения, которые содержат насилие или находятся «на грани» — повреждения человеческого тела, насилие, разрушения, эротические изображения. Также у нейросети есть запрет на создание знаменитых личностей и повторение стиля известных творческих деятелей за последние 100 лет — это связано с авторским правом. 

Пример промптов для Dall-E 3

Разберем примеры двух промптов для генерации изображения: подробный с описанием деталей и краткий. 

Первый промпт, который мы решили использовать, звучал так: «Создай изображение природы и восходящего солнца над горами. В центре кадра должна быть высокая гора, покрытая снегом. Солнце должно находиться чуть выше горизонта, озаряя небо яркими лучами, создавая оранжево-розовое отражение на облачном фоне. Внизу кадра должен быть лес, окружающий горы. В сцене должен чувствоваться покой и умиротворение». 

В итоге получилось такое изображение, как мы и запросили. В доработке оно не нуждается. 

Пример изображения по промпту Dall-E
Изображение по заданному промпту 

С другой стороны, краткий промпт для генерации изображения не структурирован. Он не указывает на конкретные элементы или сюжет и оставляет все на усмотрение генератора. В результате изображение, созданное из такого промпта, может быть беспорядочным, что не будет соответствовать ожиданиям пользователя.

Пример по промпту Dall-E
Промпт: «Нарисуй гору на восходе солнца, снег, розовый цвет»

Как пользоваться Dall-E 3

Шаг 1. Перейдите на страницу Bing Image Creator. 

Как пользоваться Dall-E 3-1

Шаг 2. Войдите в свой профиль Microsoft или зарегистрируйтесь, если у вас его нет.

Шаг 3. Напишите запрос в поле и нажмите «Создать» или кликните на кнопку «Удиви меня» — в этом случае нейросеть сама напишет промпт. В день можно создать неограниченное количество генераций, но сделать быстро получится только 15. После этого нейросеть начинает обработку медленнее, чтобы снизить нагрузку на сервера. 

Как пользоваться Dall-E 3-3

Шаг 4. По запросу генерируются три или четыре изображения. Каждое изображение создается в формате 1024 × 1024 пикселя. Поменять соотношение сторон или разрешение нельзя. Чтобы сохранить, нажмите на понравившийся результат и выберите «Загрузить».

Как пользоваться Dall-E 3-4

Минусы нейросети Dall-E 3

  1. Ограниченная точность. Нейросеть Dall-E 3 все еще может создавать изображения с некоторыми артефактами и искажениями. Например, у человека могут быть три глаза или рука с шестью пальцами. 
  2. Нельзя генерировать знаменитостей и картинки в стиле художников, живших в последние сто лет. Решение было принято после судебных процессов, инициированных художниками. 
  3. Размер изображений. Итоговая генерация выдается в формате 1024 × 1024 пикселя, увеличить ее нельзя. 
  4. Нет функций INPAINT и DeepFace. Нейросеть не позволяет изменить детали на генерациях и менять лица. 

Отличие Dall-E 3 от MidJourney и Stable Diffusion

Dall-E 3MidJourney 5.2Stable Diffusion XL
Качество изображенияВысокоеОчень высокоеВысокое
Скорость генерацииСредняя, ограничена 15 «ускорениями» в день ВысокаяНизкая, так как изображения требуют детальной проработки 
Поддержка форматовРастровые изображенияРастровые и векторные изображенияРастровые и векторные изображения
ПроизводительностьСредняяВысокаяНизкая
Легкость в использованииЛегко, можно пользоваться без умения писать промпты Средне, нужно знать правила написания промптаСложно, нужно прописывать все детали для точной генерации 
ЦенаБесплатно через Bing, платно через ChatGPTПлатно, от 8 до 96 долларов в месяц Бесплатно через консоль с вводом кода, есть платные функции в веб-версии

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Читайте также

Подпишитесь сейчас на нашу рассылку

Мы присылаем отличные материалы и никогда не спамим. Отписаться можно в любой момент