Недавно я делал обзор по текстовым моделям, а теперь — визуал! Всё основано на моём практическом опыте и сотнях картинок. Ваше эстетическое чувство может быть другим, но вот мой топ и их краткое:
🥇 ТОП-модели
1. Flux (семейство моделей от Black Forest Lab - BFL)
Flux Pro Ultra 1.1 — на данный момент самая фотореалистичная модель. Используя параметр raw, можно получить максимально реалистичные и естественные фото.
* PRO — стабильное качество. Полностью закрытая модель.
* DEV — дешевле, качество возможно при подборе промптов. Открытая некоммерческая модель (если использовать на своём сервере, а не на replicate/fal/freepik, то BFL требует 40% прибыли)
* Schnell — модель с лицензией на коммерческое использование (можно поставить на свой сервер без оплаты), но очень слабая. Поэтому сообщество дотренировало её множества кастомных моделей более достойных моделей (Flex, Chroma и др.)
* PRO: только через API Black Forest Labs, максимум 1000 шагов (результат не понравился)
* DEV/Schnell и производные модели поддерживают лоры, тренировать можно локально, на Replicate (дешевле), Fal (дороже) или Krea (нельзя скачать веса). Тренировка от 2-3 минут.
* Flux Kotext: позволяет по текстовому промпту менять фон, погоду, возраст, добавлять/убирать предметы, переносить одежду и лицо по 1 фото (не идеально).
Black Forest Labs, Replicate, Fal.ai, Krea.ai
От 2 до 6 центов за картинку
2. Midjourney V7
Самая эстетичная модель. По умолчанию делает киношную картинку, люди выглядят как фотомодели.
* Актуальны подвиды V6 и сама V7, есть возможность настройки параметров для большего реализма, хаотичноссти, детализации и так далее
* Лор нет, вместо этого можно натренировать свою стилистику-настройку или использовать чужую.
* Omni-reference: перенос предметов и людей по одному фото.
* Смена стиля, замена фона, добавление и удаление объектов.
Через сайт, Discord и сторонние сервисы (например, apiframe), API нет.
От 3-4 центов (на relax-режиме на V6.1 можно генерировать сколько угодно).
3. Imagen v4
Закрытая модель с отличным соотношением цена/качество, чем-то средним между Flux и Midjourney. Раньше генерила чернокожих индейцев и все над этим смеялись, сейчас стабильное качество.
* Отлично слушается промпта, стабильное качество.
Есть на fal.ai и replicate, а также по официальному API от Google
2,4,6 центов (fast/regular/ultra)
4. Recraft v3
Создана бывшей сотрудницей Яндекса, заточена под дизайнеров — генерация маскотов, логотипов, рисованных картинок, 3D-объектов.
* 50 бесплатных генераций каждые 3 часа.
* Огромное количество разных стилей для дизайнерских задач.
Есть на сайте, в fal.ai и replicate. Доступна по API, но закрытая.
📌 Крепкие середняки
5. Ideogram v3
Модель всегда пытающаяся догнать Midjourney, даёт достаточно хорошее качество.
* Turbo, Balanced, Quality (закрытые)
* Реализм и креативность.
* Изменение фона, добавление и удаление объектов.
* Возможность создать свой стиль как Midjourney
На сайте Ideogram, fal.ai и replicate по API.
3,6,9 центов (Turbo/Balanced/Quality)
6. Krea-1
Закрытая авторская модель, по сути дообученный Flux. По эстетике чуть похожа на Midjourney. Переодически зачем-то генерит топлесс девушек (да-да, доступно НЮ!)
* Поддерживает свои flux-лоры (создаваемые в Krea).
* 12 бесплатных фото в день.
7. HiDream
Китайская open-source модель, аналог Flux. Сложнее натренировать, но для предметки даёт качество лучше. В целом чуть более богатая картинка.
* Поддерживает тренировки лор (нередко качественнее Flux).
* Можно тренировать на fal.ai.
Похож на Flux, иногда даже лучше в детализации. Но нужно уметь хорошо промптить, иначе будет пластиковая кожа.
1/3/6 центов (Fast/Dev/Full)
8. Reve
Знает Россию и её эстетику — реально генерит Пятёрочку, Сбербанк, отечественные объекты и даже известных личностей. Но арсенал функций очень маленьки
* Очень хорошо слушается промпта
* Генерирует известных личностей и российские объекты (но не тексты)
* 20 бесплатных генераций ежедневно.
Арсенал функций ограничен, часто галлюционирует
9. GPT-Image/Sora
Авторегрессионная модель, умеет генерировать русский текст, известных лиц, хорошо слушается промптов.
* Высокое следование промпту.
* Генерация русского текста и известных лиц.
Эстетика простая, часто "желтизна" или коричневый фильтр по умолчанию. При этом картинку делает чересчур как в жизни — с большим количеством человеческого несовершенства.
По подписке GPT и по API.
Входит в подписку GPT. В API от 4 до 18 центов!
10. Кандинский
Российская модель от Сбера, генерирует советских и российских персонажей.
* Хорошо генерит чебурашку, Гагарина, русские образы.
* Также в Gigachat можно неплохо редактировать изображение по промпту, что даже не сильно уступает Flux Kotext
Низкие детализация и реализм.
🔸 Другие (коротко):
* Stable Diffusion — классика, есть лоры, только чаще всего хуже Flux.
* Phoenix 1.0 — сносная дообученая Flux модель от Leonardo AI
* Seedance (Bytedance) — неплохой реализм, но пока очень скудный арсенал дополнительных функций
* Runway: Подходит только для перенос персонажа или предмета в фото
* Kolors (Kling), Photon (Luma), Buget (авторегрессия), Sana (Nvidia), Image-1 (Minimax), Шедеврум: В основном для галочки, серьёзно использовать не вижу смысла.
🔖 Какую модель брать?
* Подходит для всего: Flux Pro, Imagen 4, меньше Ideogram
* Для обучения своих лор: Flux, или HiDream, если заморочиться
* Для эстетики: Midjourney, Krea-1
* Для русских задач: Reve, Кандинский, GPT-Image
* Для быстрых экспериментов и интеграций: Imagen и Flux на fal/replicate (библиотека стилей и низкая цена).
Промпт для сравнения картинок из сетов выше
low angle photo of a stylish woman staring down into the lens, wooden mask held beside her face in one hand, editorial fashion photography, sharp details, photorealistic, full body or bust-up, neutral tones, soft studio light or overcast daylight
P.S. Важно — лучшие модели всегда зависят от вашей задачи и эстетики, поэтому пробуйте и сравнивайте сами.
P.P.S. По-прежнему все модели переодически делают 6 пальцев или галлюцинируют иначе, панацеи нет
Мой тг-канал по ии-стартапам, вайб-коду и генеративному ИИ