Почти три года назад я попросил одну из нейросетевых моделей нарисовать мне картинки по запросам «безумный французский учёный», «безумный немецкий учёный» и «безумный русский учёный». Тогда и мне, и подписчикам результат действительно показался крутым. Я пообещал повторить опыт в будущем, о чём мне не преминули напомнить в комментариях)
Если бы дети развивались с той же скоростью, что и нейронки, то в год они бы агукали и пускали слюни, в два — научились читать и поступили в школу, а в три — защитили кандидатскую по математике, выпустили свой альбом и открыли персональную выставку. Тем интереснее посмотреть, каким путём нейросети к этому пришли и какие интересные особенности «творческого стиля» проявлялись у них на разных этапах развития.
Самую первую тройку изображений я создал с помощью CLIP Guided Diffusion HQ. Сейчас это кажется абсурдным, но на мутную картинку шириной 256 пикселей уходило больше получаса!
Безумные учёные от CLIP Guided Diffusion HQ (середина 2021)
Иной по стилю результат получался при использовании VQGAN+CLIP. Эта сеть всегда работала по одному шаблону: в центре фигура учёного, рядом один или несколько флажков соответствующей страны, а вокруг — много мелкой фигни, похожей на пробирки и формулы.
Безумные учёные от VQGAN+CLIP (середина 2021)
С трудом, но угадываются характерные атрибуты, которые мы потом встретим ещё не раз: у француза это изящные усики, у немца — тяжёлая челюсть, а у русского — особо пышная седая шевелюра и суровое выражение лица.
Более разнообразные картинки выдавала Stable Diffusion. При этом она, как ребёнок, всегда старалась подписать свои шедевры.
Безумные учёные от Stable Diffusion (июль 2022)
Midjourney на фоне всего этого оказался большим шагом вперёд. Конечно, его ранние генерации (до версии 3 включительно) сейчас тоже смотрятся наивно, но в них была своя прелесть. Композиция максимально простая — просто лицо учёного крупным планом в анфас. Явно заметно, что обучающая выборка была небольшой: про учёных нейронка знала только то, что они должны быть в очках и в белом халате, а про безумие — то, что его сопровождает шухер на голове.
С национальными особенностями было ещё забавнее: сеть не столько пыталась выявить характерные черты внешности каждой нации, сколько просто делала персонажа похожим на одного из наиболее медийно известных её представителей. Поэтому часть «безумных русских учёных» была похожа на Путина, часть — на Ленина, а часть — на Николая Второго.
Безумные русские учёные от Midjourney v. 3 (август 2022)
А откуда у «безумных немецких учёных» задорные усы щёткой, каждый может попытаться угадать самостоятельно.
Начиная с версии 5 стало интереснее. По умолчанию модель чаще генерировала картинки в рисованном стиле — получались неплохие арты для оформления пивного бара или эскизы татуировок. Национальные особенности, мне кажется, нейронка усвоила очень даже неплохо — как и национальные стереотипы.
Русский учёный выглядит как Менделеев, которому вместо периодической таблицы приснился рецепт водки
Сами разработчики Midjourney писали, что эта версия внимательнее относится к указаниям насчёт стиля, так что я решил сделать небольшое отступление, и к стандартному запросу «mad [nation] scientist» стал добавлять в конце «photorealistic».
Разница действительно оказалась огромной:
Фотореалистичные безумные учёные от Midjourney v. 5 (март 2023)
Национальные особенности сохранились: француз всё такой же носатый и бровастый, немец расщепляет атомное ядро за счёт квадратуры челюсти, а русский похож на тихого выпивоху с явными вайбами Инженера Лапенко.
Версия 6.0 перестала стесняться крови, мертвечины и прочего гуро, и у неё получались крайне детализированные, но довольно неприятные картинки.
При этом сильно возросла вариативность — настолько, что на рисунке вместо француза могла оказаться лягушка)
Увы, генерации с русским учёным-медведем дождаться не удалось(
Картинки с уточнением «photorealistic» стали ещё более детальными и анатомически корректными, но, на мой взгляд, более скучными. Национальные различия сильно сгладились, а учёные из безумных превратились скорее в растерянно-печальных.
Правда, иногда проскальзывали и интересные образы, но скорее в порядке исключения.
Безумный русский учёный от Midjourney v. 6.0 (январь 2024)
В седьмой версии тенденция продолжилась. Внимание к деталям на высшем уровне, и даже на заднем плане всё очень прилично, но... как-то нет «души». Пятая версия в этом смысле была намного креативнее — там учёного с каждой картинки хотелось сразу же сделать персонажем игры или рассказа.
Фотореалистичные безумные учёные от Midjourney v. 7.0 (апрель 2025)
Правда, «семёрке» хорошо удаются многофигурные композиции, что для нейросетей старых поколений было непосильной задачей. Скажем, заглавная картинка к этому посту сделана с её помощью.
Может быть, отечественные разработки внесут свежую струю? Как ни странно, да! Kandinsky от Сбера нарисовал троицу весьма задорных учёных.
Безумные учёные от Kandinsky v. 3.0
«Шедеврум» от Яндекса тоже справился неплохо, хотя у него учёные скорее не безумные, а просто жизнерадостные.
Безумные учёные от «Шедеврум» v. 2.5
Ну и завершим подборку великим и могучим ChatGPT, который настолько хорошо научился генерировать мемы с подписями, что, кажется, сможет обеспечить дальнейшую деградацию эволюцию человечества уже без участия кожаных мешков.
Результат прекрасный — единый стиль, все учёные в нужной степени безумны, а наш соотечественник ещё и получился не просто русским, а конкретно советским)
Предлагаю пока на этом остановиться. Разумеется, я охватил далеко не все доступные сегодня нейронки, но вы можете исправить это в комментариях. Ну, за науку и межкультурный обмен!