Flux: новый генератор изображений на базе ИИ с открытым исходным кодом

Black Forest Labs — команда, которая помогла разработать оригинальный Stable Diffusion, - запустила Flux, крупнейшую на сегодняшний день модель преобразования текста в изображение с открытым исходным кодом. Благодаря ошеломляющим 12 миллиардам параметров Flux может создавать визуальные эффекты, которые не уступают Midjourney и, возможно, превосходят любую другую доступную в настоящее время модель — будь то с открытым или закрытым исходным кодом.

Flux выпускается в трех вариантах: Flux Dev с открытым исходным кодом и некоммерческой лицензией для разработки сообществом; Flux Schnell, более быстрая, расширенная версия, работающая в десять раз быстрее, доступная по лицензии Apache 2 и топовой модели; и Flux Pro. это версия с закрытым исходным кодом, доступная через API.

Flux Dev и Flux Schnell доступны для загрузки на Hugging Face. ComfyUI также был обновлен для поддержки новых моделей в локальных рабочих процессах.

“Наши инновации включают создание VQGAN и скрытой диффузии, модели стабильной диффузии стабильного искусственного интеллекта для генерации изображений и видео (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers) и состязательную диффузионную дистилляцию для сверхбыстрого синтеза изображений в реальном времени”, - сказали в команде.

Запуск следует за успешным раундом начального финансирования в размере 31 миллиона долларов, возглавляемым Андреессеном Горовицем и поддержанным известными инвесторами, включая Брендана Ирибе, Майкла Овица и Гарри Тана.

В ходе сравнительных тестов Flux заявляет, что его модели установили новые стандарты в синтезе изображений, превосходя такие модели, как Midjourney v6.0, Dalle3 (HD) и SD3 Ultra по визуальному качеству, быстрому просмотру, изменчивости размера / аспекта, типографике и разнообразию выходных данных. Графики Black Forest утверждают, что модели Pro и Dev являются лучшими генераторами изображений на сегодняшний день, а менее мощный Schnell находится между Midjourney v5 и Ideogram.

Flux против других генераторов изображений искусственного интеллекта. Изображение: Black Forest Labs — Flux превосходит другие генераторы изображений искусственного интеллекта. Изображение: Black Forest Labs

Однако пользователям с графическими процессорами меньшего размера может не повезти. Модели с открытым исходным кодом весят около 23 ГБ, что означает, что, вероятно, потребуется около 24 ГБ видеопамяти для работы до выпуска квантованной версии — если вообще когда-либо. Но даже в этом случае, похоже, пользователям графических процессоров с 6 и 8 ГБ видеопамяти скоро придется распрощаться с острыми ощущениями от тестирования новых моделей искусственного интеллекта.

Однако Black Forest заключила партнерство с Fal AI — разработчиками аналогичной модели Auraflow с открытым исходным кодом - для поддержки облачных поколений. Модели также доступны для бесплатного тестирования на Replicate.com. Как только пользователи выполнят свою ежедневную норму, сгенерировать 33 изображения с помощью Flux Pro или 333 с помощью Flux Schell будет стоить 1 доллар.

Это более выгодное предложение, чем Midjourney или Ideogram. Базовый тариф Midjourney стоит 96 долларов в год и позволяет пользователям генерировать около 200 изображений в месяц, что составляет что-то около 25 изображений за доллар. Базовый тариф Ideogram стоит 84 доллара в год и предоставляет до 400 изображений в месяц или 50 изображений за доллар.

Тестирование Flux

Flux отлично смотрится в бенчмарковых тестах, но насколько хороши его творения? Мы сравнили его с самыми известными генераторами изображений с открытым исходным кодом, доступными на сегодняшний день, и можем подтвердить, что были впечатлены. Давайте сравним Flux, SD3 Medium и Auraflow, а затем сравним их с Midjourney лицом к лицу.

Иллюстрации

Подсказка 1: “Нарисованная от руки иллюстрация гигантского паука, преследующего женщину в джунглях, чрезвычайно страшный, мучительный, темный и жуткий пейзаж, ужас, намеки на влияние аналоговой фотографии, эскиз”.

Flux продемонстрировал превосходное использование атмосферного освещения и теней. Дизайн паука по-настоящему угрожающий, с его острыми лапами и пугающим лицом. Уязвимая поза женщины хорошо передает страдание. Это наиболее точное представление анатомии.

Бирюзовая цветовая палитра Auraflow создает жуткое, потустороннее ощущение, но не полностью отражает требования "темноты и жуткости". Дизайн spider менее устрашающий и более стилизованный.

Черно-белый стиль SD3 Medium дает сильное качество, похожее на эскиз. Дизайн паука детализирован и грозен, но имеет некоторые морфологические недостатки в конечностях

Наш рейтинг:

Flux: Лучше всего передает ужас, тоску и жуткую атмосферу. Это наиболее точное создание без морфологических изъянов.
SD3 Medium: Несмотря на визуальный эффект, он меньше всего соответствует аспекту "аналоговой фотографии" в подсказке. Заметен хоррор-стиль.
Auraflow: Наиболее близок к эскизу и аналоговой фотографии в целом. Однако он наименее жуткий и наименее пугающий и в наименьшей степени передает общую атмосферу сцены.

Пространственная осведомленность

Подсказка 2: “Собака, стоящая на телевизоре, показывает на экране слово ‘Расшифровать’. Слева изображена женщина в деловом костюме, держащая монету, справа - робот, стоящий на ящике первой помощи. Общий пейзаж сюрреалистичен. ”

Flux - это модель, которая наиболее точно соответствует требованиям командной строки. В ней все элементы расположены в требуемых положениях. Композиция хорошо сбалансирована, а неожиданное размещение элементов и ретро-футуристическое столкновение усиливают сюрреалистичность. Хотя он позволяет получить представление о дополнительной раздаче, эта версия наиболее точно отражает суть подсказки.

SD3 Medium занимает второе место. В нем понятны все элементы, но также есть некоторые вариации — например, мультяшный стиль и собака сидит, а не стоит. Он улавливает некоторые элементы подсказки, но пропускает другие, уступая Flux и Auraflow по точности.

Auraflow допускает некоторые вольности с подсказкой. Собака на телевизоре, но сидит, а не стоит, у женщины более винтажный вид 1950-х, а не современный деловой костюм, робот стоит на синей подставке, а не на аптечке первой помощи, и общий стиль более ретро и красочный, менее сюрреалистичный. Слова также были плохо отрисованы.

Несмотря на креативность, он больше отличается от оригинальной подсказки, чем версия Flux.

Наш рейтинг:

Flux: Максимально точен в соответствии с подсказкой и обеспечивает сюрреалистическое качество.
SD3 Medium: фиксирует основные элементы, но пропускает некоторые детали.
Auraflow: творческая интерпретация, но больше всего отличается от оригинальной подсказки.

Реалистичность

Подсказка 3: “Фотография оживленной городской улицы в высоком разрешении ночью, неоновые вывески, освещающие сцену, люди, идущие по тротуарам, проезжающие машины, уличный торговец, продающий хот-доги, отражения фонарей на мокром асфальте, общий стиль гиперреалистичен с вниманием к деталям и освещению, неоновая вывеска гласит ‘Decrypt”.

Flux полностью соответствует требованиям командной строки. В нем изображена оживленная городская улица ночью с неоновыми вывесками, освещающими сцену, люди, идущие по тротуарам, и проезжающие мимо автомобили. Отражения фар на мокром асфальте реалистичны, а знак "Расшифровать" виден на видном месте.

Auraflow позволяет себе некоторые вольности с подсказками. Яркое неоновое освещение создает оживленную атмосферу, а отражения на мокром асфальте добавляют реалистичности. Уличный торговец хорошо виден и взаимодействует со сценой. Однако изображение кажется немного перенасыщенным, а уличные торговцы выглядят мультяшно, что отвлекает от гиперреалистичного стиля. Неоновые вывески размыты, и нет четкого различия между тротуаром и улицей, поскольку модель создает странный ракурс.

SD3 Medium также передает основные элементы подсказки, но имеет некоторые вариации. Сбалансированная композиция фокусируется как на пешеходах, так и на окружающей среде, а реалистичное освещение и отражения усиливают ощущение ночного города. Знак "Расшифровать" бросается в глаза, а уличный торговец вносит свой вклад в оживленную атмосферу. Однако при ближайшем рассмотрении легко заметить некоторые элементы, которые делают сцену нереалистичной. Например, люди идут по улице, а тротуар расширяется, чтобы вместить киоск с хот-догами.

Наш рейтинг:

Flux: детализированный и хорошо освещенный. Хорошо передает оживленную улицу, знаки легко читаются, а пешеходы хорошо представлены.
SD3 Medium: Соответствует требованиям командной строки благодаря сбалансированной композиции, реалистичному освещению и хорошо интегрированным элементам, включая вывеску "Decrypt" и уличного продавца. Но пешеходы представлены не так реалистично, как в Flux generation.
Auraflow: креативная интерпретация с ярким освещением, но отличается от гиперреалистичного стиля с его мультяшными уличными торговцами и неряшливыми неоновыми вывесками. У него есть некоторые проблемы с перспективой, что является проблемой, если целью является фотореализм.

Уровень босса: Flux против Midjourney

Мы также сравнили Flux с Midjourney. Но вместо того, чтобы использовать наши собственные generations, мы скопировали подсказки для выбора лучших изображений Midjourney в соответствии с их страницей “discovery”. Вот как две модели сочетаются друг с другом.

Реалистичность

Подсказка 1: Черно-белая фотография женщины с длинными прямыми волосами, одетой во все черное, подчеркивающее ее изгибы, сидящей на полу перед современным диваном. Она уверенно позирует перед камерой, приседая, демонстрируя свои стройные ноги... Смотрите полное приглашение здесь.

Midjourney полностью соответствует требованиям. На нем изображена женщина в динамичной скорченной позе на мягкой поверхности, передающая суть фотографии высокой моды. Детали ее волос, черт лица и одежды переданы с высокой точностью, что повышает реалистичность. Однако поза, хотя и динамичная, неестественна. Правая рука женщины выглядит как смесь кисти и ступни, ее правая нога исчезает из ниоткуда, а то, что могло бы быть ее левой ступней, также имеет форму, имитирующую руку.

С другой стороны, Flux передает основные элементы подсказки сбалансированной композицией. Женщина сидит на полу, скрестив ноги, в более расслабленной и естественной позе. Высокая точность передачи черт лица, волос и одежды способствует реалистичности внешнего вида. Освещение мягкое и рассеянное, создавая мягкие тени и блики, которые определяют черты лица объекта.

Однако генерация была не лишена недостатков. Похоже, у нее есть дополнительная составляющая, хотя это можно легко исправить с помощью inpainting или таких инструментов, как Photoshop, поскольку общая темная сцена упрощает работу.

Наш рейтинг:

Flux: отражает требования к подсказке с помощью естественной позы, контекстуального фона и детального рендеринга. Он наиболее точен с точки зрения морфологии.
Midjourney: Отличается динамичной позой и высоким уровнем детализации, но лишен контекстуального богатства изображения Flux, а тело представлено не так точно, как в Flux.

Быстрое выполнение

Подсказка 2: Белый кот, играющий на пианино, в солнцезащитных очках и шляпе в фиолетовом гавайском стиле, снимок всего тела на сером фоне студии, скриншот коммерческого видео. Автор: Chestnutmuffin.

Интерпретация подсказки Midjourney отражает причудливый характер сцены. Яркая фиолетовая гавайская рубашка добавляет игривости. Мягкое освещение эффективно подчеркивает текстуры и цвета. Однако снимок крупным планом отличается от "снимка в полный рост", указанного в приглашении, и фон не является серым, как требовалось в студии, а скорее более естественной и менее контролируемой средой. Общая композиция, хотя и очаровательна, отличается реалистичностью и стилем, но в ней отсутствуют некоторые ключевые элементы подсказки.

Flux обеспечивает более точное соответствие подсказке благодаря снимку белого кота, играющего на пианино, в полный рост, запечатлевающему все элементы подсказки. Композиция менее стильная, но включает в себя все тело кошки, обеспечивая видимость всех заданных деталей. Освещение и рендеринг выполнены хорошо, подчеркивая позу кошки и общую картину. Однако, несмотря на высокую детализацию и точность изображения, ему может не хватать непосредственного очарования и выразительности крупного плана, созданного Midjourney (который, как известно, предпочитает красоту точности).

Наш рейтинг:

Flux: снимок в полный рост, серый студийный фон и заданный наряд переданы точно. Композиция выполнена профессионально и отточена, что идеально соответствует требованиям заказчика.
Midjourney: Обеспечивает очаровательный и детализированный крупный план с выразительными чертами, но не хватает ключевых элементов, таких как снимок в полный рост и студийный фон. Несмотря на визуальную привлекательность, он отличается от специфики командной строки.

Выводы

Мы были приятно удивлены Flux, который занял первое место во всех наших тестах. Его версия “Pro” определенно обеспечивает результаты отличного качества и может составить хорошую конкуренцию Midjourney и другим платным опциям. Для этого требуется более обширное отображение запросов, но результаты очень точные, реалистичные и соответствуют тому, что запрашивается.

Для тех, кто готов платить за хороший генератор изображений, Flux Pro кажется лучшим ценностным предложением. Версии “Dev“ и ”Schnell" лучше базовых SD3 Medium и Auraflow, поэтому даже в пространстве с открытым исходным кодом Flux является довольно сильным конкурентом.

Flux визуализирует человеческие тела лучше, чем SD3, что важно учитывать. Однако пользователи с более скромными графическими процессорами могли бы обойтись SD3 — или даже доработанными версиями SDXL - учитывая, что новые модели, такие как Auraflow или Flux, чрезвычайно тяжелы.