**FLUX.1 schnell, являющаяся открытым исходным кодом и имеющая обрезанную функциональность,...

09.08.2024

FLUX.1 schnell, являющаяся открытым исходным кодом и имеющая обрезанную функциональность, предоставляет широкие возможности для изменений благодаря лицензии Apache 2.0. Тем не менее, по качеству она уступает только Midjourney v6.

Black Forest Labs — это новая лаборатория, которая призвана продвигать разработку открытых решений для генерации изображений и видео. Они также представили новую модель генерации изображений из текста (text-to-image, t2i) с 12 миллиардами параметров, которая устанавливает новый стандарт в данной области.

Ключевые разработчики в составе этой команды — бывшие авторы Stable Diffusion, покинувшие компанию Stability AI в марте.

За несколько месяцев работы команда обучила модель FLUX.1, которая на сегодняшний день является одной из лучших моделей с открытым исходным кодом. Согласно представленным результатам, она превосходит даже Midjourney v6.

Предполагается, что FLUX.1 была разработана на основе рецепта Stable Diffusion 3, поскольку она обладает схожей архитектурой (Dual-stream Transformer, DiT, для текста и изображения) и также использует метод Flow Matching.

FLUX.1 была выпущена в трёх версиях:

1️⃣ FLUX.1 pro: Это флагманская версия модели с 12 миллиардами параметров, которая обеспечивает высокую детализацию изображений и точность выполнения запросов в различных стилях. Доступ к модели предоставляется через API:
- Replicate.com
- Fal.ai (предоставляют возможность бесплатного тестирования)

2️⃣ FLUX.1 dev: Это упрощённая версия модели FLUX.1 pro, оптимизированная через технику Guidance Distillation. Она работает примерно в два раза быстрее оригинала и выдаёт почти такое же качество.
- Демонстрация: Fal.ai
- Веса модели (Non-Commercial License): Hugging Face

3️⃣ FLUX.1 schnell: Это ускоренная версия модели, которая, вероятно, была оптимизирована с использованием пост-техники LADD. Она генерирует результаты быстрее (от 1 до 12 шагов), но с немного меньшим качеством.
- Веса модели (Apache 2.0 License): Hugging Face

Кроме того, предоставлен код модели и блогпост, которые можно изучить для получения более детальной информации.

Следующей целью команды является разработка и выпуск в открытый доступ модели для преобразования текста в видео, которая также будет соответствовать современным стандартам качества (SOTA).

**FLUX.1 schnell, являющаяся открытым исходным кодом и имеющая обрезанную функциональность,...

Вам также может понравиться

rill

shaper

genai-api