01.06.2026 Исследования

Bonsai Image 4B: генерация изображений на iPhone за 9 секунд

Представьте, что вы просите нейросеть нарисовать кота в космосе — и она делает это за 9 секунд прямо на вашем телефоне, без интернета, без подписки, без отправки данных в облако. Звучит как фантастика? Калифорнийский стартап PrismML только что доказал, что это реальность. Их модель Bonsai Image 4B весит меньше гигабайта, но генерирует изображения, которые человеческий глаз едва отличит от картинок 15-гигабайтного оригинала. Секрет — в том, что исследователи научили трансформер думать не 32-битными числами, а почти бинарными: минус один, ноль и плюс один.

Что такое Bonsai Image 4B

Bonsai Image 4B — это семейство компактных диффузионных моделей от PrismML, выросшей из исследований в Caltech. В основе лежит архитектура FLUX.2 Klein 4B, но с одним радикальным изменением: веса диффузионного трансформера сжаты до экстремально низкой битности. Вместо стандартных 16-битных чисел с плавающей точкой модель использует два режима — бинарный и троичный.

Бинарный вариант хранит каждый вес как одно из двух значений: минус один или плюс один. К ним применяется групповой масштабирующий множитель в формате FP16, что даёт эффективную битность 1,125 бита на вес. Троичный вариант добавляет третье состояние — ноль — и достигает 1,71 бита на вес. Это не просто округление: троичное представление даёт модели больше гибкости, что напрямую отражается на качестве картинок.

Результат — диффузионный трансформер, который занимает 0,93 ГБ в бинарном режиме и 1,21 ГБ в троичном. Для сравнения, оригинальный FLUX.2 Klein 4B требует 7,75 ГБ только для трансформера. Если считать всю инференс-нагрузку вместе с текстовым энкодером и VAE, полный deployment-пакет сокращается с 15,97 ГБ до 3,42 ГБ и 3,88 ГБ соответственно. На iPhone, где память — самый дефицитный ресурс, это разница между «не помещается» и «работает за 9 секунд».

Почему сжатие весов решает проблему локальной генерации

Генерация изображений через диффузию — итеративный процесс. Модель запускает трансформер десятки раз на каждом шаге денойзинга, постепенно уточняя картинку из случайного шума. Именно трансформер — самая большая и самая часто вызываемая часть конвейера. Его размер напрямую определяет три критических параметра: сколько памяти нужно, как быстро данные перемещаются между процессором и памятью, и сколько времени занимает каждый шаг.

PrismML не меняла архитектуру FLUX.2 Klein 4B. Они изменили только представление весов — ту же математику, но записанную компактнее. Бинарные слои дают примерно 14-кратное сжатие относительно полной точности. При этом около 5% весов, отвечающих за проекционные слои, остаются в FP16, потому что именно они наиболее чувствительны к точности. Такой гибридный подход позволяет сохранить качество, не жертвуя компрессией.

На практике это означает, что при генерации изображения 512×512 среднее потребление памяти падает с 11,74 ГБ до 1,5 ГБ для бинарной модели и до 1,96 ГБ для троичной. Для разрешения 1024×1024 снижение ещё более впечатляющее: с 14,39 ГБ до 1,95 ГБ и 2,38 ГБ. Это 7,4× и 6,0× соответственно. Такие цифры переводят генерацию изображений из разряда серверных задач в разряд повседневных операций на телефоне.

Какое качество даёт сжатие в 8 раз

Сжатие бесполезно, если результат выглядит как мозаика. PrismML оценивала Bonsai Image 4B на трёх независимых бенчмарках, которые проверяют разные аспекты генерации. GenEval тестирует композицию объектов и привязку атрибутов — например, может ли модель нарисовать красный шар на синем столе. HPSv3 измеряет эстетическое качество и соответствие человеческим предпочтениям. DPG-Bench проверяет плотное следование сложным промптам с множеством деталей.

Троичная модель, будучи качественно ориентированной, сохраняет 95% точности FLUX.2 Klein 4B по совокупности трёх тестов. Бинарная модель, заточенная на минимальный размер, удерживает 88% точности оригинала. Оба варианта при этом остаются конкурентоспособными с другими современными моделями класса 4B параметров, но используют для диффузионного трансформера долю памяти, которая раньше принадлежала только гораздо более слабым моделям.

Важно понимать, что речь идёт не о компромиссе «хуже, но быстрее». Это сдвиг фронтира качество-размер. Раньше инженеры выбирали между большой моделью с хорошими картинками и маленькой моделью с посредственными. Bonsai Image 4B показывает, что можно занять новую нишу: качество почти как у большой, размер почти как у маленькой.

Где это работает и насколько быстро

PrismML предоставляет стек деплоя для трёх платформ: Apple Silicon на iPhone и iPad, Apple Silicon на Mac, и CUDA-совместимые GPU. На устройствах Apple используются low-bit пути фреймворка MLX, а на NVIDIA-картах — оптимизированные GEMM-ядра Gemlite. Оба варианта специально заточены под низкобитные вычисления, чтобы сжатие весов транслировалось в реальное ускорение, а не просто экономию памяти.

Конкретные цифры впечатляют. На iPhone 17 Pro Max генерация изображения 512×512 занимает 9,4 секунды. На Mac M4 Pro — около 6 секунд. Для сравнения, полноразмерный конвейер MFLUX на том же Mac M4 Pro работает в 5,6 раз медленнее. То есть сжатая модель не просто помещается туда, куда не влезает оригинал — она ещё и существенно быстрее, потому что меньше данных гоняется через память.

На iPhone полноразмерный FLUX.2 Klein 4B вообще не запускается — не хватает оперативной памяти. Bonsai Image 4B ломает этот барьер. Это первый раз, когда диффузионная модель с 4 миллиардами параметров работает непосредственно на смартфоне без облачной обработки.

Почему локальная генерация важнее, чем кажется

Облачные API для генерации изображений — удобный инструмент, но они накладывают скрытые ограничения на продукт. Каждый промпт — это сетевой запрос, каждая итерация — маржинальная стоимость, каждый эксперимент — ожидание ответа сервера. А генерация изображений по своей природе итеративна: пользователи редко останавливаются на первом результате. Они меняют промпты, сравнивают варианты, отбрасывают неудачи и пробуют снова.

Когда каждая попытка стоит денег и требует паузы на round-trip, творческий процесс превращается в планирование бюджета. Локальная генерация убирает эти трения. Модель на устройстве означает нулевую маржинальную стоимость, мгновенную обратную связь и полную приватность — промпты и сгенерированные изображения никуда не уходят.

Это особенно критично для приложений, где конфиденциальность не опциональна: медицинская визуализация, дизайн под NDA, персонализированный контент с чувствительными данными. Но даже в обычных сценариях локальная генерация меняет психологию использования: пользователь перестаёт экономить промпты и начинает играть.

Как устроено троичное сжатие под капотом

Идея использовать три значения вместо двух — минус один, ноль и плюс один — кажется простой, но её эффект обусловлен математикой нейросетей. Веса трансформера не равномерно распределены: большинство из них близки к нулю, и именно эта «разреженность» позволяет сжимать модели без катастрофических потерь. Троичное представление эксплуатирует это свойство элегантно: веса, которые были бы округлены до ближайшего ненулевого значения в бинарной схеме, получают право остаться нулями.

Дополнительный ноль даёт модели больше степеней свободы при представлении сложных паттернов. В бинарной сети каждый нейрон либо активен, либо нет — это похоже на черно-белое изображение без оттенков серого. Троичная сеть добавляет «выключено» как третье состояние, что позволяет избирательно отключать связи и строить более тонкие зависимости. Именно поэтому троичная модель на 0,36 ГБ тяжелее бинарной, но даёт заметно более высокое качество — 95% против 88% точности оригинала.

Групповые масштабирующие множители в формате FP16 играют роль «грубой настройки». Веса внутри одной группы делят общий масштаб, что позволяет сохранить динамический диапазон активаций без хранения полной точности для каждого параметра. Этот приём — стандарт в мире квантизации, но PrismML доводит его до логического предела, используя группы совместно с экстремально грубым индивидуальным представлением.

Контекст: от языковых моделей к изображениям

PrismML не новичок в сжатии нейросетей. Компания вышла из стелса в начале 2026 года, представив 1-бит языковые модели Bonsai, которые стали первыми коммерчески жизнеспособными бинарными LLM. Инвесторами выступили Khosla Ventures, Cerberus и Google — что говорит о серьёзности подхода. Перенос той же философии с языка на изображения — логичный, но нетривиальный шаг.

Языковые модели и диффузионные трансформеры работают по-разному. LLM генерирует текст последовательно, один токен за раз, и основная нагрузка приходится на матричные умножения внимания. Диффузионный трансформер запускается многократно на каждом шаге, и его узким местом является не только вычисление, но и пропускная способность памяти — каждый шаг требует загрузки всех весов заново. Поэтому сжатие весов даёт ещё больший выигрыш в скорости для диффузии, чем для языка: меньше данных пересылается между памятью и процессором на каждой итерации.

Одновременно с релизом моделей PrismML запустила Bonsai Studio — iOS-приложение, где можно протестировать генерацию прямо на iPhone. Это не демо-версия с облачным бэкендом, а полноценный локальный инференс. Сама публикация моделей под лицензией Apache 2.0 означает, что любой разработчик может интегрировать Bonsai Image 4B в своё приложение без лицензионных отчислений.

Часто задаваемые вопросы

Можно ли использовать Bonsai Image 4B для коммерческих проектов?

Да. Модели распространяются под лицензией Apache 2.0, которая разрешает коммерческое использование, модификацию и распространение. Код и веса доступны в открытом доступе, что делает их привлекательными для стартапов и инди-разработчиков, которые не хотят зависеть от облачных API и их ценообразования.

Насколько сильно падает качество по сравнению с полноразмерным FLUX?

Троичная модель сохраняет 95% точности оригинала на бенчмарках GenEval, HPSv3 и DPG-Bench. Бинарная — 88%. На практике это означает, что разница заметна при внимательном сравнении, но большинство сгенерированных изображений остаются визуально привлекательными и семантически корректными. Для многих приложений — от прототипирования до персонального творчества — этого качества достаточно.

Будут ли 1-бит модели работать на Android?

Текущий релиз поддерживает Apple Silicon и CUDA-совместимые GPU. Android не упоминается в анонсе, но архитектура модели не привязана к конкретной платформе. Портирование на Snapdragon с NPU или другие мобильные ускорители — вопрос интеграции низкобитных вычислительных ядер, а не изменения самой модели. Учитывая открытые веса, сообщество или сами исследователи могут добавить поддержку дополнительных платформ.

Итог

Bonsai Image 4B — это не просто очередная сжатая модель. Это демонстрация того, что экстремальная квантизация перешла из академического курьёза в производственную технологию. 1-бит и троичные веса, которые ещё недавно считались игрушечными, теперь генерируют изображения, способные конкурировать с полноразмерными диффузионными моделями — и делают это на устройствах, которые лежат в кармане.

Для индустрии это означает сдвиг парадигмы: генерация изображений перестаёт быть сервисом и становится функцией устройства. Для разработчиков — новый инструментарий, где облако необязательно. Для пользователей — свободу экспериментировать без счётчиков токенов и задержек сети. Если вы строите продукт, который работает с визуальным контентом, пришло время пересмотреть, нужен ли вам для этого сервер.