Sakana Fugu: модель-роутер, которая обходит Fable 5

Sakana Fugu: модель-роутер, которая обходит Fable 5

Sakana Fugu: модель-роутер, которая обходит Fable 5

Sakana Fugu: модель-роутер, которая обходит Fable 5

Еженедельный дайджест AI-новостей — это обычно про новые весовые коэффициенты, контекстные окна и проценты на бенчмарках. Но на этой неделе одна история выделяется: японский стартап Sakana AI выпустил модель, которая не генерирует текст сама по себе — она решает, какую модель позвать для вашего запроса.

Sakana Fugu — это оркестратор. Менеджер. Диспетчер. Как будто взяли умного секретаря, который знает сильные стороны каждого разработчика в команде, и посадили его между вами и пулом моделей. Получилось настолько хорошо, что Fugu и Fugu Ultra обходят Fable 5 на Live Code Bench и превосходят Mythos на Google Proof Questions and Answers.

Что такое Sakana Fugu

С технической точки зрения Fugu — это большая языковая модель, обученная выполнять одну специфическую задачу: маршрутизировать пользовательский промпт к оптимальной модели-провайдеру. Под капотом она держит доступ к OpenAI, Anthropic и, вероятно, к другим API. Когда вы отправляете запрос, Fugu анализирует его и решает: отправить в GPT, в Claude, разбить на подзадачи и запустить несколько моделей параллельно.

Если один провайдер вдруг «упадёт» — допустим, Anthropic начнёт возвращать ошибки — Fugu автоматически перенаправит запрос к другому. Вы не потеряете прогресс, не получите полупустой ответ и не будете вручную переключать модель. Это звучит просто, но до сих пор никто не делал это на уровне, конкурентном с лучшими «одиночными» моделями.

Sakana AI запустила две версии. Fugu — баланс между производительностью и скоростью, подходит для большинства повседневных задач: быстрые ответы, код, редактирование текста. Fugu Ultra — для сложных многошаговых задач, где важна максимальная точность. Эта версия «думает дольше» и выдаёт более проработанные результаты, но стоит дороже и работает медленнее. Внутри Fugu Ultra стоит более дорогая конфигурация роутинга: больше моделей в ансамбле, более глубокий анализ задачи перед выбором провайдера.

Как это работает изнутри

Sakana не раскрывает детали архитектуры, но из публичных заявлений и демо можно сделать несколько выводов. Fugu — это не просто LLM с системным промптом «выбери модель». Модель обучена на задачах маршрутизации: ей давали пары «запрос → оптимальная модель» и учили предсказывать провайдера по семантике запроса. Это похоже на то, как обучают embedding-модели для retrieval, только здесь цель — не поиск ближайшего документа, а поиск ближайшей по компетенциям модели.

Важный нюанс: Fugu может отправлять один запрос в несколько моделей параллельно и затем сравнивать результаты. Это не просто «выбери A или B» — это «шли A, B и C, посмотрим, кто лучше справится». В режиме Fugu Ultra с настройкой «extra high» модель запускает несколько маршрутизаций одного и того же запроса через разные провайдеры и выбирает лучший результат по внутренним метрикам качества. Именно так был получен клон Future Tools — Fugu параллельно запросила несколько моделей и собрала результаты.

Бенчмарки: где Fugu обыгрывает Fable

Sakana AI не стала скромничать и сразу показала сравнение с Fable 5 и Mythos. Результаты:

Live Code Bench — здесь Fugu и Fugu Ultra обходят Fable 5. Это задачи на написание и отладку кода в условиях, близких к реальным: модель получает задачу и должна написать работающий код без доступа к интернету. Победа над Fable на этом бенчмарке означает, что роутинг Fugu действительно выбирает правильную модель для кода — вероятно, отправляя сложные задачи в более сильные специализированные модели.

Google Proof Questions and Answers — Fugu лучше Mythos. Это бенчмарк на математическое рассуждение и формальное доказательство. Интересно, что здесь оркестратор выигрывает у модели, которая сама по себе является одним из лидеров рынка.

Sci Code — примерно на уровне Fable 5. Задачи из научной области, где важна точность и воспроизводимость рассуждений.

Sweet Bench Pro — единственное место, где Fugu уступает. Но на фоне побед на более популярных бенчмарках это выглядит как осознанный трейд-off: под капотом не одна модель, а система, и где-то эта система проигрывает монолитному подходу.

Демо за $30: Mega Bonk и Future Tools

Автор канала Future Tools протестировал Fugu вживую и дал конкретные цифры. Он поставил два эксперимента: попросил Fugu Ultra собрать клон игры Mega Bonk и клон сайта Future Tools. Обе задачи выполнялись параллельно через Codex CLI с интегрированной Fugu. Кодекс здесь выступил как интерфейс: пользователь видит привычный CLI-интерфейс, а внутри него работает роутер Sakana.

Результат: 22 миллиона входных токенов и 210 000 выходных токенов. Итого — $30. Обе программы были написаны за один заход, примерно за час. Для сравнения, генерация двух полноценных веб-приложений через GPT-4o обошлась бы дороже: типичная цена за 22 млн входных токенов на GPT-4o — около $4,40 плюс стоимость выходных. Умножьте на два параллельных запроса, добавьте время инженера на ручное переключение моделей — и $30 за полный рабочий клон сайта выглядит конкурентно.

Mega Bonk-клон (названный Bonk Storm) получился ближе к Vampire Survivor, чем к оригиналу: 3D-графика не воспроизвелась, но механика прокачки, мета-улучшения и система героев были реализованы полностью. Future Tools-клон включал фильтрацию по цене и категориям, список избранного, страницу FAQ, интеграцию с новостями. Все ссылки на инструменты работали.

Для сравнения: Fable на аналогичной задаче сделал 3D-версию Mega Bonk с Three.js, но не реализовал систему прокачки. Fugu сфокусировался на геймплее, а не на визуале. Это классический пример того, как разные модели дают разные компромиссы — и умный роутер может выбирать модель под приоритеты задачи. Если вам нужен красивый прототип — один провайдер. Если нужна механика — другой. Fugu решает это автоматически.

Почему это важно для индустрии

Архитектура «модель-роутер» — это принципиально другой подход к проблеме выбора правильного инструмента. До сих пор выбор был за пользователем: вы решали, какую модель использовать, и либо получали хороший результат, либо нет. Fugu переносит это решение на уровень модели — и делает это лучше, чем случайный выбор или ручное переключение.

Экономический аргумент тоже работает. Sakana AI не раскрывает внутренние цены, но идея в том, что дешёвые модели используются для простых задач, а дорогие — только для сложных. Если оркестратор работает достаточно умно, итоговый счёт может быть ниже, чем при использовании одной модели премиум-класса для всех задач. Это похоже на то, как умный менеджер проекта не отправляет каждого junior-разработчика решать архитектурные задачи — он знает, кто справится на каждом этапе.

Технически это первый случай, когда роутер бьёт лучшие монолитные модели на нескольких ключевых бенчмарках одновременно. До этого системы маршрутизации были нишевым инструментом: что-то вроде Router-BERT, которая направляла запросы в маленькие или большие модели в зависимости от сложности. Но ни одна из них не добиралась до уровня Fable 5.

Три другие истории недели

Claude Tag — Anthropic встроила Claude в Slack. Можно «тегнуть» его в канале, дать задачу разбить на шаги, и он будет работать в фоне, используя инструменты компании. 65% кода внутри Anthropic уже пишется через эту функцию. Андрей Карпаthy назвал это третьим этапом эволюции взаимодействия с AI: после веб-чатов и отдельных приложений — интеграция в уже используемые инструменты.

GPT-5.6 под государственным надзором — администрация Трампа попросила OpenAI не выкладывать новую модель сразу, а согласовывать доступ «customer by customer». Fable по-прежнему недоступен. Если эта практика закрепится, эпоха неожиданных релизов может закончиться. Вместо «проснулись и у вас новая модель» — поэтапное развёртывание с государственным контролем. Это касается не только OpenAI: любая компания, выпускающая мощную модель, может столкнуться с аналогичными требованиями.

OpenAI + Broadcom — компании объявили о совместной разработке собственного inference-чипа. Это не отменяет партнёрства с Cerebras, но делает инфраструктуру OpenAI более независимой. Специализированный чип для конкретной модели может быть быстрее и дешевле, чем использование общих ускорителей. Это также снижает зависимость от Nvidia на стороне inference — Trenzian уже показал, что кастомные чипы могут быть конкурентными.

Часто задаваемые вопросы

Чем Fugu отличается от простого API-агрегатора?

Агрегатор — это обёртка, которая перенаправляет запросы фиксированным образом. Fugu — это модель, которая принимает решение, какую модель выбрать, анализируя контекст запроса. Она может маршрутизировать один промпт в несколько моделей параллельно и сравнить результаты. Это ближе к AI-агенту, чем к прокси. Классический API-агрегатор отправит запрос в GPT-4o и вернёт ответ. Fugu может отправить один запрос в GPT-4o, Claude и Gemini, посмотреть, какой дал лучший результат, и вернуть именно его.

Можно ли попробовать Fugu?

Да. Sakana AI открыла доступ через console.sakana.ai. Нужно зарегистрироваться, добавить способ оплаты и сгенерировать API-ключ. Проще всего использовать через Codex CLI: одна команда устанавливает интеграцию, и дальше вы работаете с Fugu как с обычной моделью, только внутри она сама решает, куда направить запрос. Есть бесплатные кредиты для тестирования, дальше — pay as you go.

Насколько это дешевле, чем одна премиум-модель?

Конечная стоимость зависит от задач, но демо за $30 (два полных приложения) сопоставимо с затратами на аналогичную работу через GPT-4o или Claude Sonnet напрямую. Преимущество Fugu не столько в цене, сколько в предсказуемости результата: за счёт автоматического выбора модели под задачу вы с большей вероятностью получите работающий код с первой попытки. Экономия времени инженера может стоить дороже экономии на токенах.

Что происходит, когда все провайдеры под капотом обновляют модели?

Это интересный вопрос. Если Fugu обучена на провайдерах версии X, а провайдеры выпустили версию Y — роутинг может деградировать. Sakana AI должна переобучать Fugu при каждом крупном обновлении партнёрских моделей. Это потенциально слабое место архитектуры: оркестратор быстрее устаревает, чем монолитная модель, у которой всё внутри.

Итог

Sakana Fugu — это не просто ещё одна модель. Это первый рабочий оркестратор, который конкурирует с монолитными моделями на их собственном поле. Если маршрутизация через AI-роутер действительно работает стабильно, это меняет экономику использования AI: не нужно платить за топовую модель для всех задач, если умный диспетчер может выбрать правильный инструмент за тебя.

Пока рано говорить, станет ли это новым стандартом или останется нишевым инструментом. Но сам факт, что роутер бьёт Fable 5 на коде и обходит Mythos на математике — это сигнал, что архитектурный подход работает. Следите за Sakana AI: если они сохранят темп, это будет один из самых интересных стартапов года.

← Все записи
← Все записи