Google Decoupled DiLoCo: мир как один компьютер

Google Decoupled DiLoCo: мир как один компьютер

Что, если сбой чипа в Огайо не остановит обучение модели в Орегоне? Google DeepMind отвечает на этот вопрос новой технологией — Decoupled DiLoCo. Это распределённый фреймворк, который превращает разрозненные «острова» вычислений в асинхронную сеть, способную обучать модели с 88% goodput даже при агрессивных симуляциях отказов. Раньше distributed training ассоциировался с малыми игроками, которые объединяли ресурсы, чтобы конкурировать с гигантами. Теперь Google использует ту же логику на обратном конце шкалы — и превращает все свои дата-центры в единый мировой компьютер.

Что такое Decoupled DiLoCo

Decoupled DiLoCo — это эволюция семейства алгоритмов DiLoCo (Distributed Low-Communication), которые Google развивает с 2024 года. Ключевое отличие новой версии в декомпозиции монолитного SPMD-кластера (Single Program, Multiple Data) на независимые асинхронные learner units — единицы обучения, которые работают автономно и синхронизируются с глобальным координатором только когда готовы.

В классическом data-parallel обучении все GPU должны работать в lockstep: один чип отстаёт или падает — весь кластер ждёт или падает вместе с ним. Decoupled DiLoCo разрывает эту зависимость. Каждый learner unit может работать со своей скоростью, использовать разное железо и даже полностью выходить из строя — без прерывания общего процесса обучения. Это достигается за счёт ослабления требований к синхронизации: вместо жёсткого all-reduce после каждого шага, learner units накапливают локальные градиенты и передают их глобальному syncer с задержкой, которую можно настраивать.

Эксперименты и результаты

Google протестировала Decoupled DiLoCo на моделях семейства Gemma 4 — от плотных архитектур до Mixture of Experts (MoE) — в масштабах до 9 миллиардов параметров. Результаты показывают, что фреймворк достигает производительности, эквивалентной классическому data-parallel обучению, при этом обеспечивая 88% goodput при агрессивных симуляциях сбоев. Для сравнения: elastic data-parallel при тех же условиях показывает всего 58%.

Самый показательный эксперимент — обучение 12-миллиардной модели через четыре региона США с использованием 2–5 Gbps wide-area networking. Это не выделенная оптоволоконная линия между дата-центрами, а обычный интернет-канал, доступный между коммерческими объектами. Google показала, что для обучения крупных моделей больше не нужна физическая близость вычислений — достаточно стандартной сетевой инфраструктуры.

Почему это меняет правила игры

Технология работает одновременно в двух направлениях. На нижнем конце рынка она даёт малым игрокам возможность объединять ресурсы через более слабые каналы — не идеальные дата-центры, а федерации GPU в разных географических точках. На верхнем конце она позволяет Google и другим гиперскейлерам рассматривать всю свою глобальную инфраструктуру как единый вычислительный субстрат. Если раньше обучение моделей требовало концентрации вычислений в одном месте, теперь концентрация становится необязательной.

Это имеет стратегические последствия. Во-первых, географическая диверсификация вычислений становится практически реализуемой: модель можно обучать одновременно в США, Европе и Азии, не перемещая данные через океаны. Во-вторых, устойчивость к сбоям перестаёт быть дорогой опцией и становится архитектурным свойством. В-третьих, барьер входа для крупных обучающих прогонов снижается — не нужно строить гигантские кластеры в одном месте, достаточно агрегировать существующие мощности.

Как это работает под капотом

Архитектура Decoupled DiLoCo строится вокруг двух идей: локальная оптимизация и отложенная синхронизация. Каждый learner unit запускает локальный оптимизатор (например, AdamW) на своём подмножестве данных, накапливает обновления весов и периодически отправляет их глобальному syncer. Syncer усредняет обновления от всех активных learner units и рассылает обратно глобальные веса. Критически важно, что learner units не ждут друг друга: если один unit отстаёт или отключается, остальные продолжают работу с текущей версией глобальных весов.

Этот подход требует компромисса между консистентностью и доступностью. Чем реже синхронизация, тем выше автономность learner units, но тем больше дрейф между локальными и глобальными весами. Google показала, что при разумных настройках частоты синхронизации этот дрейф не деградирует итоговое качество модели — фундаментальный результат, который делает асинхронное распределённое обучение практически жизнеспособным.

Связь с более широкими трендами

Decoupled DiLoCo появляется в контексте двух других сигналов, которые вместе рисуют картину инфраструктурной трансформации. Первый — работа NBER о рекурсивном самоулучшении ИИ, которая показывает, что автоматизация 20% исследований в области железа достаточна для запуска взрывного экономического роста. Если такой рост потребует масштабирования вычислений на порядки, Decoupled DiLoCo предоставляет инфраструктурный слой, который делает такое масштабирование физически возможным.

Второй сигнал — концепция нейронных компьютеров от Meta и KAIST, где вычисление, память и ввод-вывод объединяются в единый обучаемый субстрат. Если будущее вычислений — это специализированные нейронные чипы, а не универсальные CPU/GPU, то распределённое обучение через стандартные сети становится ещё важнее: оно позволяет агрегировать гетерогенное железо без необходимости строить однородные кластеры.

Часто задаваемые вопросы

Чем Decoupled DiLoCo отличается от обычного data-parallel обучения?

Обычный data-parallel требует, чтобы все вычислительные узлы работали синхронно: каждый шаг градиентного спуска завершается all-reduce операцией, которая блокирует весь кластер до тех пор, пока все узлы не закончат. Decoupled DiLoCo позволяет узлам работать асинхронно, синхронизируясь с глобальным координатором только периодически. Это устраняет узкое место синхронизации и делает систему устойчивой к отказам отдельных узлов.

Может ли малая компания использовать эту технологию?

Да, и это один из главных эффектов. Decoupled DiLoCo снижает требования к сетевой инфраструктуре между узлами — достаточно 2–5 Gbps, что доступно через коммерческие интернет-каналы. Это означает, что компании могут объединять GPU в разных офисах, облаках или даже странах без необходимости аренды выделенных линий. Google открыла код фреймворка, что делает его доступным для исследователей и инженеров.

Как это влияет на безопасность ИИ?

Географически распределённое обучение создаёт новые вызовы для контроля над крупными обучающими прогонами. Если модель можно обучать одновременно в десятках юрисдикций, регулирование отдельных дата-центров становится менее эффективным. С другой стороны, устойчивость к сбоям означает, что обучение сложнее прервать намеренно — что может быть как плюсом для надёжности, так и минусом для emergency stop механизмов.

Итог

Decoupled DiLoCo — это не просто улучшение distributed training. Это инфраструктурный сдвиг, который делает возможным обучение моделей на масштабе всего мира, используя существующие сети и существующие дата-центры. 88% goodput при сбоях, обучение через обычный интернет, асинхронная архитектура — всё это указывает на мир, где вычислительные мощности становятся фунгибельным ресурсом, а не географически привязанным активом. Если рекурсивное самоулучшение ИИ потребует взрывного масштабирования вычислений, Decoupled DiLoCo может оказаться тем мостом, который позволит это масштабирование произойти.

← Все записи
← Все записи