HiFloat4: как Китай обходит санкции через эффективность чипов
Китайские инженеры не могут получить Nvidia H100 в нужных объёмах — экспортные ограничения США перекрывают доступ к передовому «железу». Но вместо того, чтобы сдаться, Huawei создала собственный формат чисел с плавающей точкой, который выжимает максимум из домашних чипов Ascend — и парадоксальным образом превосходит западный стандарт. Результаты, опубликованные в апреле 2026 года, заставляют задуматься: не станут ли санкции катализатором технологической независимости?
Что такое HiFloat4
HiFloat4 (HiF4) — это 4-битный формат представления чисел для обучения и вывода больших языковых моделей, разработанный Huawei специально для своих нейронных процессоров Ascend NPU. В отличие от универсальных форматов вроде BF16, которые используют 16 бит на число, HiF4 сжимает каждый вес и активацию до 4 бит, радикально снижая требования к памяти и вычислительной мощности. Предшественник — HiFloat8, 8-битный формат, о котором Huawei сообщала в октябре 2024 года. HiF4 — следующий шаг в этой эволюции: ещё меньше бит, ещё выше эффективность.
Почему 4 бита — это сложно
Современные LLM обучаются в формате BF16 — 16 бит на число. Это даёт высокую точность, но требует огромного объёма памяти: модель на 30 миллиардов параметров занимает около 60 ГБ только для хранения весов, плюс градиенты, плюс состояние оптимизатора — суммарно свыше 200 ГБ VRAM. Перейти к 4 битам — значит сжать каждый вес вчетверо, но при этом возникает фундаментальная проблема: при таком сжатии информация теряется, и ошибки округления на каждом из тысяч шагов обучения накапливаются, постепенно уводя модель от оптимума.
До недавнего времени считалось, что 4-битное обучение (в отличие от 4-битного вывода) практически невозможно без катастрофической потери качества. Формат MXFP4 от Open Compute Project был первой серьёзной попыткой решить эту задачу — он использует блоковое масштабирование и специальные техники округления, чтобы минимизировать потери. HiFloat4 — вторая попытка, и, судя по результатам Huawei, более удачная.
Эксперимент: три модели, два формата, один победитель
Исследователи Huawei обучили три модели на своих чипах Ascend: OpenPangu-1B (миллиард параметров), Llama3-8B (8 миллиардов) и Qwen3-MoE-30B (30 миллиардов с архитектурой Mixture-of-Experts). Каждую модель обучали в двух 4-битных конфигурациях — HiFloat4 и MXFP4, западный стандарт от Open Compute Project — и сравнивали с полноточной BF16-базой.
Результаты говорят сами за себя. HiFloat4 показывает относительную ошибку по лоссу около 1,0% от базовой BF16-модели, тогда как MXFP4 даёт около 1,5%. Причём чем больше модель, тем заметнее преимущество HiF4: на Llama3-8B и Qwen3-MoE-30B разрыв с базой составляет менее 1%, и это без сложных техник стабилизации. Для MXFP4, чтобы добиться хотя бы 1,5%, нужны дополнительные трюки — стохастическое округление, масштабирование без усечения и RHT (Rank-Hessian Thresholding). HiF4 справляется только с RHT.
Приведу конкретные цифры из статьи: «HiF4 consistently achieves significantly lower relative error compared to MXFP4. For Llama and Qwen, HiF4 attains an error gap of less than 1% with respect to the baseline». Это значит, что китайский формат не просто «сопоставим» — он систематически лучше на задачах разного масштаба.
Почему это возможно: железо и формат созданы друг для друга
Ключевой инсайт исследования — HiFloat4 не универсальный формат. Он спроектирован именно под архитектуру Ascend NPU, и эта «спаренность» железа и софта даёт преимущество. MXFP4, напротив, создавался как открытый стандарт для разного оборудования — компромисс, который неизбежно теряет эффективность на любой конкретной платформе.
Исследователи прямо пишут: «Our goal is to enable efficient FP4 LLM pretraining on specialized AI accelerators with strict power constraints. We focus on Huawei Ascend NPUs, which are domain-specific accelerators designed for deep learning workloads». Это не попытка сделать «лучший формат для всех» — это точечная оптимизация под конкретное железо с жёсткими ограничениями по энергии.
Получается вертикально интегрированный стек: свои чипы, свой формат данных, свои модели. Apple десятилетиями доказывала, что вертикальная интеграция даёт преимущество в потребительской электронике. Huawei, похоже, переносит этот принцип в мир AI-инфраструктуры.
Санкции как двигатель инноваций
За техническими деталями стоит геополитическая картина. С 2022 года США ограничивают экспорт передовых GPU в Китай. Nvidia не может поставлять H100 и A100 в полном объёме, а «урезанные» версии типа H20 уступают оригиналам. Китайские компании вынуждены работать с тем, что есть — а есть Ascend-чипы от Huawei, которые по чистой вычислительной мощности уступают продукции Nvidia.
Но именно это ограничение создаёт стимул для инноваций в эффективности. Если нельзя увеличить количество вычислений — нужно увеличить их качество. Отсюда инвестиции в низкоточные форматы: каждый бит, сэкономленный на хранении весов, означает больше модели в той же памяти, больше батч на том же чипе, быстрее обучение при том же энергопотреблении. HiFloat4 — прямое следствие этой логики.
Параллель с историей: в 1970-х японские автопроизводители, не имевшие доступа к дешевой стали и большим заводам, как американские конкуренты, были вынуждены оптимизировать каждый процесс. Результат — Toyota Production System, которая позже стала мировым стандартом. Экспортные ограничения на чипы могут сыграть аналогичную роль для китайской AI-индустрии.
Что значит для индустрии
Результаты HiFloat4 важны по нескольким причинам. Во-первых, они показывают, что китайские чипы — не просто копии западных, а платформы с собственной технической культурой. Ascend NPU были разработаны Huawei задолго до санкций, но именно ограничения ускорили развитие проприетарных форматов и инструментов.
Во-вторых, возникает стратегический вопрос: если 4-битное обучение на «медленных» чипах даёт результаты, сопоставимые с полноточной BF16 на «быстрых», значит ли это, что тотальное превосходство по чистому «железу» перестаёт быть решающим фактором? Пока нет — разрыв в абсолютных мощностях всё ещё огромен. Но тренд работает против западного доминирования.
В-третьих, это первый задокументированный случай, когда китайский формат низкой точности превосходит западный стандарт на реальных задачах обучения LLM. До этого китайские работы в этой области были либо теоретическими, либо показывали паритет. HiFloat4 — это уже преимущество, пусть и в узкой области.
Есть и практический урок для западных компаний: когда ресурсы ограничены, эффективность оптимизации софта может перевесить преимущество в «железе». Nvidia доминирует не только благодаря мощным GPU, но и потому, что CUDA создавалась 15 лет и стала стандартом де-факто. Huawei повторяет этот путь — создаёт экосистему вокруг Ascend, где HiFloat4 становится частью стековой цепочки: чип, формат, фреймворк, модель. Каждый элемент усиливает остальные, и выбить один — не значит разрушить всю конструкцию.
Наконец, для open-source-сообщества результаты HiFloat4 — сигнал, что путь к эффективному обучению не обязательно лежит через покупку H100 за $30 000. Если 4-битный формат действительно держит ошибку в пределах 1%, то команда исследователей с ограниченным бюджетом потенциально может обучить конкурентоспособную модель на значительно более дешёвом оборудовании. Правда, для этого нужен доступ к Ascend-чипам или аналогичная реализация на доступном железе — и это отдельная проблема.
Ограничения и вопросы
Исследование Huawei не лишено ограничений. Тесты проводились только на Ascend-чипах — нет данных о том, как HiFloat4 поведёт себя на Nvidia или AMD. Формат оптимизирован под конкретное железо, и его переносимость — открытый вопрос.
Кроме того, максимальная модель в тестах — 30B параметров. Frontier-модели вроде GPT-5 или Claude Opus содержат на порядки больше параметров, и поведение 4-битных форматов при масштабировании до таких размеров может отличаться. Возможны сюрпризы — как в лучшую, так и в худшую сторону.
Наконец, есть вопрос воспроизводимости. Исследование проведено Huawei на собственных чипах, и независимое подтверждение результатов пока отсутствует. Хотя техническое описание формата опубликовано на arXiv, полный код и инструменты для обучения на Ascend недоступны широкой аудитории. Это не умаляет ценности работы, но напоминает: любой бенчмарк, проведённый вендором на собственном оборудовании, стоит воспринимать с долей скепсиса до независимой проверки.
Зависит ли HiFloat4 от конкретной архитектуры Ascend?
Частично — да. Формат учитывает особенности конвейера вычислений Ascend NPU, включая то, как эти чипы обрабатывают операции с низкой точностью на аппаратном уровне. Теоретически HiFloat4 можно реализовать и на других платформах, но без аппаратной оптимизации преимущество перед MXFP4 может исчезнуть. Это классический tradeoff: универсальность против эффективности.
Часто задаваемые вопросы
Что такое 4-битное обучение и зачем оно нужно?
4-битное обучение — это метод сжатия данных, при котором каждый вес нейросети хранится в 4 битах вместо стандартных 16 или 32. Это сокращает потребление памяти в 4–8 раз и ускоряет вычисления, позволяя обучать большие модели на менее мощном оборудовании. Компромисс — небольшая потеря точности, которую форматы вроде HiFloat4 минимизируют.
Чем HiFloat4 отличается от квантизации?
Квантизация обычно применяется к уже обученной модели для ускорения вывода (inference). HiFloat4 — это формат для самого процесса обучения (training), что значительно сложнее: ошибки округления накапливаются на каждом шаге градиентного спуска. Обучать в 4 битах — это как писать шариковой ручкой вместо перьевой, но при этом не терять разборчивость текста.
Может ли HiFloat4 использоваться за пределами Huawei?
Теоретически концепция переносима, но на практике HiFloat4 оптимизирован под архитектуру Ascend NPU. Для использования на Nvidia или AMD потребовалась бы адаптация, и преимущество перед MXFP4 может исчезнуть. Ценность формата — в его интеграции с конкретным «железом».
Итог
HiFloat4 — это технически изящное и стратегически значимое достижение. Huawei показала, что при грамотной оптимизации формата данных «медленные» чипы могут обучать модели с потерей менее 1% относительно полноточной базы. Экспортные ограничения, задуманные как тормоз китайского AI, парадоксально стимулируют инновации в эффективности — направлении, которое в условиях изобилия вычислительных ресурсов западные компании развивают менее охотно. Вопрос не в том, догонит ли Китай по «железу» — вопрос в том, будет ли это иметь значение, если софтверная оптимизация компенсирует аппаратное отставание.