11.05.2026 Исследования

Edge AI: как нейросети захватывают города и спутники

Большинство людей думает об ИИ как о чат-боте в браузере или голосовом помощнике в телефоне. Но за последний месяц вышли два исследования, которые показывают совершенно другую картину: нейросети уходят из облака прямо на улицы городов и на борт спутников. Индийские инженеры построили систему, которая анализирует трафик тысяч камер в реальном времени, используя маленькие GPU на обочине дороги. Немецкие исследователи запустили модель для оценки толщины морского льда прямо на FPGA-плате, которая может работать на спутнике. Это не футуристика — это прототипы, которые уже доказали работоспособность.

Что такое edge AI и почему это важно

Edge AI — это запуск нейросетей не в дата-центре, а на устройстве, ближайшем к источнику данных: камере, микрофоне, датчике, спутнике. Идея проста: зачем гонять видеопоток с тысяч камер через интернет в облако, если можно обработать его на месте и отправить только результат — «здесь пробка» или «новый тип машины обнаружен».

Экономия bandwidth огромна. Один видеопоток с камеры наблюдения — это 2–4 мегабита в секунду. Тысяча камер — 2–4 гигабита. Передавать всё это в центральный дата-центр дорого, медленно и ненадёжно. Edge-вычисления решают эту проблему, перенося анализ к источнику. Но до недавнего времени железо на периферии было слишком слабым для серьёзных нейросетей. Jetson и FPGA меняют это.

Городская сеть: Bengaluru и её тысяча камер

Исследователи из Indian Institute of Science в Bengaluru построили систему под названием AIITS — AI-driven Intelligent Transportation System. Цель амбициозна: получить аналитику в реальном времени от тысяч городских камер при строгих ограничениях по задержке и ресурсам. Система уже протестирована на симуляции ста камер в одном из районов города, и авторы планируют масштабирование до тысячи потоков для живой демонстрации.

Архитектура системы двухуровневая. На первом уровне — edge: рядом с каждой камерой ставится NVIDIA Jetson, лёгкий GPU-ускоритель, который потребляет десятки ватт и стоит сотни долларов. Видеопоток с камеры поступает на Jetson, где сегментационная модель SAM3 выделяет все объекты в кадре, а детектор YOLO26 классифицирует их и рисует bounding box. Multi-object tracker BoT-SORT отслеживает каждую машину по кадрам, присваивая постоянный ID — система знает, что это та же машина, что была три секунды назад.

Результат edge-обработки — не видео, а структурированные данные: тип транспортного средства, скорость, направление, координаты. Эти данные отправляются на второй уровень — центральный GPU-сервер, который делает две вещи. Первое: строит «погодную карту» пробок и делает предсказания о будущем трафике. Второе: управляет федеративным обучением. Когда edge-узлы обнаруживают новые классы транспортных средств — например, новую модель электроскутера, которой не было в обучающей выборке — центральный сервер обновляет глобальные веса модели и рассылает их обратно на все Jetson-узлы. Каждый узел делает локальное дообучение, инициализированное свежими глобальными весами.

Эксперимент моделировался на кластере Raspberry Pi, эмулирующих сто параллельных RTSP-потоков. Система справилась с нагрузкой, и авторы заявляют о планах масштабирования до тысячи потоков. Ключевое преимущество — отказ от централизованного bottleneck: видео не гоняется по сети, анализ происходит локально, и инфраструктура становится масштабируемой по принципу «добавь ещё один Jetson».

Спутниковая нейросеть: TinyIceNet и лёд Арктики

Второй проект — от немецкого ИИ-центра DFKI — нацелен на совершенно другую среду: полярные регионы и космос. TinyIceNet — это крошечная vision-модель, которая оценивает толщину и тип морского льда по данным радиолокационного зондирования (SAR). Зачем это нужно? Потому что спутники, летающие над Арктикой, генерируют огромные объёмы сырых данных, а downlink — узкое горло. Если спутник может сам обрабатывать изображения и отправлять только готовые карты льда, экономия bandwidth исчисляется порядками.

Модель построена на упрощённой архитектуре U-Net и обучена на датасете AI4Arctic, содержащем 533 netCDF-файла с SAR-изображениями и картами типов льда. Обучение заняло 500 итераций на одном GeForce RTX 4090. Но самое интересное — не обучение, а инференс. Авторы целенаправленно оптимизировали модель под FPGA-плату AMD Xilinx ZCU102, которая сочетает четырёхъядерный ARM Cortex-A53 с программируемой логикой.

Результаты на трёх платформах показательны. RTX 4090 даёт 764.8 кадров в секунду, но потребляет 228.7 мДж на сцену — слишком много для спутника. Jetson AGX Xavier выдаёт 47.9 fps при 1218.5 мДж — ещё хуже по энергии. А вот Xilinx ZCU102 FPGA: всего 7 fps, но 113.6 мДж на сцену. Это почти вдвое меньше энергии, чем у десктопной карты, и при том FPGA может работать в космических условиях, где радиация убивает обычные GPU.

Оптимизация достигнута через фреймворк DeepEdgeSoC, который предоставляет библиотеку модульных C++ блоков — свёртки, пулинг, активации, буферы feature maps — специализируемых на этапе компиляции через шаблоны. Это позволяет точно подогнать модель под доступные ресурсы FPGA, не тратя логические элементы на универсальность.

Технические детали: как это работает под капотом

Оба проекта сталкиваются с одной фундаментальной проблемой edge computing: модели, обученные в дата-центре на мощных GPU, нужно сжать до размеров, позволяющих работать на устройствах с жёсткими ограничениями по памяти, энергии и тепловыделению. Подходы разные, но логика схожа.

В Bengaluru используется каскадная архитектура: лёгкая сегментация (SAM3) выделяет ROI — region of interest — а более тяжёлый детектор (YOLO26) работает только на этих выделенных областях. Это классический трюк computer vision: не анализировать весь кадр, а сфокусироваться на потенциально интересных зонах. BoT-SORT добавляет временную когерентность: трекер знает, что объект с ID 47 на кадре N — это тот же объект, что на кадре N-1, и может предсказывать его позицию, если детектор на мгновение потерял его за препятствием. Это снижает ложные срабатывания и делает систему устойчивой к кратковременным ошибкам детекции.

Федеративное обучение в Bengaluru — это не просто модное слово. Каждый Jetson-узел хранит локальные данные и делает локальные шаги градиентного спуска, отправляя на центральный сервер только обновлённые веса, а не сырые данные. Это решает две проблемы: приватность (видео не покидает edge-узел) и масштабируемость (центральный сервер обрабатывает килобайты весов, а не гигабайты видео). Когда центральный сервер усредняет веса и рассылает обратно, каждый узел получает выгоду от опыта всех остальных, не раскрывая своих данных.

TinyIceNet использует другую стратегию сжатия: архитектурную простоту. Вместо того чтобы брать готовую модель и квантовать её, авторы спроектировали U-Net с минимальным числом параметров с самого начала. Каждый свёрточный слой подбирался так, чтобы после компиляции в DeepEdgeSoC занимать ровно столько логических элементов FPGA, сколько доступно. Это co-design: модель проектировалась под железо, а не адаптировалась к нему постфактум. Результат — 7 fps при 113.6 мДж, что для спутника означает возможность непрерывной работы от солнечных батарей без разряда аккумуляторов.

Почему оба проекта важны вместе

Взятые по отдельности, оба исследования — хорошие инженерные работы. Вместе они показывают паттерн: edge AI выходит из стадии «proof-of-concept для одного устройства» в стадию «системная инфраструктура». Bengaluru демонстрирует масштабирование по горизонтали — тысяча узлов, федеративное обучение, распределённая аналитика. TinyIceNet демонстрирует оптимизацию по вертикали — максимальное сжатие модели под жёсткие энергетические и радиационные ограничения.

Объединяет их одна тенденция: ИИ перестаёт быть сервисом, который вы вызываете через API, и становится инфраструктурой, встроенной в физический мир. Камеры больше не просто снимают — они понимают. Спутники больше не просто передают — они анализируют. Это меняет баланс между централизованным интеллектом и распределённым восприятием.

Риски и компромиссы

Любая инфраструктура наблюдения — это двусторонняя монета. С одной стороны, эффективность: меньше пробок, точнее прогнозы погоды, быстрее реакция на ЧП. С другой — потенциал для тотального контроля. Когда тысяча камер в городе не просто записывает, а классифицирует, отслеживает и предсказывает, масштаб сбора данных качественно меняется. Bengaluru пока ограничивается трафиком, но архитектура универсальна: те же Jetson-узлы могут распознавать лица, анализировать поведение толпы, детектировать «аномалии».

Авторы обоих проектов это осознают. В статье про AIITS прямо сказано: «This kind of intelligence can both create large surveillance architectures and increase the efficiency with which cities operate — as with so many things with AI, it is all a balance, bounded by the surrounding thicket of norms and laws». Вопрос не в технологии — она уже работает. Вопрос в нормах и законах, которые будут её ограничивать.

Часто задаваемые вопросы

Что такое edge computing простыми словами?

Это вычисления, которые происходят близко к источнику данных, а не в удалённом дата-центре. Вместо того чтобы отправлять видео с камеры в облако для анализа, вы запускаете нейросеть прямо на устройстве рядом с камерой. Результат — меньше задержек, меньше нагрузки на сеть, больше приватности.

Почему для спутников используют FPGA, а не обычные GPU?

FPGA — программируемая логика, которая потребляет меньше энергии и устойчивее к космической радиации, чем GPU с их чувствительной DRAM-памятью. В космосе каждый ватт и каждый грамм на счету, а FPGA можно переконфигурировать после запуска, если потребуется обновить модель.

Может ли такая система работать в российских городах?

Технически — да. NVIDIA Jetson доступен на российском рынке через параллельный импорт, а архитектура федеративного обучения не зависит от геополитики. Практически — масштабирование до тысячи камер требует инфраструктуры, бюджета и политической воли. Bengaluru показала, что прототип возможен на уровне исследовательского института.

Итог

Edge AI перешла из разряда «интересных экспериментов» в разряд «работающей инфраструктуры». Городские камеры на Jetson и спутниковые нейросети на FPGA — это два конца одного спектра: от массового горизонтального масштабирования до максимальной вертикальной оптимизации. Общий вывод: нейросети уходят из облака в физический мир, и это меняет не только технологию, но и баланс сил между централизованным контролем и распределённым интеллектом. Вопрос уже не «сможет ли ИИ работать на периферии», а «какие нормы и законы ограничат эту способность».