5 прорывов, которые изменят ИИ: от диффузии до машин непрерывного мышления
Трансформер оставался доминирующей архитектурой в ИИ семь лет. С 2017 года индустрия последовательно улучшала один и тот же фундамент: больше слоёв, больше данных, больше вычислений. Но сейчас пять независимых исследовательских групп работают над тем, чтобы заменить его чем-то принципиально иным. И данные указывают в одну сторону.
Трансформер упирается в свои пределы
Прежде чем разбирать альтернативы, важно понять, куда упирается текущая архитектура. Attention — ядро трансформера — сравнивает каждое слово с каждым другим словом в последовательности. Это квадратичная операция: удвоили длину контекста — вчетверо выросли затраты на вычисления. При 10 000 токенах на один ответ модель выполняет эту операцию тысячи раз за генерацию.
Вторая фундаментальная проблема — вынужденный коллапс в читаемую форму. Трансформер генерирует текст слово за словом в человекочитаемом формате. Это создаёт artificial constraint: модель обязана выражать сложные внутренние представления в линейной последовательности букв, подчиняясь правилам грамматики. Много информации теряется при каждом такте.
Третья — невозможность истинного обучения после инференса. Модель обучается один раз, на фиксированном датасете, и остаётся замороженной. Perplexity и Cursor экспериментируют с continual learning, но пока это остаётся экзотикой.
Прорыв 1: диффузионные языковые модели — в 10 раз быстрее
Диффузионные модели уже завоевали область генерации изображений и видео: они строят картинку итеративно, от шума к структуре, и делают это лучше, чем ранние GAN-модели. Теперь та же логика приходит в языковые модели.
Professor Stefano из Стэнфорда — один из пионеров диффузионных моделей для изображений 2019 года — утверждает, что для языка результат будет аналогичным: диффузионные модели превзойдут авторегрессионные по качеству и скорости. Ключевое преимущество — параллельная природа рефайнинга. Вместо генерации одного токена за такт модель работает со всеми токенами одновременно. Для авторегрессионной модели это критично: ошибка в первых словах распространяется на весь ответ, исправить её нельзя. Диффузионная модель свободно редактирует любой токен в любой позиции.
По данным Inception Labs, диффузионные языковые модели уже работают примерно в 10 раз быстрее авторегрессионных при сопоставимом качестве. Mercury — первая коммерческая диффузионная языковая модель от Inception Labs. Google представила Gemini Diffusion в мае 2025. Open-source сообщество развивает Dream 7B. Разрыв между диффузионными и авторегрессионными моделями сокращается, и к 2026 году ожидается появление серьёзного конкурента.
Прорыв 2: subquadratic attention — бесконечный контекст без квадратичной цены
Subquadratic attention решает главную вычислительную проблему стандартного attention: квадратичный рост затрат. Вместо сравнения каждого слова с каждым word-by-word, линейная attention сначала вычисляет математическую сводку всей последовательности и сравнивает все слова с этой сводкой. Это линейная операция: пять слов — пять сравнений, независимо от длины. Но при сжатии в сводку теряется часть смысла, и качество падает.
Manifest AI предложила Power Attention — механизм, который динамически переключается между standard attention для короткого контекста и линейной attention для длинного. Пока контекст помещается в эффективную память — используется точный attention. Когда контекст становится слишком большим — older parts автоматически сжимаются в линейную сводку. Результат: Power Attention превосходит стандартный transformer при всех размерах контекста, особенно при больших. Это позволяет сохранять баланс между качеством и вычислительной стоимостью независимо от длины последовательности.
Google's Titans paper описывает техники, которые компания планирует использовать, и масштабирование до 10 миллионов токенов. Это сильный сигнал: гиперскейлеры активно работают над subquadratic фундаментальными моделями. По прогнозам, к концу 2025 года каждый крупный игрок будет работать над subquadratic foundation model. К концу 2026 года использование стандартных transformer моделей станет редкостью.
Прорыв 3: latent space thinking — модель думает в своём пространстве, не в словах
OpenAI анонсировала направление research, которое позволяет моделям думать внутри, не в человекочитаемой форме. Это радикальное отклонение от chain-of-thought рассуждений, где модель показывает свои шаги в виде текста.
Ключевая идея: части внутреннего рассуждения модели остаются приватными во время обучения. Это не читаемые цепочки — это внутренние представления модели, которые она использует для обработки информации. OpenAI утверждает, что это даёт два преимущества. Первое — scalability: контролируемая приватность не противоречит способности мониторить модель. Второе — faithfulness: читаемый chain-of-thought часто толкает модель к неискренним рассуждениям, когда модель говорит одно, а делает другое. Приватное мышление может быть более безопасным, потому что внутренние рассуждения остаются согласованными с тем, что модель действительно думает.
DeepSeek R1 изначально показал: если не заставлять модель думать в человекочитаемом формате, она естественно начинает смешивать языки, изобретать слова и использовать странные символы. Можно пойти дальше: отказаться от слов при мышлении полностью и позволить модели оперировать в богатых векторных представлениях. Это звучит экзотично, но это направление уже в работе у ведущих лабораторий.
Прорыв 4: nested learning — модель учится, не забывая главное
Google представила nested learning — алгоритм continual learning, который разделяет learned data от core model. Это принципиально иной подход к адаптации моделей. Текущие модели — ChatGPT, Claude, Gemini — обучаются один раз и остаются замороженными. Вы не можете сказать ChatGPT «запомни, что я предпочитаю краткие ответы» и ожидать, что он научится этому. Nested learning обещает решить именно эту проблему.
Модель не запоминает точное содержание каждого разговора, но важные сигналы поднимаются наверх, проходя через шум миллионов взаимодействий. Core model остаётся нетронутой, а отдельный memory layer накапливает знания из публичных взаимодействий. Это решает главную проблему continual learning — catastrophic forgetting, когда новая информация вытесняет старую.
Текущая проблема continual learning в продуктах вроде Cursor: если позволить модели учиться на пользовательском фидбеке напрямую, практически невозможно контролировать, что именно усиливается в цикле обучения. OpenAI и Google изучали это направление, но опасались непредсказуемых последствий. Nested learning обходит часть проблемы: core model защищена от катастрофического забывания, а separate learning layer аккумулирует сигналы контролируемо.
Архитектура вводит multiple updatable memory layers. Представьте ИИ, у которого есть real-time sense того, что сейчас в тренде, что произошло на этой неделе, и что принадлежит долгосрочной памяти — без необходимости искать. Система использует surprise mechanism, чтобы решать, что стоит запомнить, а что нет. Это те же исследователи, что работали над Titans algorithm — nested learning это, по сути, улучшенная версия того же подхода.
Прорыв 5: continuous thought machine — первая серьёзная замена трансформера
Самая неожиданная часть — continuous thought machine (CTM). Архитектура, которую представил Leon Jones, один из авторов оригинальной статьи Attention is All You Need 2017 года. Jones работал в Google Brain и теперь развивает альтернативу своему же детищу.
CTM построена на двух фундаментальных идеях, которые современный ИИ почти полностью устранил ради простоты: thinking и time. В трансформере информация течёт только вперёд через фиксированное число слоёв — независимо от сложности задачи, модель обязана выдать слово на последнем слое. Всё богатство внутренних представлений коллапсирует в один выбор из ограниченного словаря. Это как заставить учёного написать ответ за фиксированное время, независимо от сложности вопроса.
CTM добавляет decoupled time dimension: модель может думать минуту над простым вопросом или секунду над сложным. Каждый нейрон — своя динамическая система с internal weights, которая отслеживает историю сигналов, а не только текущий сигнал. Результат: сеть естественно развивает динамическую вычислительную активность. Для простых задач — snap decisions. Для сложных — модель продолжает думать, пока не достигнет высокой уверенности.
Самое интересное свойство: у модели появляется native confidence variable. Трансформеры не могут по-настоящему сказать, насколько им стоит доверять. CTM отслеживает собственную уверенность через время и естественным образом решает одну из самых неприятных проблем текущего ИИ — reliability.
На бенчмарке с лабиринтом, где модель должна найти путь в 100 шагов без карты, трансформеры и LSTM застревали на 20 шагах и не могли двигаться дальше. CTM, обученная на 100-шаговых лабиринтах, решила задачу и успешно обобщила до путей в 800 шагов — хотя никогда не видела таких примеров при обучении. Это показывает, что модель действительно выучила общее процедуру решения лабиринтов, а не запомнила паттерны для конкретной длины.
Почему CTM ещё не заменила трансформеры? Leon Jones объясняет: нужна crushingly большая разница в возможностях. Трансформеры были на порядок лучше RNN — достаточно, чтобы индустрия сдвинулась. CTM пока многообещающая, но не настолько. Кроме того, sequential nature CTM плохо параллелизуется — в мире GPU это критичный недостаток. Параллелизация — основа современного ускорения обучения и инференса. CTM требует результат одного шага, чтобы начать следующий — это фундаментальное архитектурное ограничение.
Что это значит для индустрии
Пять независимых линий research сходятся к одному выводу: трансформер — не финальная архитектура, а промежуточный этап. Диффузионные модели обеспечивают скорость и встроенную коррекцию ошибок. Subquadratic attention снимает проблему масштабирования контекста. Latent space thinking убирает artificial constraint человекочитаемого языка. Nested learning делает модели адаптивными. CTM показывает, что thinking и time — фундаментальные свойства интеллекта, которые нельзя вырезать без потери качества.
Epoch AI прогнозирует: к 2030 году ИИ внесёт вклад в решение открытых математических задач, признанный математиками как выдающийся вклад в науку. Но для этого нужны архитектуры, которые действительно понимают понятие спирали, а не аппроксимируют его кусочно-линейными границами. Трансформеры способны на это? Пока нет. Но какая-то из этих пяти технологий, вероятно, будет.
Часто задаваемые вопросы
Когда трансформеры перестанут доминировать?
По оценкам из видео, к концу 2026 года. Но доминирование не означает исчезновение: CUDA-инфраструктура, фреймворки, опыт обучения — всё это накоплено для трансформеров. Переход будет постепенным, как переход от RNN к трансформерам в 2017–2020 годах.
Почему диффузионные языковые модели ещё не вытеснили GPT?
Диффузионные модели младше и прошли через меньше итераций масштабирования. Инвестиции в autoregressive модели исчисляются миллиардами и годами оптимизации. Разрыв сокращается, но для прорыва нужно не просто быть лучше — нужно быть crushingly better, как трансформеры были лучше RNN.
Что практически изменится для разработчиков?
Subquadratic attention означает dramatically более длинные контексты без квадратичного роста стоимости. Nested learning означает модели, которые адаптируются к вашему стилю работы без переобучения. CTM означает модели с genuine self-awareness о собственной неопределённости — вы будете знать, когда модель «не уверена».
Итог
Трансформер прожил семь лет — дольше, чем большинство архитектур в истории ИИ. Но сейчас пять независимых линий research указывают на одно и то же: есть предел возможностям sequential attention, sequential token generation и static weights. Диффузионные модели, subquadratic attention, latent space thinking, nested learning и continuous thought machines — не отдельные техники, а пять граней одной большой идеи: следующее поколение ИИ будет думать глубже, быстрее и адаптивнее. Ближайшие 18 месяцев покажут, какая из этих линий окажется той самой, которая сдвинет индустрию.