AI Co-Mathematician: Google научил ИИ быть соавтором математиков
Математик Марк Лакенби загрузил формулировку открытой задачи из Kourovka Notebook — сборника нерешённых проблем в теории групп, который ведётся с 1965 года. Система не выдала мгновенный ответ. Вместо этого она начала диалог: уточнила условия, запустила два параллельных потока — один пытался доказать утверждение, другой опровергнуть — и через несколько итераций нашла изящную стратегию доказательства. Лакенби увидел в ней знакомые приёмы, понял, как заполнить пробел, и вместе они решили задачу, открытую более полувека. Это не фантастика — это AI Co-Mathematician от Google DeepMind, статья о котором появилась на arXiv 7 мая 2026 года.
Что такое AI Co-Mathematician
AI Co-Mathematician — это интерактивная агентная система, спроектированная специально для математических исследований. В отличие от ChatGPT или Claude, которые работают в режиме «вопрос-ответ», эта система создаёт полноценное рабочее пространство, где математик и ИИ совместно ведут исследовательский проект. Под капотом — иерархия агентов на базе Gemini 3.1, координатор проекта распределяет задачи между специализированными агентами для поиска литературы, вычислений, доказательств и написания отчётов, причём всё это происходит асинхронно и параллельно.
Почему не чат-бот
Авторы статьи начинают с наблюдения, которое подтверждает любой, кто пробовал вести математическое исследование с помощью LLM: чат-интерфейс фундаментально не подходит для настоящей научной работы. Математик не задаёт один вопрос и не получает один ответ. Он формулирует гипотезу, проверяет её на контрпримерах, обнаруживает, что определение неточно, переформулирует задачу, обращается к литературе, запускает вычисления — и всё это происходит циклично на протяжении дней и недель.
Обычный чат теряет контекст между сессиями. Специализированные движки вроде AlphaProof доказывают теоремы, но не помогают искать литературу или строить вычислительные модели. AI Co-Mathematician заполняет именно этот пробел — пространство, где все элементы исследования связаны между собой и сохраняют состояние.
Семь принципов архитектуры
Команда DeepMind сформулировала семь принципов, на которых построена система, и каждый из них отражает реальный опыт работы с математиками.
Математика — это не только доказательства. Статья ссылается на идеи Имре Лакатоса о квазиэмпирической природе математики. Настоящее исследование включает генерацию идей, поиск литературы, численные эксперименты, построение интуиции — и только потом формальное доказательство. Система поддерживает все эти виды активности через специализированных агентов.
Итеративное уточнение намерений. Георг Кантор говорил, что искусство постановки вопроса ценнее решения. Система начинает работу не с выполнения, а с диалога — уточняет, что именно хочет исследователь, предлагает формулировки целей и ждёт одобрения. Это принципиально отличается от «zero-shot» запроса, где пользователь должен идеально сформулировать задачу с первого раза.
Нативные математические артефакты. Вместо чат-логов система создаёт «рабочий документ» в формате LaTeX — с пояснениями, маргинальными заметками о происхождении каждого утверждения и ссылками на внутренние файлы. Это важно: математики привыкли работать с текстами, и формат документа помогает им оценить, что твёрдо доказано, а где есть пробелы.
Асинхронность и управление вниманием. Несколько агентов работают параллельно, а пользователь взаимодействует в первую очередь с координатором проекта. Координатор фильтрует низкоуровневый шум от агентных логов и показывает только существенное. Но при желании математик может «провалиться» в детали любого конкретного потока работ.
Управление неопределённостью. Система отслеживает, какие утверждения доказаны, какие под вопросом, а какие провалились. Каждый проход через рецензирующего агента помечает статус утверждения, а если проверка застревает — система явно просит пользователя о помощи, подсвечивая проблемный участок в документе.
Сохранение истории неудач. Тупиковые ветки исследований не удаляются. Система хранит полный журнал проваленных стратегий, потому что в математике знание о том, что не работает, часто важнее, чем очередной положительный результат.
Программные ограничения. Агенты не могут пометить код как готовый, пока тесты не пройдут и рецензент не одобрит результат. Если агент застрял, он не перезапускается тихо — координатор явно сообщает пользователю о проблеме.
Как это выглядит на практике
Авторы разбирают реальную сессию: исследователь загружает статью о «задаче о движущемся диване» — классической проблеме вычислительной геометрии о максимальной площади фигуры, которая может обогнуть прямой угол в коридоре. Система не бросается решать задачу. Координатор задаёт уточняющие вопросы: «Бэк уже доказал, что нижняя оценка Джервера точна для классической задачи. Но верхние оценки для двух других вариантов всё ещё открыты. Хотите сосредоточиться на одном или на обоих?»
После уточнения координатор создаёт три параллельных потока: поиск литературы, построение вычислительной модели и execution поиска. Каждый поток развивается самостоятельно, периодически обновляя отчёт, который видит пользователь. Когда вычислительный агент натыкается на слишком большое пространство поиска и не может найти результат, координатор не скрывает проблему — он обращается к математику: «Наша текущая реализация недостаточно эффективна. Есть ли у вас математическая интуиция для лучшей стратегии отсечения?»
Математик предлагает топологическую эвристику, координатор добавляет новый поток, и процесс продолжается. Результат каждого потока — скомпилированный LaTeX-документ с маргинальными заметками, рецензиями и ссылками на внутренние файлы.
Реальные результаты математиков
Три кейса из статьи иллюстрируют разные сценарии использования системы.
Марк Лакенби — профессор Оксфорда, работающий в топологии и теории групп. Он использовал систему для исследования задачи 21.10 из Kourovka Notebook: допускает ли любая конечная группа «просто конечное представление» — конечную систему определяющих соотношений, удаление любого из которых приводит к бесконечной группе. Система запустила два противоположных потока, и один из них нашёл стратегию доказательства, хотя рецензент нашёл ошибку. Лакенби увидел в этой ошибочной стратегии ключ к исправлению и завершил доказательство. Оказалось, что ответ утвердительный. Лакенби отмечает: «Система работает лучше всего, когда пользователь знаком с областью» — что звучит как комплимент инструменту, а не как ограничение.
Гергей Берчи подошёл к системе иначе. Он подготовил подробную записку с фоном по гипотезам о коэффициентах Стирлинга для симметрических степеней представлений, включая результаты своих предыдущих экспериментов с AlphaEvolve. Система установила доказательства для двух из трёх гипотез, а маргинальные комментарии помогли Берчи заметить ключевой инсайт, который он затем обсудил с координатором в чате. Его наблюдение: «Будет большая разница между математиками, как они используют эти модели» — подчёркивает, что навык взаимодействия с ИИ становится конкурентным преимуществом.
Семон Резчиков дал системе техническую задачу из своих исследований гамильтоновых систем. Система нашла элегантную лемму с доказательством, которое выдержало проверку. Резчиков отметил два ключевых момента: система помогла ему быстрее дойти до тупика в неперспективном направлении («Я мог бы потратить неделю, мечтая об этом, а вместо этого просто пошёл дальше») и качество доказательств оказалось высоким — по его оценке, «эстетически лучший стиль доказательств среди всех моделей, с которыми я работал».
48% на FrontierMath Tier 4
Помимо интерактивной работы, команда протестировала систему на FrontierMath Tier 4 — бенчмарке от Epoch AI, который включает 50 задач, составленных профессорами и постдоками как «короткие исследовательские проекты». По словам самих Epoch AI, некоторые из этих задач «могут оставаться нерешёнными ИИ на протяжении десятилетий».
AI Co-Mathematician решил 23 из 48 задач, набрав 48% — это новый рекорд среди всех ИИ-систем, тестировавшихся на этом бенчмарке. Для сравнения: базовая модель Gemini 3.1 Pro, на которой построена система, набирает 19%. Разница в 29 процентных пунктов демонстрирует, чего стоит агентная архитектура с параллельными потоками, обязательным рецензированием и инструментами.
Важно понимать контекст: система использовалась в специальном «автономном режиме» без участия человека, с лимитом 48 часов на задачу. Некоторые задачи требовали значительных вычислительных ресурсов, но авторы отмечают, что объём вычислений сопоставим с длинной сессией ИИ-ассистента в программировании.
На внутренних бенчмарках
Команда DeepMind также протестировала систему на внутреннем наборе из 100 исследовательских математических задач с проверяемыми ответами. AI Co-Mathematician значительно превзошёл и Gemini 3.1 Pro, и Gemini Deep Think — хотя сам использует эти модели в качестве базовых компонентов.
Интересны конкретные примеры. В задаче о геометрических тайлингах система свела ядро вопроса к задаче булевой выполнимости (SAT) и решила её с помощью библиотеки PySAT. Обычные модели пытались решить задачу чисто теоретически — значительно более сложный путь. В задаче по теории представлений система использовала поиск по литературе, чтобы найти точные формулировки теорем из релевантных статей — то, что модели без доступа к литературе сделать не могут.
Ограничения и проблемы
Авторы честно описывают недостатки системы. Один из самых интересных — «смещение в сторону рецензента»: когда агент пишет ошибочное доказательство и не может его исправить, итеративный процесс рецензирования иногда сходится к аргументу, который выглядит убедительно для рецензирующего агента, но на самом деле содержит ошибки. Это похоже на ситуацию, когда студент переписывает работу, пока преподаватель не перестанет замечать ошибку, а не пока действительно её не исправит.
Другая проблема — бесконечные циклы разногласий. Когда рецензент и автор не могут договориться, система впадает в «спираль смерти» — всё более галлюцинирующие рассуждения. Ранние пользователи научились распознавать это состояние и снижать доверие к таким потокам.
Авторы также поднимают системные вопросы: рост «семантического шума» в литературе, нагрузка на систему рецензирования и риск того, что автоматизированные рецензенты будут оценивать математику механически, упуская эстетику и глубину.
Что это значит для математики и ИИ
AI Co-Mathematician — не очередной чат-бот, который «почти решает» задачи. Это попытка перестроить весь процесс взаимодействия между математиком и ИИ. Ключевой инсайт: чистая вычислительная мощь уже не главное ограничение. Система с доступом к литературе, вычислительным инструментам и иерархической организации работы системно превосходит базовую модель, даже когда базовая модель — та же самая.
Практический вывод для математиков: навык формулирования задач и управления ИИ-агентами становится частью профессии. Как отметил Берчи, разница между тем, как математики будут использовать эти модели, может стать значимой. Те, кто научится готовить структурированные описания проблем, давать контекст и вовремя вмешиваться в агентные процессы, получат реальное преимущество.
Для разработчиков ИИ-систем статья предлагает важный урок: архитектура агентов с рецензентами, ограничениями и явным управлением неопределённостью работает лучше, чем простое масштабирование одной модели. И этот принцип применим далеко за пределами математики.
Часто задаваемые вопросы
AI Co-Mathematician доступен публично?
Пока нет. Система проходит ограниченное тестирование среди профессиональных математиков. Google DeepMind планирует расширить доступ в будущем, но конкретных сроков не названо.
Чем это отличается от ChatGPT или Claude для математики?
Кардинально. Чат-боты работают в режиме отдельных запросов без сохранения состояния. AI Co-Mathematician создаёт рабочее пространство с параллельными потоками исследований, поиском литературы, вычислительными инструментами, рецензированием и полным журналом всех попыток — успешных и проваленных.
Может ли система работать полностью автономно?
Да, для бенчмарков она работает в автономном режиме с лимитом до 48 часов. Но авторы подчёркивают, что наибольшая ценность системы — в интерактивном режиме, где математик направляет исследование и вмешивается в ключевые моменты.
Итог
AI Co-Mathematician от Google DeepMind — это первая агентная ИИ-система, спроектированная не для решения изолированных задач, а для полноценного сопровождения математического исследования. Рекорд 48% на FrontierMath Tier 4 и реальное решение открытых задач из Kourovka Notebook показывают, что архитектура с иерархией агентов, обязательным рецензированием и явным управлением неопределённостью создаёт качественно новый уровень взаимодействия между человеком и ИИ. Ключевой вопрос, который оставляет статья: не «когда ИИ решит все задачи», а «как изменится сама математическая практика, когда каждый исследователь получит такого соавтора».