GPT-5.5: как ИИ пишет научные статьи и почему всё ещё тупит в простом

GPT-5.5: как ИИ пишет научные статьи и почему всё ещё тупит в простом

Итан Моллик, профессор Уортонской школы бизнеса и один из самых внимательных наблюдателей за ИИ, получил ранний доступ к GPT-5.5 и провёл серию тестов, которые показывают, куда именно сдвинулась граница возможностей. Результаты неоднозначны. Модель написала научную статью, которую Моллик оценил как результат второго года PhD, сгенерировала полноценную настольную ролевую игру в 101 страницу с иллюстрациями и правилами, и создала интерактивную галерею 3D-симуляций. Но при этом фантастика осталась плоской, персонажи говорили одним голосом, а гипотезы — неинтересными. Это не случайные ошибки. Это проявление зубчатого фронтира — явления, которое не исчезает даже у самых передовых моделей.

Что такое GPT-5.5

GPT-5.5 — семейство моделей OpenAI, выпущенное в апреле 2026 года. Флагманская версия Pro доступна только через веб-интерфейс и демонстрирует наибольшую компетентность. По сравнению с GPT-5.4 Pro время выполнения сложных задач сократилось с тридцати трёх минут до двадцати. Модель поддерживает интеграцию с Codex — десктопным приложением для программирования, — и с новым генератором изображений GPT-imagegen-2, который умеет рендерить читаемый текст и сложные визуальные композиции.

Моллик предлагает смотреть на ИИ не как на единую сущность, а как на три переплетающихся слоя: модели, приложения и harnesses — инструменты, которые модель может использовать. GPT-5.5 показывает прогресс сразу во всех трёх. Но прогресс неравномерен, и именно эта неравномерность делает тесты интересными.

Тест первый: научная статья за четыре промпта

Моллик — академик, который десять лет собирал данные о краудфандинге: сотни анонимизированных файлов в форматах STATA, CSV, XLS и Word. Он никак не мог собраться написать статью. GPT-5.5 через Codex получила задание: разобраться в данных, сформулировать гипотезу, протестировать её сложными статистическими методами и написать академическую работу с обзором литературы и форматированием.

Результат оказался технически безупречным. Литературный обзор состоял из реальных источников. Статистика — из реальных данных. Форматирование соответствовало стандартам. Моллик оценил результат как уровень второго года аспирантуры. Но экспертная оценка оказалась менее лестной: гипотеза показалась ему неинтересной, а стандартные опасения по поводу причинности — нерешёнными. Модель применила сложные статистические методы, но не смогла сформулировать вопрос, который действительно двигал бы науку вперёд.

Это классический случай зубчатого фронтира. Модель превосходит человека в обработке данных, скорости анализа и технической грамотности. Но она проваливается в том, что академики называют «вкусом» — интуитивном понимании, какой вопрос стоит задать. Человек, который десять лет работал с темой, чувствует, где лежит интересное. Модель этого не чувствует.

Тест второй: ролевая игра в 101 страницу

Второй тест был амбициознее. Моллик попросил Codex создать настольную ролевую игру с нуля — собственный мир, правила, таблицы, а затем смоделировать игроков, которые в неё играют, и пересмотреть правила на основе обратной связи. Модель сгенерировала 101-страничный PDF с иллюстрациями, созданными через GPT-imagegen-2.

С точки зрения технического исполнения результат впечатляет. Сеттинг оригинален. Правила логичны и опираются на существующие паттерны игр, добавляя уникальные элементы. Но при ближайшем рассмотрении проявляются те же проблемы, которые Моллик наблюдает у каждого поколения моделей при работе с длинной художественной прозой.

Персонажи говорят одним и тем же обрывистым тоном. Метафоры избыточно сложны и не раскрываются: «погода и архитектура — это один и тот же аргумент на разных скоростях» звучит интригующе один раз, но утомляет, когда таких фраз сотни. Диалоги лишены индивидуальности. Имя «Мара» встречается с подозрительной частотой — модель, похоже, зациклилась на нём. Всё это не ошибки формата, а ограничение глубины: модель умеет собирать текст, но не умеет создавать живых персонажей.

Тест третий: 3D-симуляция эволюции города

Для сравнения поколений Моллик дал одинаковое задание четырём моделям: построить процедурно генерируемую 3D-симуляцию эволюции портового города от 3000 года до н.э. до 3000 года н.э. Модели ranged от o3 (выпущенной год назад) до Kimi K2.6 и GPT-5.5 Pro.

Разница оказалась качественной, а не только количественной. Более ранние модели генерировали новые здания, заменяя старые, — но не моделировали эволюцию. GPT-5.5 Pro создал настоящую эволюцию: город развивался, а не просто перестраивался. При этом задача выполнялась на треть быстрее предшественника. Моллик выложил все результаты в интерактивную галерею, которую, кстати, тоже построил GPT-5.5.

Почему зубчатый фронтир не исчезает

Моллик наблюдает за ИИ больше трёх лет, и паттерн не меняется: каждые несколько месяцев выходит новая модель, и то, что было невозможным, становится лёгким. Но зубчатый фронтир — jagged frontier — остаётся. Граница возможностей не гладкая, а зазубренная: модель может быть сверхчеловеческой в одной области и детской в соседней.

В 2023 году Моллик и соавторы описали это явление формально. Человеческие навыки иерархичны: освоив сложное, вы автоматически контролируете простое. У ИИ такой иерархии нет. Способности распределены неравномерно, и «островки компетентности» не соответствуют нашей интуиции. Математика и программирование растут стремительно. Память, долгосрочное планирование и социальное взаимодействие — почти неподвижны. Новое исследование группы AGI Definition подтвердило это эмпирически: карта ИИ-способностей выглядит как лунная поверхность с кратерами и пиками.

Томас Пуэйо в вирусном посте предсказал, что растущий фронтир скоро накроет человеческие способности целиком. Моллик с этим не согласен. Зубчатость может сохраняться даже при сверхчеловеческом общем уровне — и тогда ИИ никогда не совпадёт с человеческими задачами полностью. Вместо замены людей мы получаем долгий период дополнения, когда человек и машина приносят на стол разные навыки.

Генерация изображений как обратный выступ

Одно из открытий Моллика в тесте GPT-5.5 — прогресс в генерации изображений. GPT-imagegen-2 умеет рендерить читаемый текст, создавать сложные композиции и работать в разных стилях. Моллик провёл свой знаменитый «тест с выдрой»: промпт «выдра в самолёте с ноутбуком, использующим Wi-Fi». Результат — профессиональная иллюстрация с читаемыми надписями, правильными тенями и разными ракурсами.

Но главное не качество картинок, а то, что они разблокировали. Все крупные ИИ-компании годами пытались научить модели делать презентации через написание кода. Работало, но результат был скучным. Теперь, с хорошей генерацией изображений, NotebookLM создаёт каждый слайд как отдельную картинку. Презентации становятся визуально выразительными — стилизованными под рисунок от руки, панк-афиши восьмидесятых, драматичный high-contrast дизайн. Интеллектуально сложная часть — анализ материала, структурирование аргументов — ИИ умел и раньше. Но она была бесполезна без визуального выхода. Генерация изображений была обратным выступом. Когда он сломался — всё, что стояло за ним, хлынуло вперёд.

Что это значит для работы и бизнеса

Зубчатый фронтир создаёт парадоксальную ситуацию. Задачи, которые казались безопасными от автоматизации, могут исчезнуть в одночасье, когда соответствующий обратный выступ сломается. И наоборот: задачи, которые кажутся простыми, могут сохраняться годами, потому что ИИ не может преодолеть какой-то неочевидный барьер.

Консультанты и дизайнеры — пример. ИИ уже умеет анализировать данные, структурировать аргументы, генерировать визуальные решения. Но консалтинг состоит не только из анализа. Он состоит из сбора информации от множества сторон, получения buy-in от людей, понимания неписаных правил, изобретения чего-то уникального для глубокой проблемы. Все эти навыки лежат на зазубренном крае фронтира, где ИИ пока слаб.

Для бизнеса это означает, что стратегия автоматизации должна быть гранулярной. Нельзя спросить «заменит ли ИИ бухгалтера» — нужно спрашивать «какие конкретные подзадачи находятся внутри фронтира, а какие — за его пределами». Возможно, ИИ отлично справляется с классификацией расходов и генерацией отчётов, но не умеет разговаривать с налоговой о спорных случаях. Значит, бухгалтер останется, но его работа изменится: рутина уйдёт, а коммуникация и экспертиза усилятся.

Часто задаваемые вопросы

Почему ИИ плох в фантастике, если хорош в научных статьях?

Научная статья — это структурированный формат с чёткими правилами: гипотеза, методология, данные, выводы. Модель видела миллионы таких текстов в обучающих данных и воспроизводит паттерн с высокой точностью. Фантастика требует создания уникальных персонажей с индивидуальными голосами, непредсказуемых сюжетных поворотов и эмоциональной правды — всего того, что не сводится к паттерну. Модель умеет собирать текст, но не умеет изобретать жизнь.

Значит ли GPT-5.5, что аспиранты скоро не нужны?

Нет. Модель написала технически грамотную статью, но с неинтересной гипотезой. Настоящая наука начинается с вопроса, а не с метода. Пока ИИ не умеет чувствовать, какой вопрос стоит задать, аспирант, который задаёт неправильный вопрос и учится на ошибках, ценнее модели, которая безупречно отвечает на скучный вопрос.

Как использовать зубчатый фронтир в бизнесе?

Идентифицируйте, какие задачи в вашей работе находятся внутри фронтира ИИ, а какие — за его пределами. Делегируйте ИИ то, что он умеет: анализ данных, генерация отчётов, создание черновиков. Инвестируйте в развитие навыков, которые ИИ пока не освоил: стратегическое мышление, работа с неопределённостью, межличностное взаимодействие. Следите за обратными выступами — когда они ломаются, граница сдвигается быстро.

Итог

GPT-5.5 — важный шаг вперёд. Модель пишет научные статьи, генерирует игры, создаёт 3D-симуляции и рисует иллюстрации с читаемым текстом. Но зубчатый фронтир остаётся. Фантастика плоская, гипотезы неинтересные, персонажи безликие. Моллик, наблюдая за этим три года, отмечает, что скачки растут, но паттерн не меняется: каждое новое поколение делает невозможное возможным, а зубчатость — неизменной.

Главный вывод для практики: не смотрите на средний балл по бенчмаркам. Смотрите на конкретные задачи, которые составляют вашу работу, и спрашивайте для каждой — внутри ли она фронтира или за его пределами. Если внутри — готовьтесь к изменениям. Если за пределами — не расслабляйтесь, потому что завтра какой-нибудь обратный выступ может сломаться, и граница сдвинется. Зубчатый фронтир режет в обе стороны: каждый рывок ИИ оставляет новые края, на которых человек по-прежнему нужен. Вопрос только в том, на каком краю вы стоите.

← Все записи
← Все записи