AI Exposure Scores: что они измеряют и почему политики используют их неправильно

AI Exposure Scores: что они измеряют и почему политики используют их неправильно

Экономический прогноз занятости в эпоху ИИ строится на одной цифре: exposure score — доля задач в конкретной профессии, которую языковая модель способна выполнить. Если в профессии 70% задач покрываются LLM, профессия «высоко экспонирована». Если 15% — нет. Эта логика лежит в основе десятков политических решений, регуляторных отчётов и медиазаголовков последних трёх лет.

Всё началось с работы Eloundou et al. (2023), которую авторы нового исследования называют «GPTs are GPTs scores». Команда из 41 человека разметила тысячи профессиональных задач и вывела единый показатель экспозиции для каждой профессии. Результат — набор цифр, который быстро стал центральным входом для дебатов о будущем работы.

Звучит убедительно. Но именно в этом — проблема.

Что такое exposure score и почему он стал таким важным

Метрика измеряет: какая доля задач в профессии может быть выполнена языковой моделью при минимальном дополнительном обучении. Не «будет ли заменён бухгалтер через пять лет», а «может ли текущая версия GPT-4 справиться с типичными задачами этой работы уже сейчас».

Авторы подчёркивали ограничения с самого начала. Но ограничения не «путешествуют» вместе с числами. Когда отчёт попадает в руки политику, чиновнику или журналисту — оригинальные оговорки теряются. Остаётся одна цифра.

Именно это произошло. Scores стали фактическим стандартом для:

  • Прогнозов МВФ и Всемирного банка о масштабах автоматизации
  • Национальных стратегий ИИ в ЕС, США, Китае
  • Перечней «уязвимых профессий» в законодательных инициативах
  • СМИ-нарративов о «конце профессий» и «неравенстве ИИ»

Первый пробел: структурный

Авторы нового исследования систематизировали, что именно статичные scores измерить не могут.

Временной пробел. Модель 2023 года — это не модель 2026-го. GPT-4 в 2023 и o3 в 2026 — разные системы с разными возможностями. Exposure score, измеренный для GPT-4, устарел в момент публикации. Но политики продолжают ссылаться на эти цифры как на константу.

Географический пробел. Scores разрабатывались для американского рынка труда. Задачи «бухгалтера» в США и в Индии или Бразилии — разные. Регулятор ЕС, применяющий американские данные к европейскому рынку, работает с искажённой картиной.

Онтологический пробел. Модель оценивает задачи, а не профессии. Бухгалтер тратит 30% времени на задачи, которые LLM покрывает хорошо, и 70% — на те, где человеческий контроль незаменим. Score усредняет эти 30% и 70%, и картина становится неинтерпретируемой.

Исследователи насчитали пять семей методов, которые пытаются закрыть эти пробелы:

  1. Динамические и benchmark-based меры — обновляемые测 оценки вместо однократного замера
  2. Ансамблевые методы — комбинация нескольких моделей для более точного покрытия
  3. Расширения task-framework — учёт последовательностей задач, а не отдельных «кирпичиков»
  4. Worker-centered метрики — измерение через восприятие самих работников, а не через экспертную разметку
  5. Данные об адопции и использовании — реальное внедрение вместо потенциальной способности

Каждое семейство закрывает часть пробелов, но ни одно не решает проблему целиком.

Второй пробел: координационный — и он важнее

Первый пробел технический. Второй — политический.

Исследователи утверждают: именно координационный пробел требует больше внимания. Суть в следующем. Работы, которые непосредственно задают вопросы «кто страдает, кто выигрывает, как и когда», продолжают ссылаться на статичные GPTs are GPTs scores, игнорируя методологические обновления. Политически значимые исследования используют устаревшую базу.

Результат — диалог слепых. Учёные разрабатывают более точные инструменты. Политики читают старые отчёты. Медиа тиражируют устаревшие цифры. И никто не синхронизируется.

Более того, даже «зелёные» метрики — высокие показатели экспозиции — не означают автоматического увольнения. Диффузия технологии в экономике сложнее, чем корреляция «высокий score = массовая безработица».

Что делать: конкретные рекомендации

Исследователи формулируют набор рекомендаций для обеих сторон.

Политикам:

  • Расширить доказательную базу за пределы единого показателя экспозиции
  • Включать работников как эпистемических партнёров — не только как объектов прогнозов
  • Перейти от логики «предсказания» к логике «готовности» — не «кого заменит ИИ», а «как готовить рынок к изменениям»

Исследователям:

  • Строить инфраструктуру данных, которая позволяет обновлять scores регулярно
  • Использовать participatory methods — привлекать работников реальных профессий к оценке
  • Писать результаты с ориентацией на политического читателя, а не только на академическую аудиторию

Фраза «better measurement matters, but it will not close the second gap alone» — ключевая. Можно бесконечно улучшать метрики, но если политики и исследователи не научатся говорить на одном языке, цифры останутся инструментом убеждения, а не понимания.

Почему это важно именно сейчас

Дебаты об «ИИ и рабочих местах» входят в фазу практических решений. ЕС принимает AI Act с учётом экономических последствий. США обсуждают federal AI workforce framework. Китай форсирует подготовку кадров для ИИ-экономики.

Все эти решения опираются — прямо или косвенно — на экспозиционные scores. Если входные данные неточны, выходные решения будут системно смещены.

Это исследование — попытка вставить это понимание обратно в дискуссию.

Почему один score не может ответить на главный вопрос

Центральное заблуждение: высокий exposure score интерпретируется как «эта профессия будет замещена». На практике между «LLM выполняет задачу X изолированно» и «профессия Y исчезает» — дистанция огромного размера.

Возьмём конкретный пример. Профессия «юрист по недвижимости» имеет высокий score — LLM отлично анализирует документы, составляет шаблоны, находит прецеденты. Но юрист также: встречается с клиентами (доверие, переговоры), выезжает на объект, координирует сделку между сторонами с противоположными интересами, несёт юридическую ответственность за результат. Эти задачи не покрываются LLM, и они составляют существенную долю работы.

Exposure score измеряет один параметр — технологическую способность LLM. Но занятость определяется шестью факторами: технологическая способность, стоимость внедрения, организационное сопротивление, регуляторные ограничения, культурные барьеры и скорость диффузии. Score покрывает только первый.

Это не недостаток методологии — это фундаментальное ограничение любого статического показателя.

Пять направлений «починки» scores

Динамические меры. Вместо однократного замера — регулярные волны оценки с привязкой к конкретным моделям (GPT-4-Turbo, o3, Claude 3.5 Sonnet). Требует инфраструктуры, которой сейчас нет ни у одного публичного исследовательского центра.

Benchmark-based меры. Автоматическая оценка через бенчмарки — модель проходит тест набором задач из конкретной профессии. Преимущество: масштабируемость и воспроизводимость. Недостаток: бенчмарки измеряют производительность на тестовых данных, а не реальную применимость в рабочем процессе.

Ансамблевые методы. Комбинация GPT-4, Claude и Gemini для оценки одной задачи. Если три модели согласны — confidence выше. Если расходятся — задача признаётся сложной. Логичный подход, но дорогой и медленный для массового применения.

Task-framework расширения. Задачи в профессии связаны между собой: нельзя автоматизировать 60% задач, если оставшиеся 40% зависят от результатов автоматизированных. Расширения учитывают эти зависимости, что существенно снижает «автоматизационный потенциал» для большинства профессий.

Worker-centered метрики. Работники сами оценивают, какие задачи LLM покрывает в их практике. Это даёт данные из первых рук, но страдает от selection bias — успешные профессионалы менее склонны участвовать в опросах.

Координационный пробел: почему учёные и политики не слышат друг друга

Это центральный аргумент исследования, и он не технический, а социологический.

Исследователи фиксируют паттерн. Политически значимые организации — министерства, международные институты, think tanks — продолжают цитировать GPTs are GPTs scores при подготовке стратегий занятости. Параллельно学术ное сообщество публикует улучшенные методологии, которые эти организации не используют.

Почему? Причина глубже: улучшенные метрики сложнее коммуницировать. «У профессии X экспозиция 47%» — простое сообщение. «У профессии X динамическая мультимодельная ансамблевая оценка с учётом task dependencies даёт range 31–58% в зависимости от сценария» — не укладывается вpolicy brief.

В результате политики берут простую цифру и используют её по максимуму. Учёные публикуют уточнения, которые остаются в академических silos.

Конкретный пример: МВФ в 2024 году выпустил отчёт о влиянии ИИ на глобальный рынок труда, используя GPTs are GPTs scores для 40 стран. К моменту публикации уже существовали как минимум три peer-reviewed работы, указывающие на систематические смещения этих scores для не-англоязычных рынков. Ни одна из них не была учтена.

Что это значит для практиков

Если вы HR-директор, консультант по карьере или политик — exposure scores полезны как один из индикаторов, но не как финальный вердикт.

Как использовать правильно: смотреть на rank-order профессий (какие более экспонированы относительно других), интерпретировать через призму конкретного рынка, учитывать временной горизонт, комбинировать с данными реальной адопции.

Чего избегать: приравнивать высокий score к «профессия исчезнет», принимать регуляторные решения на основе единичного показателя без дополнительного контекста, использовать scores как основу для рекомендаций студентам.

Часто задаваемые вопросы

Правда ли, что ИИ заменит 40-50% профессий?

Нет. Такие цифры возникают при интерпретации exposure scores как «доли профессий к замещению». На самом деле score показывает долю задач, которые LLM может выполнить изолированно. Профессия — это не задача, а набор задач в контексте. Даже если LLM покрывает 60% задач бухгалтера, оставшиеся 40% могут требовать человеческого контроля, этической оценки или физического доступа к документам.

Почему географический пробел так важен?

Задачи в профессии различаются по странам. «Бухгалтер» в малом бизнесе США ведёт преимущественно цифровой учёт через QuickBooks и Xero. «Бухгалтер» в российской компании среднего бизнеса может тратить 40% времени на ручное взаимодействие с бумажными накладными и согласованиями, которые невозможно оценить по американскому task framework. Применение одного score к глобальному рынку даёт локально неверные прогнозы.

Что такое participatory methods в контексте exposure measurement?

Это подход, при котором сами работники оценивают, какие задачи они выполняют и как LLM на них влияет. Вместо экспертной разметки «со стороны» — обратная связь от людей, которые ежедневно решают эти задачи. Такой подход даёт более точные данные о том, что именно автоматизируется, а не только о том, что может быть автоматизировано в теории.

Итог

AI Exposure Scores — это полезный, но не самодостаточный инструмент. Метрика, созданная для ответа на конкретный вопрос (могут ли LLM выполнять типичные профессиональные задачи), превратилась в универсальный индекс для вопросов, к которым она не готова: кто выиграет от ИИ, кто пострадает, и что с этим делать.

Техническое решение — динамические scores, benchmark-based меры, participatory data — существует и развивается. Но без координационного решения — ученые и политики должны говорить на одном языке — цифры будут продолжать «путешествовать» без своих ограничений, а решения будут приниматься на основе неполной картины.

Лучшие измерения важны. Но они не закроют пробел между исследованием и политикой сами по себе.


Источник: AI Exposure Scores: what they measure, what they miss, and what comes next, arXiv:2606.23633 (2026)

← Все записи