Bayesian In-Context Learning: как языковые модели учатся управлять своими ожиданиями

Bayesian In-Context Learning: как языковые модели учатся управлять своими ожиданиями

Когда вы подсказываете языковой модели несколько примеров задач и она начинает решать новые задачи того же типа — это называется in-context learning (ICL). Модель не переобучается, не обновляет веса, но ведёт себя так, будто « поняла » задачу. Никто точно не знает, как это работает.

Одна из интерпретаций — что ICL это неявное байесовское вывод. Модель, по сути, суммирует информацию из контекстных примеров и строит предсказание. Но есть проблема: априорное знание (что мы ожидаем до того, как увидели данные) жёстко зашито в процесс обучения модели. Управлять им на этапе инференса нельзя.

Исследователи из Южной Кореи предложили Multi-Task Bayesian In-Context Learning (MT-BICL) — фреймворк, где априорное знание можно передавать модели явно, через специальные датасеты в контексте. Результат: модель догоняет «оракульный» байесовский предиктор по точности, но работает на порядки быстрее классических методов.

Что не так со стандартным ICL

В классическом ICL мы даём модели набор примеров C = {(x₁, y₁), ..., (xₜ₋₁, yₜ₋₁)} и просим предсказать yₜ для нового xₜ. Математически модель аппроксимирует апостериорное предиктивное распределение (PPD):

p(yₜ | xₜ, C) = ∫ p(yₜ | xₜ, Z) · q(Z | C) dZ

Здесь Z — латентная переменная (скрытый параметр задачи), q(Z | C) — апостериорное распределение этой переменной после наблюдения примеров, p(yₜ | xₜ, Z) — функция правдоподобия.

Проблема в том, что априорное распределение p(Z) и функция правдоподобия p(y | x, Z) не контролируются явно. Модель «угадывает» их в процессе обучения на тысячах задач, и у пользователя нет рычагов это изменить. Вы не можете сказать модели: «исходи из того, что данные будут из более тяжёлых хвостов, чем обычно» — модель просто не имеет такого интерфейса.

Байесовский подход даёт явный контроль. Если мы хотим, чтобы модель исходила из определённого априорного знания — мы подставляем это знание в формулу. Но классический байесовский вывод требует либо дорогого MCMC-сэмплирования (тысячи итераций для каждого предсказания), либо вариационной аппроксимации с потерей точности.

Решение: датасеты как априорное знание

Идея MT-BICL элегантна. Вместо того чтобы пытаться явным образом передать распределение p(Z), исследователи предлагают добавить в контекст дополнительные датасеты, каждый из которых соответствует отдельной задаче из того же априорного семейства:

D_prior = { D₁, ..., D_K }
D_k = { (x₁ᵏ, y₁ᵏ), ..., (x_Mᵏ, y_Mᵏ) }

Эти датасеты не содержат целевую задачу — они описывают предшествующее знание о том, какие задачи вообще возможны. Модель «читает» их и автоматически строит представление об априорном распределении.

После этого контекст выглядит так:

[Prior datasets] → [Context examples from target task] → [Query]

Формально модель теперь учится аппроксимировать:

p(y | xₜ, Cₜ₋₁, D_prior) ∝ ∫ p(y | xₜ, Z) · p(Z) · ∏ p(yⱼ | xⱼ, Z) dZ

Изменяя D_prior, пользователь меняет априорное распределение без переобучения модели. Это ключевое отличие от стандартного ICL.

Архитектура и обучение

В качестве базовой модели используется GPT-2 с небольшими модификациями: скрытое измерение 128, feedforward-измерение 512, 8 слоёв, 8 голов внимания, RoPE позиционные эмбеддинги. Обучалось на 10 миллионах последовательностей с батчем 4096, скорость обучения варьировалась от 10⁻⁴ до 5×10⁻³, до 100 эпох, с выбором лучшего чекпоинта по валидационному лоссу.

Для байесовского вывода использовались MCMC (NUTS) и SVI из Pyro. Конфигурации: MCMC-oracle требовал 1000 warmup шагов и 10000 сэмплов для точного PPD; MCMC-hier — 1000 warmup и 1000 сэмплов; SVI — 200 сэмплов и 1000 шагов оптимизации с диагональной нормальной вариационной семьёй.

Ключевое архитектурное решение — мультитаск настройка: модель видит одновременно prior датасеты (описывающие априорное семейство) и целевой контекст (конкретную задачу). Это позволяет ей научиться «читать» структуру prior и применять её к целевой задаче.

Эксперименты: от синтетики до реальных данных

Синтетические задачи

Исследователи тестировали три типа априорных семейств с нарастающей сложностью.

Линейная регрессияw ~ N(μ·1, I). Априорное семейство параметризуется средним μ. Модель обучается на задачах с разными μ, тестируется на задачах как внутри обучающего распределения (IMD), так и вне (OoMD). MT-BICL практически не отличается от оракула (точного байесовского вывода через MCMC) на обоих режимах.

Student-t распределение — более тяжёлые хвосты. Здесь добавляется параметр ν (степени свободы), что делает распределение более робастным к выбросам. Результат тот же: MT-BICL догоняет оракул.

Спиральные потоки (Spiral Flow) — высокоразмерные латентные переменные со сложной структурой. Задача: w = f_A(z), где z ~ N(μ·1, I), а f_A — спиральное преобразование, параметризуемое кососимметричной матрицей A размерности d×d. Это создаёт латентное пространство с d(d-1)/2 степенями свободы. MT-BICL снова не уступает оракулу.

Сравнение скорости

Главное практическое преимущество — скорость. MCMC-oracle требует 1000 warmup + 10000 сэмплов на каждое предсказание. SVI — 200 сэмплов и 1000 шагов градиентной оптимизации. MT-BICL — один forward pass. На спиральных потоках с высокоразмерными латентными переменными MT-BICL показывает сопоставимую точность при драматически меньшем времени (данные на рисунке 10 в статье).

Реальные данные: ERA5

Финальный эксперимент — предсказание температуры поверхности воздуха над Центральной Европой по данным реанализа ERA5 (спутниковые данные, 0.25° разрешение, 6-часовые интервалы). Пространственный домен: широты [42°, 53°], долготы [8°, 28°].

Задача: по 300 точкам пространственно-временного патча (10×10 лат-долг, 3 временных шага) предсказать температуру в новых точках. Каждый входной вектор — 4-мерный: широта, долгота, время, высота.

В режиме IID (данные из одного года) MT-BICL с K=2 prior датасетами показывает устойчивое преимущество над базовым ICL. В режиме OOD (обучение на первом полугодии 2019, тест на втором) преимущество сохраняется — модель способна экстраполировать априорное знание. Тест на данных 2020 года показывает, что модель устойчива к distribution shift во времени.

Сравнение с существующими подходами

MT-BICL находится на пересечении нескольких линий работ.

Neural Processes (NP) и Prior-Data Fitted Networks (PFNs/TabPFNs) — это ранние попытки объединить meta-learning и байесовский вывод. Они работают на малых масштабах (десятки-сотни сэмплов) и не дают явного контроля над априорным. MT-BICL масштабирует эту идею и добавляет интерфейс для управления prior.

Chang et al. 2025 и Whittle et al. 2026 — параллельные работы, которые позволяют пользователю задавать prior напрямую (гистограммы, Gaussian mixture models). MT-BICL отличается тем, что prior передаётся через датасеты, а не через явные распределения — это более естественный интерфейс для LLM.

Many-shot ICL (Agarwal et al., 2024) — масштабирует ICL на thousands примеров в контексте. MT-BICL совместим с этим направлением, но фокусируется на структуре prior, а не на количестве примеров.

Ограничения

Авторы честно отмечают три проблемы.

Первая — квадратичная сложность attention по длине последовательности. С добавлением prior датасетов контекст растёт, и вычисления растут accordingly. На практике это означает, что MT-BICL лучше работает на коротких-умеренных контекстах.

Вторая — отсутствие явной инвариантности к перестановкам внутри датасета и между ними. Хотя эмпирически чувствительность невелика (таблица 6 в статье: pairwise symmetric KL ≈ 0.0001), это теоретический недостаток.

Третья — всё ещё требуется мета-обучение на большом количестве задач из того же априорного семейства. Это не zero-shot подход.

Что это значит на практике

MT-BICL решает конкретную инженерную задачу: калибровка неопределённости в production. Стандартные LLM хорошо предсказывают среднее, но плохо оценивают свою уверенность. Байесовский подход даёт естественную неопределённость: модель может сказать «я не знаю» вместо галлюцинации.

Ключевое свойство — качество предсказаний не падает при смене prior. Если вы меняете D_prior на более «широкий» prior, модель корректно расширяет доверительные интервалы, а не просто выдаёт случайные числа. Это проверено на Out-of-Meta-Distribution (OoMD) режиме, где тестовый prior выходит за пределы обучающего распределения.

Практический кейс: представьте, что вы предсказываете эффект лекарства. Доступны истории пациентов с похожими симптомами (prior dataset). Вы подсовываете их модели, даёте данные текущего пациента (context), и модель выдаёт предсказание с честной неопределённостью. Если данных по данному типу пациентов мало — доверительный интервал автоматически расширяется.

Потенциальные применения:

Медицина — электронные медицинские записи похожих пациентов как prior dataset. Время предсказания критично (приём пациента), калиброванная неопределённость необходима (риск, информированное согласие).

Клинические испытания — исторические данные как prior. Быстрая идентификация валидных кандидатов с надёжными доверительными интервалами для планирования дорогих follow-up исследований.

Персонализация — возможность подставить prior датасеты конкретного пользователя и получить адаптированные предсказания без переобучения модели.

Научные предсказания — моделировать распределение возможных исходов эксперимента до его проведения, с честными error bars.

Итог

Multi-Task BICL — не замена стандартному ICL, а расширение. Там, где нужен явный контроль над априорным знанием и калиброванная неопределённость, фреймворк позволяет получить и то, и другое без перехода на классические байесовские методы. Ключевое достижение — приближение к оракульному байесовскому выводу при скорости одного forward pass.

Для инженеров это означает: языковая модель может учиться на лету не только решать задачу, но и корректировать свои ожидания о мире перед решением. Если вам нужна калиброванная уверенность в предсказаниях — эта работа стоит внимания.

Часто задаваемые вопросы

Чем MT-BICL отличается от стандартного few-shot prompting?

Стандартный few-shot даёт модели примеры целевой задачи. MT-BICL额外 даёт модели примеры из того же априорного семейства, что позволяет ей «понять», какие задачи вообще возможны, и скорректировать свои априорные ожидания. Это как разница между «вот три примера задач» и «вот из какого распределения задач мы ожидаем выборку».

Можно ли использовать это без мета-обучения?

Нет. Модель нужно специально обучить понимать структуру prior датасетов. На нынешнем этапе это исследовательский фреймворк, а не drop-in замена стандартному ICL.

Работает ли это с произвольными LLM (GPT-4, Claude)?

Исследование проведено на GPT-2 (масштаб 10M параметров). Масштабирование на большие модели и перенос на инференс-платформы (API) — отдельный открытый вопрос.

Какие задачи выигрывают больше всего?

Задачи с высокой стоимостью ошибки и потребностью в калиброванной неопределённости: медицинская диагностика, финансовые прогнозы, научные предсказания. Для задач с низкой стоимостью ошибки стандартный ICL, вероятно, достаточен.

Почему prior датасеты, а не явное распределение?

Датасеты — более естественный интерфейс для LLM. Модель уже обучена работать с примерами в контексте; добавление ещё одного типа примеров (prior examples) не требует архитектурных изменений. Явное распределение (гистограмма, Gaussian mixture) потребовало бы отдельного интерфейса.

← Все записи