Качество человеческих данных: почему ИИ хуже, чем его разметчики

Качество человеческих данных: почему ИИ хуже, чем его разметчики

В 1907 году на сельской выставке в Плимуте посетителям предложили угадать вес буйвола. Среднее из 800 ответов оказалось точнее любой отдельной оценки — и всего на фунт отличалось от реального веса в 1198 фунтов. Фрэнсис Гальтон назвал это vox populi — голос народа. Почти сто лет спустя Amazon Mechanical Turk превратил эту идею в индустрию: миллионы незнакомцев размечают тексты, изображения и диалоги для обучения нейросетей. Но есть одна проблема — голос народа не всегда прав, и иногда он противоречит сам себе.

Лилиан Венг, исследовательница из OpenAI, опубликовала детальный разбор того, как качество человеческих данных определяет качество моделей. Её вывод резок: сообщество знает ценность хороших данных, но у нас есть тонкое ощущение, что «все хотят работать над моделями, а не над данными». Этот текст — о том, почему разметка данных сложнее, чем кажется, и какие методы помогают отделить золото от шума.

Почему разметка — это не просто «поставить галочку»

Сбор человеческих данных — это цепочка операций, где каждое звено влияет на результат. Начинается всё с проектирования задания: чем понятнее инструкция, тем выше согласие между аннотаторами. Но есть парадокс — слишком длинные руководства требуют серьёзного обучения, иначе исполнители начинают угадывать, а не размечать.

Затем идёт отбор и тренировка пула разметчиков. Нужны люди с подходящим уровнем компетенции: медицинские тексты требуют врачей, токсичные комментарии — социологов, а юридические документы — юристов. После онбординга нужны регулярные сессии калибровки, иначе один и тот же человек через месяц будет интерпретировать инструкции иначе.

На этапе агрегации в дело вступают алгоритмы. Можно просто взять большинство голосов — это работает, когда задача объективна. Но что делать, если аннотаторы искренне не согласны друг с другом? В задачах безопасности, культурной принадлежности или субъективной оценки «правильного» ответа может не существовать.

Мудрость толпы и её пределы

Идея коллективного разума работает, пока люди мотивированы давать честные ответы. Каллисон-Бёрч в 2009 году проверил Mechanical Turk на задачах машинного перевода: неэксперты ранжировали переводы почти так же точно, как профессионалы. Но только после фильтрации спамеров. Некоторые исполнители заполняли задания случайно, чтобы заработать больше за меньшее время. Без механизма выявления таких участников толпа превращается в шум.

Самый простой способ агрегации — голосование большинством. Каждый аннотатор вносит равный вклад, и побеждает самый популярный ответ. Но это игнорирует очевидный факт: люди различаются по компетентности. Более продвинутый подход — взвешенное голосование, где вес каждого разметчика зависит от того, как часто он соглашается с другими.

Коэффициент Каппа Коэна добавляет коррекцию на случайное совпадение. Если один класс преобладает, согласие может выглядеть высоким, хотя аннотаторы просто ставят одну и ту же метку наугад. Каппа учитывает эту базовую частоту и даёт более честную оценку надёжности.

Когда разметчики спорят — и оба правы

Самый интересный случай — когда разногласия не являются ошибкой. Аройо и Уэлти в 2015 году развенчали семь мифов о человеческой разметке и показали, что в субъективных задачах «истина» не всегда однозначна. Для некоторых фрагментов существует несколько корректных интерпретаций, и попытка свести всё к одному ответу теряет информацию.

Исследователи различают два подхода к аннотации. Дескриптивный парадигм принимает субъективность: цель — зафиксировать распределение мнений, а не выбрать один «правильный» ответ. Прескриптивный парадигм, напротив, требует единообразия: разработчики создают детальные инструкции, обучают аннотаторов следовать им и измеряют качество через согласие.

У каждого подхода есть цена. Дескриптивный метод не позволяет обучать модели, оптимизированные на один конкретный выход — ведь правильных выходов несколько. Прескриптивный метод дорог: создание идеальных инструкций невозможно, а обучение исполнителей отнимает недели. При этом он не ловит разнообразие мнений, которое может быть критически важно для безопасности или культурной чувствительности.

Ван и коллеги в 2023 году изучили разметку безопасности диалоговых систем. Они сравнили экспертов по доверию и безопасности с краудсорсинговыми исполнителями и обнаружили, что согласие сильно зависит от темы: 96% на тему насилия, но всего 25% на личные темы. Экстремальные случаи — явно токсичные или явно безобидные — вызывают консенсус. Всё, что посередине, порождает хаос.

Как отличить спамера от эксперта

Модель MACE, предложенная Хови в 2013 году, формализует интуицию о «спамерах» через вероятностную графовую модель. Каждый аннотатор характеризуется двумя параметрами: вероятностью быть компетентным и распределением ответов, которые он даёт, когда спамит. Модель обучается через EM-алгоритм и оценивает, насколько каждый разметчик заслуживает доверия.

Но что делать, когда разногласия систематические, а не случайные? Метод «деконволюции разногласий» Гордона разделяет стабильные мнения от шума. Сначала определяется «основной» ответ каждого аннотатора — тот, который он ставит чаще всего для похожих примеров. Затем вычисляется вероятность «переключения» на неосновной ответ. Это позволяет построить «очищенное» тестовое множество, где индивидуальная несогласованность устранена, а систематические различия сохранены.

Давани предложил обучать модель предсказывать метки каждого аннотатора отдельно, а не их агрегат. В экспериментах на корпусе токсичных комментариев мультизадачная архитектура — где каждый разметчик имеет собственную голову предсказания — показала лучший F1-score и естественно давала оценку неопределённости, коррелирующую с уровнем разногласия.

«Судебное обучение» Гордона идёт дальше: оно моделирует процесс присяжных. Модель обучается предсказывать метки отдельных аннотаторов, а при инференсе практик может задать состав «жюри» — например, 30% представителей ЛГБТ-сообщества, 50% женщин, 20% пожилых людей — и получить решение, агрегированное именно из этой демографической выборки.

Какие данные вредят обучению

Даже при идеальной разметке не все примеры одинаково полезны. Некоторые данные забываются моделью за одну эпоху, другие запоминаются слишком хорошо — и это сигнал. Тонева с коллегами в 2019 году обнаружили, что примеры, которые модель забывает и переучивает многократно, часто оказываются зашумлёнными или аномальными.

Метод «картографии датасета» Сваямдипты визуализирует каждый пример по двум осям: уверенность модели и изменчивость предсказаний. Примеры с низкой уверенностью и высокой изменчивостью — «трудные» — требуют внимания. Примеры с высокой уверенностью, но низкой изменчивостью — «лёгкие» — полезны для стабильности, но не добавляют нового. Самые опасные — «зашумлённые»: модель уверена в них, но они оказываются ошибочными.

Функции влияния Коха и Лянга позволяют оценить, как удаление конкретного примера изменит предсказание модели на других данных. Если один пример оказывает непропорционально большое влияние — стоит проверить, не является ли он выбросом или ошибкой разметки. Гроссе применил этот метод к большим языковым моделям и подтвердил, что функции влияния работают даже в масштабах миллиардов параметров.

Плейсс предложил ранжировать примеры по площади под маржинальным рейтингом: чем ниже эта площадь, тем выше вероятность, что пример ошибочно размечен. Этот метод не требует дополнительных аннотаторов и работает на уровне статистики обучения.

Шумная кросс-валидация как фильтр

Когда зашумлённых данных много, стандартное обучение рискует переобучиться на ошибках. Метод шумной кросс-валидации Чена разбивает данные на K фолдов, обучает K моделей и отбирает те примеры, на которых хотя бы M моделей из K согласны с меткой. Это создаёт «доверенное» подмножество, которое используется для дальнейшего обучения.

Итеративная версия INCV повторяет этот процесс многократно: на каждой итерации в доверенное множество добавляются новые «чистые» примеры, а зашумлённые исключаются. Эксперименты показывают, что такой подход устойчив к уровням шума до 40-50% — ситуациям, где почти половина меток ошибочна.

Часто задаваемые вопросы

Почему нельзя просто использовать majority vote для всех задач?

Majority vote предполагает, что существует один объективно правильный ответ. В субъективных задачах — оценка токсичности, культурной чувствительности, моральной приемлемости — разные люди искренне придерживаются разных позиций. Принудительное сведение к большинству стирает это разнообразие и может привести к систематическим искажениям в модели.

Может ли ИИ сам размечать данные без людей?

Для простых задач с чёткими критериями — да. Но для сложных, субъективных или новых задач человеческая разметка остаётся необходимой. Синтетические данные и самообучение помогают масштабироваться, но качественная разметка экспертов по-прежнему задаёт потолок для сложных задач вроде RLHF.

Как понять, что датасет плохо размечен?

Три сигнала: низкое межаннотаторское согласие без явной субъективности задачи, высокая частота «забываемых» примеров при обучении, и непропорционально высокое влияние отдельных примеров на предсказания модели. Если модель хорошо учится на обучающей выборке, но плохо обобщается — стоит проверить разметку.

Итог

Качество данных — это не техническая деталь, а фундаментальное ограничение. Модели не могут быть лучше разметки, на которой обучены. При этом сама разметка — социальный процесс с неоднозначностями, культурными контекстами и экономическими стимулами.

Хорошие практики существуют: продуманное проектирование заданий, калибровка аннотаторов, вероятностные модели агрегации, функции влияния для выявления выбросов. Но всё это требует времени, внимания и признания того, что данные — не commodity, а компетенция.

Как заметили Самбасиван и коллеги: «Все хотят делать модели, никто не хочет делать данные». Пока это остаётся правдой, у тех, кто инвестирует в качество разметки, будет структурное преимущество. Не потому что у них лучшие архитектуры — а потому что у них правдоподобнее истина.

← Все записи