Как машинное обучение находит аномальные регионы Европы: 11 территорий, которые ускользают от классической статистики
Когда статистики проверяют данные по регионам, они обычно делают две вещи: смотрят, не выходит ли показатель за допустимый диапазон, и сравнивают с прошлым годом. Если ВВП на душу населения в каком-то регионе упал на 15% — это видно. Если безработица выросла до 25% — это тоже заметно. Но что, если проблема в комбинации показателей? Регион, где безработица умеренная, образование ниже среднего, а плотность населения аномально высокая — но ни один из этих показателей сам по себе не кричит об ошибке? Классические методы такие регионы не замечают. Исследование из arXiv:2605.02884 показывает, что машинное обучение решает эту задачу иначе — и находит 11 европейских территорий, которые классическая статистика пропускает.
Зачем официальной статистике машинное обучение
Eurostat собирает данные по 260 регионам NUTS2 Европейского союза. NUTS2 — это административные единицы уровня между страной и городом: например, Мадрид, Бавария, Каталония. Для каждого региона хранятся четыре ключевых показателя: ВВП на душу населения (в PPS — паритете покупательной способности), уровень безработицы (15–74 года), доля населения с высшим образованием (25–64 лет) и плотность населения. Эти данные используются для распределения европейских фондов, мониторинга конвергенции и дизайна региональной политики.
Традиционная проверка данных — это rule-based процедуры: range edits, сравнение с историческими значениями, z-score thresholds. Метод работает для одномерных данных: если ВВП региона X выходит за три стандартных отклонения от среднего — флаг. Проблема в том, что аномалия может не быть экстремальной ни в одном показателе, но проявляться в комбинации. Регион с чуть выше среднего ВВП, чуть ниже средним образованием и значительно выше средней плотностью — это не ошибка в данных, это структурно иной регион. И для политиков такая информация ценнее, чем просто флаг об ошибке.
Данные берутся напрямую из публичного API Eurostat: ВВП (nama_10r_2gdp, PPS_HAB_EU27_2020), безработица (lfst_r_lfu3rt, PC_ACT), плотность населения (demo_r_d3dens, PER_KM2), высшее образование (edat_lfse_04, PC). Скрипт на Python автоматически скачивает все четыре показателя по кодам NUTS2 и объединяет их в единую матрицу 260×4 — один ряд на регион, один столбец на индикатор. Никакой ручной агрегации, только inner merge по кодам. Все показатели стандартизируются (zero mean, unit variance) перед подачей в модели — иначе ВВП в тысячах евро доминировал бы над безработицей в процентах просто по масштабу.
Пять методов: классика и ML
Исследование применило пять методов обнаружения аномалий. Z-score (порог |z| > 3) и расстояние Махаланобиса — классические. Z-score-flagged 12 регионов, Махаланобис — только 3. Оба опираются на предположение о нормальном распределении и эллиптической структуре данных, которые часто не выполняются для социально-экономических показателей. Махаланобис особенно чувствителен к присутствию аномалий при оценке ковариационной матрицы — выбросы «тянут» оценку на себя, и настоящие аномалии могут оказаться внутри эллипсоида.
Isolation Forest работает по принципу «аномалии легче изолировать». Алгоритм строит 100 случайных деревьев разбиения: на каждом узле случайно выбирается признак и случайная точка разделения в диапазоне его значений. Точка изолируется, когда она одна оказывается в листе дерева. Формула anomaly score: s(x) = 2^(-h(x)/c(n)), где h(x) — средняя длина пути до изоляции, c(n) — нормализационная константа для n наблюдений. Брюссель изолируется за 3–4 шага — его комбинация ВВП и плотности уникальна; типичный регион требует 8–10 разбиений. Isolation Forest не требует предположений о распределении и хорошо работает с гетерогенными данными.
Local Outlier Factor (LOF) сравнивает локальную плотность точки с плотностью её k=20 ближайших соседей. Если вокруг точки плотный кластер, а её собственная плотность существенно ниже — она аномальна. LOF чувствителен к локальной структуре: точка может быть нормальной глобально (все регионы ЕС), но нетипичной для своего ближайшего окружения в 4-мерном пространстве показателей. Это позволяет находить аномалии, которые не экстремальны по отдельным осям, но необычны в своей «компании».
One-Class SVM с RBF-ядром строит гиперсферу минимального радиуса, охватывающую «нормальные» наблюдения. Параметр nu=0.05 означает, что примерно 5% точек окажутся за пределами — это верхняя граница доли выбросов, которую алгоритм допускает. RBF-ядро способно улавливать нелинейные границы, в отличие от линейного Махаланобиса.
Все три ML-метода дали по 15 flagged регионов, примерно 5% от 260. Но множества не совпали полностью — каждый метод нашёл своих аномалий, потому что механизмы разные.
11 регионов, которые нашёл ensemble
Ключевой результат: только 11 регионов были flagged хотя бы тремя из пяти методов. Это ensemble-критерий — он отфильтровывает шум конкретного метода и оставляет только устойчивые структурные аномалии. Из 15×3 = 45 «номинаций» (15 регионов × 3 ML-метода) и 12+3 = 15 «номинаций» от классики, пересечение составило всего 11 уникальных территорий.
Первая группа — высокоразвитые метрополии. Брюссель (BE10) flagged всеми пятью методами — абсолютный чемпион. Это столица ЕС с институциональной нагрузкой: сверхвысокая концентрация рабочих мест в госсекторе и международных организациях, нетипичная структура экономики для региона его размера. Вена (AT13), Берлин (DE30) и Прага (CZ01) flagged четырьмя методами, Гамбург (DE60) — тремя. Вена — крупнейшая агломерация Австрии с хабом, туризмом и специализированными финансовыми сервисами. Берлин — контраст: относительно низкий ВВП на душу населения для столицы G7, но экстремальная плотность и креативная экономика. Прага — единственный восточноевропейский столичный регион в этой группе, что отражает её уникальную специализацию после 1989 года и продолжающийся приток технологических инвестиций.
Вторая группа — структурно слабые или переходные территории. Андалузские ES63 (Кастилия-Ла-Манча) и ES64 (Эстремадура) flagged пятью методами. Словацкие SK03 и SK04 — тремя и пятью соответственно. Венгерский HU11 (Северная Венгрия) — тремя. TR10 (Стамбул) — тремя. ES63 и ES64 имеют низкий ВВП, недостаток высшего образования, высокую безработицу — но при этом демографическое давление и плотность, которые не вписываются в профиль обычного бедного периферийного региона. Словацкие регионы — периферийные территории с советским наследием в структуре экономики, которые так и не интегрировались в глобальные цепочки стоимости. Istanbul — особый случай: формально Турция не в ЕС, но включена как кандидат, и её профиль (высокий ВВП на душу, экстремальная плотность, низкое образование относительно экономической активности) не похож ни на один европейский регион.
Почему ML находит то, что классика пропускает
Махаланобис — это эллиптическое расстояние: оно работает, если данные имеют эллиптическое распределение (как многомерное нормальное). Регионы ЕС не имеют такого распределения — у них есть кластеры (богатый северо-запад, бедный юго-восток), кластеры с разной дисперсией, и аномалии, которые находятся между кластерами, а не на хвосте одного. Махаланобис к таким структурам нечувствителен: если есть два отдельных кластера регионов, медианный регион каждого кластера имеет одинаковое расстояние Махаланобиса, даже если один кластер — это богатые метрополии, а другой — бедная периферия.
Isolation Forest находит точки, которые «легко изолируются» — это определение не требует предположений о распределении. Точка в малонаселённой области 4-мерного пространства изолируется быстро, независимо от того, экстремальна ли она по каждой отдельной оси. Это позволяет находить аномалии, которые являются структурно нетипичными: регион с комбинацией показателей, которая редко встречается в европейском распределении, но не экстремальна ни по одному показателю в отдельности.
PCA-визуализация (первый компонент отражает градиент экономического развития: высокий ВВП и образование против низких; второй — контраст рынка труда и плотности) показывает, что аномальные регионы разбросаны по периферии распределения, а не образуют отдельный кластер. Каждая аномалия уникальна: Брюссель аномален по одной причине, ES63 — по другой, SK04 — по третьей. Единого «типа аномалии» нет, и именно поэтому ни один классический метод не смог найти их все одним тестом.
Что это значит для политики ЕС
Главный вывод исследования — структурные аномалии это не ошибки в данных. Брюссель, Вена и Берлин не содержат неправильных цифр. Их профили отражают реальные экономические и демографические конфигурации. Для политиков ЕС это означает, что стандартные процедуры валидации Eurostat пропускают территориальные конфигурации, которые заслуживают отдельного анализа. Можно спорить, является ли андалузский регион «аномалией» — но тот факт, что его комбинация показателей нетипична для ЕС, информативен для региональной политики: это регион, который не похож ни на какой другой и, возможно, требует нестандартных инструментов.
Ensemble-подход из пяти методов — это не просто технический приём, а модель экспертной оценки: если аномалия видна с разных точек зрения (isolation, density, boundary), она с большей вероятностью реальна, а не артефакт конкретного метода. 11 регионов из 260 — это 4.2%, что совместимо с интуицией о «структурно особых» территориях, которые действительно существуют в любой системе регионов.
Результаты воспроизводимы: скрипт на Python скачивает данные из Eurostat API, и любой желающий может воспроизвести результаты для другого года, добавить пятый показатель (например, долю занятых в IT или индекс человеческого развития) или изменить параметр contamination. Это делает исследование прозрачным и верифицируемым — что редкость для работ в области официальной статистики.
Часто задаваемые вопросы
Почему именно четыре индикатора?
Авторы выбрали минимальный набор, доступный для всех 260 регионов NUTS2 через Eurostat API. Четыре показателя покрывают ключевые измерения: экономику (ВВП), рынок труда (безработица), человеческий капитал (образование) и урбанизацию (плотность). Добавление большего числа показателей увеличивает размерность пространства и размывает понятие «аномалия» — в 20-мерном пространстве почти любая точка оказывается в относительно разреженной области.
Можно ли применить этот подход к данным другой страны?
Да, методологически подход не привязан к Европе. Любой набор регионов с несколькими количественными показателями можно подать на вход тем же пяти методам. Ограничения: нужны данные без пропусков для всех единиц наблюдения, и чем меньше единиц, тем менее надёжен ensemble-критерий — для 20 регионов 11 аномалий были бы статистически бессмысленными.
Почему ML-методы дают примерно 5% аномалий?
contamination parameter был установлен в 0.05 — это гиперпараметр по умолчанию, а не оптимизированное значение. Он означает: «считай 5% точек аномальными». Исследователи не подбирали этот параметр, а взяли стандартный default для задач, где нет размеченных данных об ошибках.
Разве Брюссель — это не выброс из-за столицы ЕС?
Исследователи explicitly отмечают, что Брюссель flagged не потому, что он «столица», а потому что его конкретная комбинация показателей (очень высокий ВВП, очень высокая плотность, характерная структура занятости) нетипична. Если бы Люксембург имел аналогичные показатели, он тоже был бы flagged. Дело не в политическом статусе, а в метриках.
Итог
Машинное обучение в официальной статистике — это не замена экспертной проверке, а усиление. Пять методов на 260 европейских регионах нашли 11 устойчивых структурных аномалий: столичные метрополии с нетипичной комбинацией ВВП и плотности (Брюссель, Вена, Берлин, Прага, Гамбург), периферийные регионы с дефицитом образования при специфической демографии (ан陶лузские, словацкие, венгерские). Классическая статистика (z-score, Махаланобис) нашла только 3–12 регионов, ML — 15 каждым методом, но истинный сигнал — только в их пересечении. Для статистических ведомств ЕС это означает, что Isolation Forest и LOF могут стать стандартной частью регионального мониторинга — и исследование arXiv:2605.02884 даёт воспроизводимый рецепт.