LOCUS: как AI учится читать местные законы США

LOCUS: как AI учится читать местные законы США

Дошкольные правила в Чикаго запрещают держать больше двух детей того же пола. Муниципалитет Майами обязывает домовладельцев стричь газоны не выше шести дюймов. В десятках городов Флориды нельзя сушить бельё на улице. В Оклахоме есть город, где нельзя менять колесо работающего автомобиля, если владелец не подложит под него деревянный блок. Эти нормы не фигурируют ни в одном публичном датасете для AI — хотя они напрямую определяют, как живут миллионы людей.

Проблема в том, что местные законодательные кодексы (ordinance codes) существуют в форматах, созданных для человеческого чтения, а не для машинной обработки. PDF-файлы с отсканированных документов, противоречивые структуры каталогов, сотни разных вендорских платформ — всё это делает массовый сбор данных практически невозможным без специальной инфраструктуры.

Что такое LOCUS

LOCUS — Local Ordinance Corpus for the United States — попытка закрыть этот пробел системно. Исследователи из команды LocalLaws собрали кодексы 9 239 городов и округов США и опубликовали корпус для исследователей. Это крупнейший машинно-читаемый корпус местного законодательства на сегодня.

Внутри — реальные тексты муниципальных актов: зонирование, лицензирование бизнеса, общественное здоровье, шум, контроль животных, жилищные стандарты. Для 2 309 крупнейших округов из 3 144 существует так называемый county-harmonized access layer — унифицированный слой доступа, который позволяет сравнивать кодексы между юрисдикциями напрямую.

Ключевая техническая деталь: авторы применили OCR для извлечения текста из многочисленных PDF-форматов, которые раньше блокировали машинную обработку. Корпус публикуется с метаданными покрытия для воспроизводимости и дальнейших исследований в области legal AI. LOCUS-v1 и производные модели доступны на HuggingFace.

Почему местные законы оказались вне досягаемости

Федеральное законодательство США давно оцифровано — Code of Federal Regulations, судебные прецеденты, статуты штатов. Всё это доступно через общественные API, корпуса вроде Caselaw Access Project и специализированные платформы. А вот муниципальный уровень — это сотни разрозненных источников.

Причина не в нежелании публиковать. Муниципалитеты просто не проектировали свои архивы для машинной обработки. Кодекс небольшого города может храниться как 300-страничный PDF, загруженный на сайт мэрии в 2019 году и с тех пор не обновлявшийся. Другой город хранит тот же кодекс как набор отдельных глав в формате, который каждый разработчик парсит по-своему.

Когда исследователь хочет изучить регуляторную среду для бизнеса в США, он обычно полагается на экспертные знания или выборочную ручную работу. Архитектуры вроде RAG могут искать по одному документу, но масштабный сравнительный анализ по тысячам юрисдикций без готового корпуса невозможен.

Структура аннотаций: Function и Topic

LOCUS аннотирован на уровне чанков — отдельных фрагментов текста — по двум измерениям. Первое измерение называется Function, и оно описывает тип регуляторного действия: Rules описывают сами нормы поведения, Enforcement — механизмы принуждения. Второе измерение Topic определяет тематическую категорию: зонирование, лицензирование бизнеса, общественное здоровье, жильё.

Примеры из таблицы в статье иллюстрируют разницу. Фраза «No direct seller shall engage in direct sales within the city without receiving a permit for that purpose as provided herein» — это Rules / Business Licensing. А фраза «Any Code Enforcement Officer may issue notices of violation and administrative citations, inspect public and private property» — это Enforcement / Code Enforcement.

Разделение на Function и Topic позволяет задавать сложные запросы к корпусу. Можно искать только Enforcement-фрагменты в категории Housing, чтобы понять, как города обеспечивают соблюдение жилищных стандартов. Или наоборот — Rules в категории Zoning, чтобы сравнить, какие правила зонирования принимают разные юрисдикции.

Помимо базовой разметки авторы обучили на корпусе коллекцию классификаторов на базе ModernBERT. Модели оценивают каждый документ по шкале opacity — насколько язык нормы непрозрачен для неспециалиста — и paternalism — насколько она ограничивает свободу выбора гражданина.

County-harmonized access layer: зачем он нужен

Прямое сравнение муниципальных кодексов осложнено тем, что города внутри одного округа могут иметь пересекающиеся юрисдикции. Кодекс округа и кодекс города внутри этого округа могут регулировать одни и те же вопросы по-разному — и непонятно, какое правило применяется к конкретному случаю.

County-harmonized access layer решает это упрощением: для каждого из 2 309 крупнейших округов авторы выбрали наиболее существенный кодекс — либо кодекс самого округа, либо кодекс крупнейшего муниципалитета в этом округе. Выбор основан на объёме и полноте документа.

Это даёт географически единообразную основу для сравнений. Запрос «в каких округах уровень opacity коррелирует с типом Enforcement бюджета» теперь выполним. Без унификации по округам такой запрос потребовал бы ручной координации между разными уровнями власти.

ModernBERT как основа классификаторов

Выбор ModernBERT в качестве базовой модели объясняется практичными соображениями. Архитектура оптимизирована для длинных входов и работы с кодоподобным текстом. Местные кодексы — это формальный язык с длинными секциями, где релевантная информация может находиться далеко от начала документа.

Для корпуса с тысячами юрисдикций эффективная обработка длинных контекстов критична. Инструкция по зонированию в 200 страниц может содержать ключевое исключение для исторических зданий в приложении на странице 187. Классическая архитектура transformer с ограниченным контекстом может упустить это при обработке.

ModernBERT обещает лучшее соотношение скорость/качество на длинных последовательностях по сравнению со стандартным BERT, что важно при инференсе на тысячах документов. Обучение на конкретных примерах из LOCUS — Rules versus Enforcement, Topic labeling — позволяет классификатору захватить специфику именно муниципального права, а не общего юридического языка.

Примеры регуляций, которые теперь доступны

Чтобы показать масштаб: один только кодекс Лос-Анджелеса содержит разделы о парковке на подъездных путях (не ближе 5 футов к бордюру), о максимальной высоте забора в жилых зонах (не более 6 футов без разрешения), о том, что мусорные баки должны быть на расстоянии не менее 3 футов от соседского забора в дни вывоза. Эти детали не фигурируют ни в одном другом корпусе.

Города вроде Сиэтла регулируют использование дождевых бочек для сбора воды (не более двух на участок, объём не более 55 галлонов каждая). Филадельфия — минимальную площадь комнат в арендуемом жилье (не менее 70 квадратных футов для спальни). LOCUS делает все эти детали машинно-читаемыми для сравнительного анализа.

Почему это важно для развития legal AI

Legal AI — одна из наиболее коммерчески востребованных областей применения Language Models. Судебные решения, контракты, нормативные акты — всё это генерирует огромный объём текста, который люди не могут эффективно обрабатывать без помощи AI. Но при внимательном рассмотрении оказывается, что「大」часть legal AI фокусируется на верхнем уровне — федеральные законы, решения апелляционных судов, публичные контракты крупных компаний.

Муниципальный уровень — где регулируется повседневная жизнь обычного человека — оставался в стороне. Арендатор, который хочет понять, законный ли запрет на домашних животных в его конкретном доме, полагается на юридическую помощь или на чтение оригинального кодекса. Предприниматель, который открывает кофейню в новом городе, нанимает юриста, чтобы разобраться в лицензионных требованиях. LOCUS делает первый шаг к демократизации этой информации.

Для AI-разработчиков это одновременно вызов и возможность. Архитектуры RAG, которые хорошо работают на длинных федеральных документах, должны адаптироваться к более разговорному и менее структурированному языку муниципальных кодексов. LOCUS предоставляет данные для такой адаптации.

Потенциальные применения

До LOCUS анализ местного законодательства был по определению выборочным. Исследователь мог изучить десяток-другой кодексов вручную и экстраполировать выводы на всю страну. С моделью, обученной на корпусе из тысяч юрисдикций, впервые появляется возможность искать паттерны системно.

Сравнительный анализ регуляторной нагрузки — какие города требуют больше разрешений для открытия бизнеса, какие округа имеют более строгие жилищные стандарты. Выявление «тёмных паттернов» в местных кодексах — скрытых положений, которые создают административные барьеры для отдельных групп. Оценка регуляторной политики на уровне штата или региона: единообразны ли правила внутри одного штата или сильно различаются между городами.

Для практиков корпус полезен напрямую. Можно скачать данные и применить готовые модели к конкретной юрисдикции — оценить, насколько понятны правила Airbnb в конкретном городе, или сравнить жилищные стандарты двух соседних округов перед покупкой недвижимости.

Юристы и консультанты получают инструмент для due diligence при переезде бизнеса в новую юрисдикцию. Раньше такая проверка требовала локальных экспертов; теперь — запроса к модели.

Ограничения и честная оценка

LOCUS изначально задуман как access layer — слой доступа, а не финальная теория местного права. County-harmonized слой действительно упрощает, и это честно признаётся в статье: выбирая наиболее существенный кодекс для каждого округа, авторы жертвуют полнотой ради единообразия.

Для сельских территорий покрытие хуже. County-harmonized слой фокусируется на 2 309 крупнейших округов — это покрывает большинство населения США, но оставшиеся 835 округов, часто сельские, представлены менее полно.

Аналитические измерения opacity и paternalism — лишь два из множества возможных. Регуляция может быть прозрачной и при этом несправедливой по другим критериям; модель не захватывает эти нюансы. Кроме того, OCR-извлечение из PDF может вносить ошибки, особенно для старых сканов низкого качества.

Как это соотносится с существующими правовыми корпусами

Ранее предпринимались попытки собрать корпуса для legal AI, но они фокусировались на другом уровне права. ECHR содержит решения Европейского суда по правам человека. Pile of Law — это прецедентное право США. Caselaw Access Project охватывает американские судебные решения. Все эти корпуса — про суды и законы, которые публикуются централизованно.

Местные ordinance codes — это другой порядок задачи. Нет единого репозитория, нет стандартного формата, нет центрального органа, который координировал бы публикацию. Каждый из 9 239 муниципалитетов публикует свои кодексы по-своему. LOCUS — первая попытка системно закрыть именно этот уровень.

Интересно, что авторы не пытались создать универсальную онтологию для всех типов регуляций. Вместо этого они определили минимальный набор измерений — Function и Topic — который позволяет задавать структурированные запросы, не требуя полной семантической разметки всех 9 239 кодексов.

Практическая ценность для AI-разработчиков

Для разработчиков, которые строят RAG-системы для юридической предметной области, LOCUS даёт несколько возможностей. Во-первых, это реалистичные данные для тестирования: county-harmonized слой позволяет оценивать качество поиска на репрезентативной выборке. Во-вторых, это задачи для классификации — обучение моделей на размеченных чанках из LOCUS может улучшить перформанс на новых юрисдикциях.

В-третьих, LOCUS можно использовать как источник негативных примеров. Многие городские кодексы написаны сложным юридическим языком, который трудно понять неспециалисту. Модель, которая хорошо работает на федеральных документах, может плохо справляться с этой спецификой. Наличие LOCUS позволяет измерить этот разрыв количественно.

FAQ

Почему местные законы раньше не собирали в таких масштабах?

Потребовались бы годы работы группы людей, чтобы прочитать кодексы даже крупнейших 100 городов. LOCUS автоматизирует не только извлечение текста, но и классификацию — OCR плюс ModernBERT-классификаторы позволяют обработать тысячи юрисдикций за часы. Это принципиальное отличие от ручного сбора.

Какие города покрыты лучше всего?

County-harmonized слой фокусируется на 2 309 крупнейших округов — это покрывает большинство населения США, но сельские территории представлены менее полно. Для мелких муниципалитетов доступны raw-кодексы из основного корпуса, но без унификации.

Можно ли использовать LOCUS для анализа российского или европейского законодательства?

Нет, корпус специфичен для США. Структура местного самоуправления, формат кодексов, терминология — всё это привязано к американской правовой системе. Для других юрисдикций нужны отдельные корпуса с адаптированными классификаторами.

Что можно анализировать с LOCUS?

Соотношение Rules и Enforcement внутри одного кодекса, географическое распределение opacity или paternalism по штатам, тематическую структуру регуляций в конкретном штате. Корпус и модели доступны на HuggingFace (LocalLaws/LOCUS-v1).

Как OCR влияет на качество данных?

Авторы честно признают, что OCR-извлечение из PDF может вносить ошибки, особенно для старых сканов низкого качества. Для корпуса такого масштаба полностью ручная верификация невозможна, но метаданные покрытия позволяют отфильтровать низкокачественные источники при необходимости. Это компромисс между масштабом и точностью — и он осознанный.


Данные и модель: LOCUS на HuggingFace

← Все записи