Нужны ли агентам семантические метаданные: разбор исследования Google
Миллиарды страниц в открытом вебе против девяноста миллионов датасетов с семантической разметкой. Казалось бы, выбор очевиден: чем больше корпус, тем выше шансы найти нужные данные. Но новое исследование команды Google Dataset Search переворачивает эту логику. Когда речь заходит об агентных рабочих процессах — системах, которые должны не просто находить информацию, а действовать с ней — объём оказывается менее важным, чем структура.
В мае 2026 года группа исследователей из Google опубликовала работу «Do Agents Need Semantic Metadata?» — первое крупное сравнение агентного поиска данных в структурированных и неструктурированных средах. Они взяли два одинаковых агента на Gemini 2.5 Pro, дали одним и тем же пятидесяти восьми вопросам — и получили результат, который ставит под сомнение саму идею «больших данных» как универсального решения.
Что такое агентный поиск данных
Автономные агенты на базе больших языковых моделей (LLM) всё чаще берут на себя задачи, которые раньше требовали человека: сбор данных для анализа, репликация экспериментов, построение отчётов. Но агент отличается от человека фундаментально — он не может «прочитать статью и понять суть». Для агента данные должны быть машинодействительными: доступными через API, в структурированных форматах, с явно описанной схемой.
Представьте, что вы поручаете ассистенту найти данные о загрязнении воздуха в Балтиморе. Человек откроет статью, прочитает абзац, выделит цифры и построит график. Агент откроет ту же статью — и увидит HTML-разметку, CSS-классы, навигационное меню и рекламный баннер. Цифры есть где-то посередине, но чтобы их извлечь, агенту придётся парсить DOM, отличать содержательный текст от шаблонного, интерпретировать таблицы и справляться с динамической подгрузкой контента. Каждый шаг — потенциальная точка отказа.
Более десяти лет семантические метаданные, такие как schema.org и W3C DCAT, обеспечивали принципы FAIR — Findable, Accessible, Interoperable, Reusable. Эти принципы изначально задумывались для людей, но с появлением агентов превратились в техническое требование. Найти данные — только полдела. Главное, чтобы агент мог их обработать без участия человека.
Постановка эксперимента
Исследователи построили два почти идентичных агента на базе Agent Development Kit (ADK) и Gemini 2.5 Pro. Различался только источник данных:
Базовый агент запрашивал Google Search — корпус из миллиардов веб-страниц без фильтрации. К поисковому запросу автоматически добавлялось слово «dataset», чтобы агент целился в данные, а не в общий контент. Полученный результат включал URL и синтезированные текстовые сниппеты из содержимого страниц.
Семантический агент запрашивал Google Dataset Search — индекс из примерно девяноста миллионов записей, где каждая страница обязательно содержит разметку schema.org/Dataset или DCAT. Это строгий фильтр: нет разметки — нет в индексе. В ответе агент получал не просто текст страницы, а структурированные метаданные: формат файла, лицензию, временной охват, географическое покрытие, ссылки на прямые загрузки.
Оценка проводилась на пятидесяти восьми реальных поисковых запросах из бенчмарка NTCIR-16 Data Search 2 — задачах по экономике, демографии и общественному здоровью. Запросы были собраны от реальных людей, выражающих реальные информационные потребности, часто недостаточно конкретные и контекстно-зависимые. Например, просто «air quality baltimore» — без указания года, формата или источника. Такая формулировка заставляет агента самостоятельно интерпретировать намерения пользователя и находить наиболее подходящий датасет.
Для оценки результатов исследователи разработали систему автоматических рейтинговых агентов, которые проверяли три аспекта каждого найденного датасета: релевантность запросу, доступность для программной обработки и вычислительную полезность — то есть, может ли агент действительно использовать найденное, а не просто прочитать о нём.
Релевантность: паритет, который обманывает
По семантической релевантности разница оказалась минимальной. Базовый агент нашёл шестьдесят процентов высокорелевантных датасетов, семантический — шестьдесят один. С точки зрения «попал ли агент в тему» оба справились одинаково хорошо.
Но релевантность для человека и для агента — разные вещи. Человеку достаточно статьи, которая упоминает нужные данные. Агенту нужен файл, который он может открыть программно. И здесь разница стала катастрофической.
Важно понимать, почему базовый агент показал такой же процент релевантности. Дело в том, что современные языковые модели хорошо понимают намерения пользователя. Когда кто-то спрашивает «данные о преступности в Чикаго», модель понимает, что нужны не новости о преступлениях, а статистические датасеты. Проблема не в понимании запроса — проблема в том, что найденная страница может оказаться статьёй, которая обсуждает статистику, но не предоставляет её в виде скачиваемого файла.
Доступность данных: пропасть между найти и использовать
Семантический агент вернул страницы с машиночитаемыми данными в семьдесят один процент случаев. У базового агента этот показатель — сорок девять процентов. Разница в сорок шесть с половиной процентов относительной точности.
Что это значит на практике? Базовый агент регулярно попадал на страницы, где данные есть, но добыть их невозможно без человека. Двадцать процентов его результатов — прозаические тексты, где данные закопаны в абзацы. Восемь с половиной процентов — порталы и навигационные страницы, которые заманивают агента в бесконечные циклы поиска. Семантический агент практически избежал этих ловушек: снижение прозаических результатов на сорок семь процентов, порталов — на шестьдесят три процента, полностью бесполезных страниц — на семьдесят шесть.
Исследователи назвали это эффектом «последней мили». Агент может найти правильный сайт, но не суметь извлечь из него данные. DOM-шум, плотный текст, интерактивные элементы — всё это раздувает контекстное окно и дезориентирует модель. Представьте, что вы просите ассистента скачать CSV-файл, а он вместо этого попадает на страницу с интерактивной картой, где данные отображаются только при наведении мыши. Для человека — удобно. Для агента — тупик.
Кроме того, базовый агент часто возвращал страницы с данными в презентационных форматах — статичные изображения графиков, PDF-документы без структурированной разметки, интерактивные дашборды без API. Семантический агент сократил такие результаты на шестьдесят три процента. Когда данные завёрнуты в визуализацию, агент не может их извлечь без дополнительных инструментов компьютерного зрения — а это уже совсем другой уровень сложности и совсем другая стоимость.
Типы страниц: реестры против нарратива
Восьмьдесят восемь процентов результатов семантического агента — страницы реестров данных с метаданными, DOI, словарями данных и информацией о происхождении. У базового агента таких страниц — шестьдесят один процент. Разница в сорок пять процентов относительной точности.
Базовый агент чаще возвращал «нарративные» страницы — статьи, новости, отчёты, которые обсуждают данные, но не предоставляют их в машиночитаемом виде. Семантический агент сократил такие результаты на восемьдесят семь процентов. Он также реже попадал на интерактивные дашборды без экспортных опций и на страницы-ловушки с внутренним поиском.
Что интересно, базовый агент демонстрировал большую разнообразность типов страниц. Он находил не только реестры, но и сырые файлы, интерактивные эксплореры, новостные статьи и порталы каталогов. С одной стороны, это разнообразие выглядит как преимущество — больше источников, больше перспектив. С другой стороны, именно это разнообразие и создавало проблему: агент не мог предсказать, что он найдёт, и не мог заранее подготовить инструменты для обработки. Каждый новый тип страницы требовал новой стратегии извлечения.
Семантический агент, напротив, работал в предсказуемой среде. Восемьдесят восемь процентов результатов — реестры с единообразной структурой. Это позволяло агенту использовать один и тот же pipeline обработки для подавляющего большинства случаев, снижая сложность и повышая надёжность.
Покрытие: единственное преимущество открытого веба
Базовый агент ответил на пятьдесят шесть из пятидесяти восьми запросов, семантический — только на сорок. Двадцатипроцентное преимущество в покрытии объясняется просто: далеко не все датасеты размечены schema.org. В «длинном хвосте» научных дисциплин и специализированных репозиториев семантическая разметка практически отсутствует.
Но количество ответов не равняется их полезности. Когда исследователи измерили общую точность поиска FAIR-совместимых датасетов, семантический агент оказался точнее на шестьдесят шесть процентов. Он отвечал реже, но почти всегда давал результат, с которым можно работать.
Это создаёт интересный компромисс для разработчиков агентных систем. Если ваш агент работает в домене, где большинство данных размечено — например, публичные правительственные датасеты, популярные научные репозитории — семантический поиск даст высокую точность и предсказуемость. Если же ваш агент исследует редкие или специализированные области, где разметка отсутствует, базовый веб-поиск остаётся единственным вариантом, даже с его недостатками.
Исследователи предлагают гибридный подход: использовать семантический поиск как основной канал, а базовый веб-поиск — как fallback для случаев, когда структурированный индекс не даёт результата. Такая стратегия сохраняет преимущества обоих миров: высокую точность там, где это возможно, и широкое покрытие там, где это необходимо.
Почему структура побеждает масштаб
Ключевое открытие исследования — в агентных системах полезность определяется не размером корпуса, а его машинодействительностью. Базовый агент имел доступ к миллиардам страниц, но каждая требовала дополнительной обработки: парсинг HTML, извлечение текста, интерпретация таблиц, обход навигационных меню. Эти шаги не только замедляют работу, но и множат точки отказа.
Семантический агент работал с корпусом, где каждая запись уже содержала структурированные метаданные: формат файла, лицензия, временной охват, географическое покрытие, ссылки на прямые загрузки. Для агента это разница между «найди иголку в стоге сена» и «возьми иголку с полки, на которой написано 'иголки'».
Исследователи подчёркивают, что в эпоху агентов принципы FAIR перестают быть рекомендацией для хорошего тона и становятся инженерным требованием. Данные, которые не являются машинодействительными, для агента практически не существуют.
Ограничения и практические выводы
У исследования есть важные ограничения. Во-первых, индекс Google Dataset Search — девяносто миллионов записей — это лишь часть всех данных в мире. Многие репозитории используют альтернативные словари или не имеют семантической разметки вообще. Во-вторых, внутренние алгоритмы ранжирования Google остаются чёрным ящиком: исследователи измеряли конечную полезность, а не изолировали влияние отдельных факторов.
Тем не менее выводы имеют прямое отношение к практике. Если вы публикуете данные и рассчитываете, что ими будут пользоваться агенты — добавьте разметку schema.org/Dataset. Это не просто SEO для датасетов, а техническое требование для включения в агентные рабочие процессы.
Если вы строите агентную систему, которая работает с внешними данными — не полагайтесь только на общий веб-поиск. Гибридный подход, сочетающий широту открытого веба с точностью структурированных реестров, даёт и покрытие, и действительность.
Часто задаваемые вопросы
Может ли агент сам научиться извлекать данные из неструктурированных страниц?
Теоретически да, но на практике это требует многошагового скрейпинга, который вводит шум и ошибки. Исследование показало, что DOM-шум и плотный текст деградируют рассуждения агента. Специализированные скрейперы существуют, но они медленнее и менее надёжны, чем работа с уже структурированными метаданными.
Почему не все датасеты используют schema.org?
Разметка требует дополнительных усилий от издателей данных. Многие научные репозитории и специализированные базы либо не знают о стандартах, либо используют собственные форматы. Это создаёт «длинный хвост» неразмеченных данных, которые агенты пока не могут эффективно использовать.
Как добавить schema.org разметку к своему датасету?
Достаточно добавить на страницу датасета JSON-LD блок с типом Dataset, указав название, описание, автора, дату публикации, формат файла, лицензию и прямую ссылку на скачивание. Google Dataset Search автоматически проиндексирует страницу при следующем обходе.
Итог
В эпоху агентов данные перестают быть просто находимыми — они должны быть действительными. Исследование Google показывает, что семантические метаданные повышают точность извлечения машиночитаемых данных на сорок шесть процентов, сокращают бесполезные результаты на три четверти и превращают принципы FAIR из абстрактных рекомендаций в конкретное инженерное преимущество. Если ваши данные не размечены — для агентов их практически нет.