AI, ML, Deep Learning и Generative AI: объяснение в одной картинке

Каждый день в новостях мелькают четыре термина. Их употребляют как синонимы, хотя на самом деле это 洋葱-слои технологий — каждый следующий построен на предыдущем. Если вы путаете deep learning с машинным обучением или не понимаете, почему ChatGPT называют генеративным ИИ — этот материал для вас.

Мы пройдём от самого широкого понятия до самого узкого, разберём, почему каждый слой стал возможен именно тогда, когда появился, и начнём с аналогии, которая сразу всё прояснит.

Искусственный интеллект — вся область целиком

Искусственный интеллект (Artificial Intelligence, AI) — самый широкий термин. Это всё, что пытается сделать с компьютером что-то, похожее на человеческое мышление: учиться, делать выводы, рассуждать, распознавать образы, понимать язык.

История AI началась задолго до хайпа. Уже в 1980-х годах исследователи создавали экспертные системы — программы на языках Lisp и Prolog, которые имитировали логику специалистов в узких областях. Врач ставил диагноз по симптомам, химик предсказывал реакции — и всё это работало без единой строки машинного обучения. Инженеры просто записывали правила вручную: если симптом X и симптом Y, то диагноз Z.

Проблема была в том, что такие системы бессильны за пределами заранее прописанных правил. Как только задача выходила за рамки — экспертная система не справлялась. Потребовался новый подход, и он появился в 2010-х, когда вычислительные мощности и данные наконец сошлись в одной точке.

Машинное обучение — учим машину находить паттерны

Машинное обучение (Machine Learning, ML) — это подход внутри AI. Вместо того чтобы программировать каждое правило вручную, мы даём алгоритму данные и позволяем ему самостоятельно находить закономерности.

Классический пример — фильтрация спама. Классический подход требовал бы списка ключевых слов: «выигрыш», «бесплатно», «срочно». Спамеры быстро адаптировались — меняли формулировки, добавляли пробелы, использовали синонимы. Фильтр на правилах устаревал каждый день.

ML решает это иначе. Алгоритму показывают тысячи писем, помеченных как «спам» или «не спам», и он сам находит признаки, которые чаще встречаются в спаме. Причём модель может обнаружить закономерности, которые человеку не пришли бы в голову: определённые сочетания знаков препинания, время отправки, структуру заголовков. Чем больше данных — тем увереннее предсказания.

Машинное обучение особенно хорошо в двух задачах. Прогнозирование — предсказание спроса, оттока клиентов, колебаний курсов. И обнаружение аномалий — поиск выбросов: транзакций, не похожих на типичные для пользователя, сетевого трафика с признаками вторжения, показаний датчиков за пределами нормы.

Именно поэтому ML стал основой кибербезопасности — области, где нужно выявлять необычное поведение среди миллионов обычных событий. Алгоритм не знает заранее, как выглядит атака. Он учится на данных и сам находит отклонения.

Глубокое обучение — когда нейросети становятся «глубокими»

Deep learning — это подмножество ML, основанное на нейронных сетях. Нейросеть имитирует устройство человеческого мозга: сигналы проходят через слои нейронов, каждый слой обрабатывает информацию и передаёт дальше. «Глубокое» означает количество слоёв — в современных сетях их могут быть сотни.

Ключевое отличие от классического ML — способность работать с сырыми данными напрямую. Классическому машинному обучению нужно, чтобы человек вручную выделил признаки: для распознавания изображений — границы, цвета, текстуры. В deep learning сеть сама учится выделять эти признаки. Вы даёте ей пиксели — она сама понимает, что важно для распознавания кошки или собаки.

Другое преимущество — глубина абстракции. Простая сеть может отличить кошку от собаки. Глубокая сеть с сотнями слоёв способна распознавать конкретные породы, позы, эмоции животных, фоновые сцены. Каждый следующий слой добавляет уровень абстракции.

Обратная сторона — так называемый «чёрный ящик». Сотни слоёв и миллионы параметров делают интерпретацию решений крайне сложной. Мы видим вход и выход, но внутренняя механика остаётся непрозрачной. Это создаёт проблемы в regulated industries — медицине, финансах, праве, — где объяснимость решений критически важна.

Generative AI — генерация нового контента

Генеративный ИИ (Generative AI) — подмножество deep learning, которое фокусируется на создании нового контента. Если предыдущие уровни анализировали и предсказывали, то generative AI производит: текст, изображения, музыку, видео, код.

Основа — фундаментальные модели (foundation models): огромные нейронные сети, обученные на терабайтах данных. Самый известный тип — большая языковая модель (Large Language Model, LLM). Она работает по принципу предсказания: увидев последовательность слов, предсказывает, какое слово должно идти дальше. Но масштаб меняет качество: LLM предсказывает не одно слово, а целые предложения, абзацы, документы.

Аналогия из повседневной жизни — автодополнение на смартфоне. Когда вы печатаете «завтра встреча в...», телефон предлагает «офисе» или «14:00». Это простое предсказание по нескольким словам. LLM делает то же самое, но видит контекст всего разговора, понимает стиль и тон, и генерирует ответы, неотличимые от человеческих.

Важно понимать масштаб данных, на которых обучаются фундаментальные модели. GPT-4, по оценкам, обучался на триллионах слов из интернета, книг, кода. LLaMA от Meta — на 1,4 триллиона токенов. Эти массивы данных создают понимание языка, логики, фактов и даже стилистики, которое невозможно получить иначе.

Почему всё случилось именно сейчас

Все четыре уровня AI были теоретически возможны десятилетия назад. Но на практике прорывы происходили в конкретные моменты, когда сходились три фактора: данные, вычислительная мощность и алгоритмы.

Экспертные системы 1980-х требовали только правил — данных было достаточно. ML в 2010-х стало возможным благодаря накопленным цифровым данным и росту GPU. Deep learning — отдельный прорыв 2010-х, когда графические процессоры позволили обучать действительно глубокие сети. Generative AI — результат 2020-х, когда модели стали настолько большими, а данных настолько много, что возникло качественно новое поведение.

Каждый следующий уровень не отменял предыдущий. Экспертные системы по-прежнему работают в нишевых областях. Классический ML используется в задачах, где данных мало и нейросеть не нужна. Deep learning — стандарт для большинства сложных задач. Generative AI — новейший слой, который открыл возможности, о которых раньше нельзя было помыслить.

Примеры из практики: где что применяется

Чтобы закрепить различия, полезно посмотреть на конкретные задачи и понять, какой уровень AI для них подходит.

Классический ML — это кредитный скоринг в банке. Модель обучается на истории транзакций и выдаёт вероятность дефолта. Данных нужно немного — сотни тысяч записей достаточно. Модель интерпретируема: мы видим, какой признак какой вес имеет. Это важно для регуляторов — банк обязан объяснить, почему отказал в кредите.

Deep learning — это распознавание лиц в системах безопасности. Камера снимает лицо, нейросеть с сотнями слоёв сравнивает с базой данных. Здесь мало данных — нужны миллионы изображений. Модель работает с сырыми пикселями без ручного выделения признаков. Обратная сторона — она не объяснит, почему решила, что это ваше лицо. Сегодня такие системы используются в аэропортах, на стадионах, в смартфонах для разблокировки.

Generative AI — это языковые модели в чат-ботах и помощниках. GPT-4, Claude, Gemini умеют вести сложные диалоги, писать код, анализировать документы. Они основаны на трансформерах — архитектуре нейросетей, которая позволяет модели «видеть» контекст вокруг каждого слова. Фундаментальные модели обучаются на триллионах слов и проявляют способности, которых нельзя было предсказать по отдельным компонентам — так называемый emergent behavior.

Важно понимать границы каждого подхода. LLM не заменит ML в задачах, где нужно предсказать число — стоимость недвижимости, вероятность клика, объём продаж. Для этого нужны регрессионные модели, а не авторегрессивные генераторы текста. И наоборот — для задач, где нужно понять смысл текста или сгенерировать связный ответ, классический ML не подойдёт.

Как принимать решения о внедрении

Когда бизнес рассматривает AI-проект, первый вопрос — какая задача стоит. Если нужно классифицировать (спам/не спам, мошенническая транзакция/обычная) — это задача для классического ML. Если нужно распознать образ (лицо, голос, объект на фото) — нужен deep learning. Если нужно создать контент (текст, изображение, музыка) — генеративный ИИ.

Второй вопрос — сколько данных есть и нужна ли интерпретируемость. Регулируемые отрасли (банки, страхование, медицина) часто требуют объяснимых моделей. Здесь ML с явными признаками предпочтительнее глубоких нейросетей-чёрных ящиков. Если же задача не регулируется и данных много — deep learning обычно выигрывает по точности.

Третий вопрос — инфраструктура. Глубокие нейросети и большие языковые модели требуют GPU. Обучение GPT-4 стоило сотни миллионов долларов. Даже запуск готовой модели — дорогое удовольствие. Классический ML работает на обычных серверах. Иногда достаточно ноутбука.

Как всё это связано: визуальная модель

Самый простой способ запомнить — представить себе матрешку или пирамиду:

AI (весь дом) → ML (фундамент) → Deep Learning (первый этаж) → Generative AI (крыша)

Или более формально: AI ⊃ ML ⊃ Deep Learning ⊃ Generative AI. Каждый термин — это подмножество предыдущего, не замена ему.

На практике это означает следующее: когда компания заявляет, что её продукт использует «искусственный интеллект», это может быть что угодно — от экспертной системы 1980-х до современной LLM. Конкретная технология определяет возможности и ограничения. Если вам нужна генерация текста — ищите generative AI. Если вам нужна классификация на небольшом датасете — достаточно классического ML. Если задача требует понимания сырых данных, таких как изображения или аудио, — нужен deep learning.

Часто задаваемые вопросы

LLM — это то же самое, что AI?

Нет. LLM — частный случай генеративного ИИ, который специализируется на тексте. Есть мультимодальные модели, которые работают и с текстом, и с изображениями, и с аудио. Но есть и узкие AI-системы, которые ничего не генерируют и ничего общего с LLM не имеют. LLM — лишь один из инструментов в арсенале AI.

Почему deep learning называют «глубоким»?

«Глубокий» refers к количеству слоёв в нейронной сети. Простая сеть может иметь два-три слоя. Глубокая — сотни. Каждый слой добавляет уровень абстракции: первый слой видит пиксели, средние слои — текстуры и границы, верхние — формы и объекты. Чем глубже сеть, тем более сложные и абстрактные паттерны она способна улавливать.

Нейросеть — это как мозг?

Только метафорически. Искусственные нейроны — это математические функции, которые принимают числа на вход, умножают на веса и выдают число на выходе. Настоящие нейроны в мозге работают на электрических импульсах, имеют тысячи связей и гораздо более сложную динамику. Нейросети вдохновлены мозгом, но не моделируют его работу биологически корректно. Это не мешает им решать сложнейшие задачи — но аналогия с мозгом скорее запутывает, чем помогает.

Может ли generative AI заменить ML?

Нет — это разные инструменты для разных задач. LLM хорош для генерации текста, анализа смысла, ответов на вопросы. Но для предсказания чисел (цены, вероятности, объёма) классические ML-модели остаются стандартом. Они быстрее, дешевле и интерпретируемее. Generative AI добавляет новые возможности, но не отменяет предыдущий уровень — как и предыдущие уровни не отменили экспертные системы в тех задачах, где те работают.

Итог

AI, ML, deep learning и generative AI — это не конкурирующие термины, а вложенные уровни одной области. Первый охватывает все попытки имитировать интеллект, второй — подход через обучение на данных, третий — нейросетевую реализацию этого подхода, четвёртый — способность генерировать новый контент на основе learned representations.

Понимание этой иерархии — не академическая прихоть. Когда вы читаете о новом AI-продукте, понимание того, на каком уровне технологического стека он работает, определяет, чего от него реально ожидать. Генеративный ИИ умеет создавать текст и изображения, но не умеет рассуждать в человеческом смысле. Deep learning отлично распознаёт образы, но не объясняет, почему принял решение. Машинное обучение хорошо предсказывает на основе паттернов, но нуждается в данных. Экспертные системы работают быстро, но только в заранее определённых рамках.

Каждый инструмент — для своей задачи. Разбираться в уровнях — значит выбирать правильный инструмент.

← Все записи