Почему AI сначала «был всегда в 10 годах от нас», а потом — сразу everywhere

В 1980-х годах, когда один из спикеров этого видео был студентом, он писал программы на Lisp и Prolog — языках, которые тогда считались будущим искусственного интеллекта. Экспертные системы казались прорывом: инженеры думали, что ещё немного — и AI будет повсюду. Но этого не произошло. Технология осталась нишевой, а AI превратился в мем про «всегда 5–10 лет от нас».

А потом, около 2010-х, случился machine learning. За ним — deep learning. А затем, совсем недавно, — generative AI и foundation models. И тут кривая adoption пошла вертикально вверх. Почему именно так? И что это значит для тех, кто принимает решения прямо сейчас?

Три волны, которые не ломали adoption curve

Первая волна — экспертные системы 1980–90-х годов. Программисты закладывали правила вручную: если A, то B. Инженеры пытались закодировать всё человеческое знание о предметной области в виде иерархии правил «если → то». Работало для узких задач в контролируемой среде — например, медицинская диагностика или оценка кредитных рисков. Но не масштабировалось. Перебрать все возможные правила для реального мира — всё равно что описывать каждую ситуацию в шахматах заранее, до того как она возникла на доске.

Проблема была фундаментальной: мир слишком сложен для явного кодирования правил. Невозможно описать все исключения, все контексты, все нюансы. Попытки построить универсальную экспертную систему провалились, инвестиции схлопнулись, и наступила «AI winter» — период спада интереса и финансирования.

Вторая волна — machine learning. Ключевой сдвиг парадигмы: вместо того чтобы программировать правила, машине давали данные и говорили: «Находи паттерны сама». Это называется supervised learning — модель учится на примерах, где правильный ответ известен. Показываешь модели тысячи фотографий кошек и собак, она находит границу между классами, а потом применяет это знание к новым изображениям.

Machine learning стал популярен примерно в 2010-х, когда появилось достаточно данных и вычислительных мощностей. Google научился ранжировать поиск через ML. Amazon улучшал рекомендации. Фильтры спама стали работать.

Но была проблема: ML требовал feature engineering. Перед обучением инженер должен был сам придумать, какие характеристики данных важны. Для изображений — цвет, текстура, форма. Для текста — частота слов, длина предложений. Это трудоёмкий процесс, и качество модели зависело от интуиции инженера.

Третья волна — deep learning и нейросети с множеством слоёв. Название «deep» — не метафора глубины в философском смысле, а технический термин: десятки или сотни слоёв нейронов, каждый обрабатывает данные и передаёт результат следующему. Сеть сама находит, какие признаки важны — feature engineering больше не нужен.

Главная проблема deep learning — explainability. Даже создатели не всегда понимают, почему конкретный слой активировался именно так. Представьте чёрный ящик: загружаете данные, получаете результат, но внутренний процесс — загадка. Для медицины или юриспруденции это серьёзное ограничение: решения должны быть объяснимы.

Foundation models: когда автозамена научилась писать тексты

Самый важный сдвиг — появление foundation models. Идея простая, а последствия — огромные. Большая языковая модель (Large Language Model, LLM) — это, если упрощать, продвинутая автозамена. Вы пишете начало предложения, а модель предсказывает, что будет дальше.

Разница — в масштабе. Обычная автозамена предсказывает следующее слово с точностью 30–40%. LLM предсказывает следующее предложение, абзац, целый документ с точностью, достаточной для практического использования. Модель обучается на триллионах текстов из интернета и учится не просто повторять паттерны, а генерировать связный, контекстуально осмысленный контент.

Важный термин здесь — foundation model. Это модель, которая обучается один раз на огромном массиве данных и может быть адаптирована под сотни разных задач: суммаризация, перевод, генерация кода, анализ документов, классификация. Не нужно каждый раз строить модель с нуля и собирать миллионы примеров. Берёшь готовую и дообучаешь на нескольких тысячах примеров под конкретную задачу. Это называется fine-tuning.

Архитектура transformer, лежащая в основе современных LLM, была описана в 2017 году в статье «Attention Is All You Need». До 2020 года модели оставались относительно небольшими. GPT-3 с 175 миллиардами параметров показал, что масштаб важен: чем больше модель, тем лучше она обобщает. С тех пор модели росли: GPT-4, Claude, Gemini, Llama — сотни миллиардов параметров, триллионы токенов обучающих данных.

Generative AI: генерация или рекомбинация?

Часто можно услышать критику: «Generative AI ничего не генерирует, а просто перетасовывает существующую информацию». Аргумент звучит так: если все ноты уже изобретены, любая новая музыка — просто перестановка старых. Значит ли это, что она не новая?

Аналогия полезная, но она ломается при внимательном рассмотрении. Когда Шопен сочинял этюды, он использовал те же ноты, что и Бах. Но комбинации были новыми, контекст — другим, эмоциональный отклик — уникальным. Количество возможных музыкальных комбинаций конечно, но человечество генерирует новую музыку каждый день, и мы не называем это «перетасовкой».

LLM делает примерно то же: берёт паттерны из обучающих данных и recombines их в формы, которых в этих данных явно не было. Последовательность слов «свиньи полетят в космос раньше, чем ты получишь raise» — комбинация, которую модель никогда не видела напрямую, но паттерн «неожиданное сравнение + карьерный совет» она усвоила из тысяч подобных фраз.

Это не полноценное понимание в человеческом смысле — модель не «знает» в философском смысле, не имеет намерений, не осознаёт смысл. Но результат — новый текст, новый код, новые изображения — объективно отличается от того, что было в обучающей выборке. И для практических задач этого достаточно.

Deep fakes и голосовые клоны: обратная сторона технологии

Технология генерации контента имеет и тёмную сторону. Deep fakes — видео, где лица и голоса подменяются с пугающей точностью. Если есть достаточно записей голоса человека, можно заставить его «сказать» что угодно. Реальные видео с ненавистью, поддельные заявления политиков, сгенерированные доказательства преступлений — это уже не theory, а documented cases.

Голосовые клоны — отдельная проблема. Компания может скопировать голос умершего актёра для рекламы без согласия наследников. Мошенники звонят родственникам «голосом» человека в беде. Фильмы «заговаривают» умерших артистов.

Но есть и конструктивные сценарии. Актёры, теряющие голос из-за болезни, могут сохранить возможность «говорить» через синтез речи. Дублирование на другие языки для кино становится дешёвым и быстрым — актёры не должны физически переозвучивать каждую сцену. Студии умерших режиссёров могут завершать их последние проекты.

Технология — инструл. Вопрос в руках того, кто его держит, и в регуляции, которая либо ограничивает злоупотребления, либо нет.

Почему кривая adoption резко пошла вверх

Вернёмся к главному вопросу. Почему AI 40 лет казался «будущим, которое всегда наступает», а потом — за несколько лет — стал повсюду?

Потому что предыдущие волны требовали от бизнеса существенных изменений. Экспертные системы нужно было программировать под каждую задачу, нанимать специалистов по knowledge engineering. Machine learning требовал размеченных данных, feature engineering, команд data scientists. Deep learning — GPU-кластеров, миллионов на вычисления.

Foundation models сломали эту зависимость. Модель уже обучена. API доступен в несколько строк кода. Стоимость входа — cents за тысячу токенов. Не нужно нанимать команду. Не нужно собирать данные. Не нужно покупать видеокарты. Просто берёшь и интегрируешь в свой продукт.

Когда порог входа падает с миллионов долларов до cents за запрос, рынок меняется мгновенно. Именно это произошло в 2022–2023 годах, когда ChatGPT показал массовой аудитории: AI уже существует, уже работает, уже доступен. Не через 5–10 лет — сейчас.

Сравните: чтобы внедрить ML-рекомендации в 2015 году, Netflix потратил годы и миллионы. Чтобы добавить AI-суммаризацию в свой продукт в 2024 году, стартап из трёх человек тратит один день и $50 на API.

Что это значит для бизнеса

Компании, которые ждут, пока «технология созреет», рискуют опоздать. AI уже прошёл период зрелости для многих задач: суммаризация документов, поддержка клиентов через чат-ботов, генерация кода, анализ данных, автоматическая классификация обращений.

Фундаментальный сдвиг в том, что теперь не нужно выбирать между «AI работает, но дорого» и «дёшево, но не работает». Foundation models работают и стоят дёшево. Это меняет экономику almost every knowledge worker task — работы с информацией: чтение, анализ, написание, объяснение.

Конкретные примеры: юристы используют AI для черновиков контрактов — человеку остаётся проверить и скорректировать, но первичный документ генерируется за минуты. Маркетологи автоматизируют создание контента для социальных сетей. Разработчики ускоряют код-ревью: AI находит типичные ошибки, человек фокусируется на архитектуре и бизнес-логике. И так почти в каждой отрасли.

Конкурентное преимущество больше не в доступе к технологии — он у всех. Преимущество в том, кто лучше умеет интегрировать AI в рабочие процессы, кто быстрее тестирует гипотезы, кто точнее определяет, где AI добавляет ценность, а где — излишний риск.

FAQ

Чем LLM отличается от обычной нейросети?

LLM — это большая нейросеть, обученная на текстах. «Large» — не метафора: современные модели содержат сотни миллиардов параметров (весов в математической модели). Для сравнения, типичная нейросеть для классификации изображений — миллионы или десятки миллионов параметров. Масштаб позволяет LLM улавливать сложные языковые паттерны: контекст, синонимы, стилистику, логику аргументации. Обычная нейросеть работает с фиксированным набором признаков; LLM генерирует новые тексты, а не просто классифицирует входы.

Почему deep learning называют «чёрным ящиком»?

В традиционном ПО программист понимает, как работает каждый компонент: сортировка сортирует, поиск ищет, валидация проверяет. В deep learning модель сама находит паттерны в данных через обучение, и объяснить, почему конкретный слой активировался именно так, часто невозможно. Это не баг, а особенность: модель находит решения, которые люди не смогли бы запрограммировать вручную. Проблема в том, что для регулируемых отраслей (медицина, финансы, право) решения должны быть объяснимы — иначе невозможно привлечь к ответственности.

Может ли generative AI создать что-то по-настоящему новое?

Зависит от определения «нового». LLM recombines паттерны из обучающих данных — она не обладает творческим замыслом, не понимает смысл в человеческом смысле, не имеет намерений. Но для практических задач результат объективно новый: последовательность слов, которая не встречалась в данных напрямую. Музыканты используют существующие ноты, но создают новые произведения — мы не называем это «перетасовкой». То же с LLM: результат полезен и нов для конкретной задачи.

Что такое fine-tuning и зачем он нужен?

Foundation model обучается один раз на огромном массиве данных — это дорого и долго (миллионы долларов, недели на GPU-кластере). Fine-tuning — дообучение готовой модели на специализированных данных под конкретную задачу. Например, базовая LLM умеет писать тексты на любые темы. Дообучаешь её на медицинских статьях — получаешь модель, которая понимает медицинскую терминологию и генерирует тексты в этом стиле. Это на порядки дешевле и быстрее, чем обучение с нуля.

Итог

AI прошёл три волны: экспертные системы, machine learning, deep learning. Каждая расширяла возможности, но не ломала adoption curve — порог входа оставался высоким. Foundation models — четвёртая волна, которая изменила саму экономику технологии.

Когда порог входа упал до cents, когда не нужно нанимать команду, когда API доступен в несколько строк кода — рынок меняется мгновенно. Именно это произошло. Компании, которые интегрировали AI в 2022–2023, получили фору. Компании, которые ждут, продолжают терять время.

Если вы ещё не используете AI в рабочих процессах, вопрос не в том, «созрела ли технология». Она созрела. Вопрос в том, как быстро вы готовы адаптироваться.

← Все записи