Блог об AI
Заметки о нейросетях, промпт-инжиниринге и том, как искусственный интеллект меняет всё вокруг.
Последние записи
AI и биобезопасность: когда модели обгоняют биологов-экспертов
Новый бенчмарк ABC-Bench показал, что Claude Opus 4.6, Gemini 3.1 Pro и GPT-5.4 превосходят медианного эксперта в задачах проектирования ДНК, управления лабораторными роботами и обхода скрининга. Впервые LLM-агент провёл реальную сборку ДНК на роботе OpenTrons.
TRACE: как распределять rollout-бюджет в агентном RL и тратить вычисления умнее
TRACE перенаправляет фиксированный rollout-бюджет к корням и префиксам, где потомки скорее всего дадут противоположные исходы, превращая разреженные outcome-награды в плотные контрастные сигналы.
Миф об ИИ-экспертах: почему LLM не дотягивают до уровня человека
Исследователи сравнили ChatGPT Codex 5.2 с докторами наук в задаче статистического анализа. Результат: LLM не просто хуже — он непредсказуемо хуже, с ошибками в сотни миллиардов стандартных отклонений.
AI-экономика растёт на 2 600% в год, но статистика её не видит
Экономисты из Anthropic, UVA и Банка Канады показали: AI-экономика США растёт на 2 600% в год в реальном выражении, но обычная статистика это игнорирует.
Папа против трансгуманизма: что в энциклике Льва XIV об ИИ
Папа Лев XIV посвятил главу энциклики искусственному интеллекту. Не техническому обзору — а моральному и социальному разбору: кто владеет технологией, кого она исключает и что значит быть человеком в эпоху алгоритмов.
Test-time compute: путь к AGI или новый хайп?
O3 почти решил ARC-AGI, DeepSeek R1 раскрыл секреты GRPO, но за впечатляющими цифрами скрываются вопросы прозрачности и data leakage.
Microsoft Scout: агент-автопилот, который работает, пока вы спите
Scout — не очередной чат-бот. Это агент с собственной Entra-идентичностью, который сам решает, когда действовать, а не ждёт вашего промпта.
Expanse: как YC-стартап высвобождает 59% вычислительной мощности кластеров GPU
YC-стартап Expanse обнаружил, что национальные HPC-кластеры теряют 59% вычислительной мощности из-за перестраховки пользователей. Их кастомная модель предсказывает потребности нагрузок точнее, чем LLM в 8 раз.
Stateful Monitoring: как ловить распределённые атаки AI-агентов в реальном времени
Распределённые атаки на AI-агентов разбивают вредоносную задачу на безобидные подзадачи между разными аккаунтами. Стандартные мониторы не видят угрозы, потому что оценивают каждый диалог изолированно.
LongTraceRL: как научить LLM рассуждать в контексте 128 тысяч токенов
LongTraceRL использует поисковые траектории агента и entity-level рубрики, чтобы обучать модели осмысленному рассуждению в контекстах до 128K токенов.