Краткое содержание: Обучение в агентных системах (Learning in Agentic Systems)

Основные тезисы

1. Введение в обучение

Определение обучения: Улучшение производительности агентной системы через взаимодействие с окружающей средой.

Два основных подхода:

Непараметрическое обучение: Улучшение без изменения параметров модели
Параметрическое обучение: Дообучение параметров базовой модели

Важно: Обучение не всегда необходимо, требует дополнительного проектирования, оценки и мониторинга.

2. Непараметрическое обучение

Обучение на примерах (Exemplar Learning)

Процесс: Агенту предоставляется мера качества, примеры используются для улучшения
Фиксированные примеры: Жестко закодированы в промпт
Динамический выбор: Выбор наиболее релевантных примеров из базы данных
Хранение: Банк памяти с контекстом, действиями, результатами, обратной связью
Результат: Значительное улучшение производительности на задачах

Рефлексия (Reflexion)

Концепция: Агент пишет краткое размышление после неудачной попытки
Цикл:
1. Выполнение действий
2. Логирование попытки
3. Генерация размышления (если неудача)
4. Обновление памяти
5. Внедрение размышлений в следующий запуск
Преимущества: Легковесность, не требует изменения весов модели, улучшает производительность
Применение: Отладка кода, многошаговое рассуждение

Опытное обучение (Experiential Learning)

Концепция: Агрегация инсайтов по опытам для улучшения политики
Процесс:
- Извлечение инсайтов из опытов
- Управление инсайтами (добавление, редактирование, продвижение, понижение)
- Дистилляция в небольшой список правил
Операции: AGREE, REMOVE, EDIT, ADD
Преимущества: Межзадачное обучение, адаптация к нестационарным окружениям

3. Параметрическое обучение: Дообучение

Дообучение больших базовых моделей

Когда рассматривать:

Доменная специализация критична
Последовательный тон и формат важны
Вызовы инструментов должны быть точными
Достаточно данных и бюджета
Частота переобучения управляема

Когда воздержаться:

Быстрое прототипирование
Эволюция модели может аннулировать усилия
Ограничения ресурсов

Методы:

SFT (Supervised Fine-Tuning): Пары (промпт, ответ)
Визуальное дообучение: Пары изображение-метка
DPO (Direct Preference Optimization): Ранжированные пары "хороший vs плохой"
RFT (Reinforcement Fine-Tuning): Экспертная оценка и градиенты политики

Преимущества: Исключительная производительность, глубокая специализация

Вызовы: Значительные ресурсы, высокие требования к данным

Обещание малых моделей

Преимущества:

Ресурсоэффективность
Прозрачность и интерпретируемость
Agile разработка
Доступность (открытый исходный код)
Устойчивость (меньше энергии)
Частые обновления

Производительность: Могут достигать результатов, сопоставимых с большими моделями на узко определенных задачах.

Современное состояние: Модели 8B-70B параметров достигают >64% на MMLU.

Контролируемое дообучение (SFT)

Применение: Обучение точному вызову функций, структурированным выходам.

Процесс:

Определение схемы API
Сбор данных дообучения
Использование специальных токенов
Обучение с LoRA
Валидация схемы

Преимущества: Снижение ошибок, контекстуальное суждение, рассуждение о необходимости вызова.

Оптимизация прямых предпочтений (DPO)

Концепция: Обучение модели предпочитать лучшие выходы над худшими.

Процесс: Обучение на ранжированных парах (chosen vs rejected).

Преимущества: Формирование качества выхода, выравнивание с человеческими ожиданиями.

Применение: Настройка тона, стиля, приоритетов суммирования.

Обучение с подкреплением с проверяемыми наградами (RLVR)

Концепция: Оптимизация политики против явной функции награды.

Отличие от DPO: Объединяет обучение предпочтениям с RL, обобщается за пределы наблюдаемых примеров.

Преимущества:

Гибкость (любой измеримый сигнал)
Обобщение через предсказание ценности
Масштабируемость

Применение: Задачи с автоматизированным оцениванием, постоянное улучшение качества.

Ключевые выводы

Обучение не всегда необходимо: Зависит от требований приложения.
Начинать с непараметрического: Проще, быстрее, часто достаточно.
Параметрическое для специализации: Когда нужна глубокая специализация и есть ресурсы.
Компромиссы:
- Простота vs. Специализация
- Стоимость vs. Производительность
- Скорость vs. Точность
Комбинирование подходов: Непараметрическая ловкость + параметрическая адаптация.

Следующие шаги

После изучения обучения следующая глава рассматривает множественные агенты — как координировать работу нескольких агентов вместе.

Основные тезисы​

1. Введение в обучение​

2. Непараметрическое обучение​

Обучение на примерах (Exemplar Learning)​

Рефлексия (Reflexion)​

Опытное обучение (Experiential Learning)​

3. Параметрическое обучение: Дообучение​

Дообучение больших базовых моделей​

Обещание малых моделей​

Контролируемое дообучение (SFT)​

Оптимизация прямых предпочтений (DPO)​

Обучение с подкреплением с проверяемыми наградами (RLVR)​

Ключевые выводы​

Рекомендации​

Следующие шаги​