Краткое содержание: Обучение в агентных системах (Learning in Agentic Systems)
Основные тезисы
1. Введение в обучение
Определение обучения: Улучшение производительности агентной системы через взаимодействие с окружающей средой.
Два основных подхода:
- Непараметрическое обучение: Улучшение без изменения параметров модели
- Параметрическое обучение: Дообучение параметров базовой модели
Важно: Обучение не всегда необходимо, требует дополнительного проектирования, оценки и мониторинга.
2. Непараметрическое обучение
Обучение на примерах (Exemplar Learning)
- Процесс: Агенту предоставляется мера качества, примеры используются для улучшения
- Фиксированные примеры: Жестко закодированы в промпт
- Динамический выбор: Выбор наиболее релевантных примеров из базы данных
- Хранение: Банк памяти с контекстом, действиями, результатами, обратной связью
- Результат: Значительное улучшение производительности на задачах
Рефлексия (Reflexion)
- Концепция: Агент пишет краткое размышление после неудачной попытки
- Цикл:
- Выполнение действий
- Логирование попытки
- Генерация размышления (если неудача)
- Обновление памяти
- Внедрение размышлений в следующий запуск
- Преимущества: Легковесность, не требует изменения весов модели, улучшает производительность
- Применение: Отладка кода, многошаговое рассуждение
Опытное обучение (Experiential Learning)
- Концепция: Агрегация инсайтов по опытам для улучшения политики
- Процесс:
- Извлечение инсайтов из опытов
- Управление инсайтами (добавление, редактирование, продвижение, понижение)
- Дистилляция в небольшой список правил
- Операции: AGREE, REMOVE, EDIT, ADD
- Преимущества: Межзадачное обучение, адаптация к нестационарным окружениям
3. Параметрическое обучение: Дообучение
Дообучение больших базовых моделей
Когда рассматривать:
- Доменная специализация критична
- Последовательный тон и формат важны
- Вызовы инструментов должны быть точными
- Достаточно данных и бюджета
- Частота переобучения управляема
Когда воздержаться:
- Быстрое прототипирование
- Эволюция модели может аннулировать усилия
- Ограничения ресурсов
Методы:
- SFT (Supervised Fine-Tuning): Пары (промпт, ответ)
- Визуальное дообучение: Пары изображение-метка
- DPO (Direct Preference Optimization): Ранжированные пары "хороший vs плохой"
- RFT (Reinforcement Fine-Tuning): Экспертная оценка и градиенты политики
Преимущества: Исключительная производительность, глубокая специализация
Вызовы: Значительные ресурсы, высокие требования к данным
Обещание малых моделей
Преимущества:
- Ресурсоэффективность
- Прозрачность и интерпретируемость
- Agile разработка
- Доступность (открытый исходный код)
- Устойчивость (меньше энергии)
- Частые обновления
Производительность: Могут достигать результатов, сопоставимых с большими моделями на узко определенных задачах.
Современное состояние: Модели 8B-70B параметров достигают >64% на MMLU.
Контролируемое дообучение (SFT)
Применение: Обучение точному вызову функций, структурированным выходам.
Процесс:
- Определение схемы API
- Сбор данных дообучения
- Использование специальных токенов
- Обучение с LoRA
- Валидация схемы
Преимущества: Снижение ошибок, контекстуальное суждение, рассуждение о необходимости вызова.
Оптимизация прямых предпочтений (DPO)
Концепция: Обучение модели предпочитать лучшие выходы над худшими.
Процесс: Обучение на ранжированных парах (chosen vs rejected).
Преимущества: Формирование качества выхода, выравнивание с человеческими ожиданиями.
Применение: Настройка тона, стиля, приоритетов суммирования.
Обучение с подкреплением с проверяемыми наградами (RLVR)
Концепция: Оптимизация политики против явной функции награды.
Отличие от DPO: Объединяет обучение предпочтениям с RL, обобщается за пределы наблюдаемых примеров.
Преимущества:
- Гибкость (любой измеримый сигнал)
- Обобщение через предсказание ценности
- Масштабируемость
Применение: Задачи с автоматизированным оцениванием, постоянное улучшение качества.
Ключевые выводы
-
Обучение не всегда необходимо: Зависит от требований приложения.
-
Начинать с непараметрического: Проще, быстрее, часто достаточно.
-
Параметрическое для специализации: Когда нужна глубокая специализация и есть ресурсы.
-
Компромиссы:
- Простота vs. Специализация
- Стоимость vs. Производительность
- Скорость vs. Точность
-
Комбинирование подходов: Непараметрическая ловкость + параметрическая адаптация.
Рекомендации
- Начинать с простого: Непараметрические методы для быстрого улучшения
- Оценивать ROI: Рассматривать дообучение только когда оправдано
- Учитывать ресурсы: Дообучение требует значительных инвестиций
- Планировать обслуживание: Управление версиями и переобучение
- Комбинировать подходы: Использовать сильные стороны каждого метода
Следующие шаги
После изучения обучения следующая глава рассматривает множественные агенты — как координировать работу нескольких агентов вместе.