Skip to main content

Краткое содержание: Обучение в агентных системах (Learning in Agentic Systems)

Основные тезисы

1. Введение в обучение

Определение обучения: Улучшение производительности агентной системы через взаимодействие с окружающей средой.

Два основных подхода:

  • Непараметрическое обучение: Улучшение без изменения параметров модели
  • Параметрическое обучение: Дообучение параметров базовой модели

Важно: Обучение не всегда необходимо, требует дополнительного проектирования, оценки и мониторинга.

2. Непараметрическое обучение

Обучение на примерах (Exemplar Learning)

  • Процесс: Агенту предоставляется мера качества, примеры используются для улучшения
  • Фиксированные примеры: Жестко закодированы в промпт
  • Динамический выбор: Выбор наиболее релевантных примеров из базы данных
  • Хранение: Банк памяти с контекстом, действиями, результатами, обратной связью
  • Результат: Значительное улучшение производительности на задачах

Рефлексия (Reflexion)

  • Концепция: Агент пишет краткое размышление после неудачной попытки
  • Цикл:
    1. Выполнение действий
    2. Логирование попытки
    3. Генерация размышления (если неудача)
    4. Обновление памяти
    5. Внедрение размышлений в следующий запуск
  • Преимущества: Легковесность, не требует изменения весов модели, улучшает производительность
  • Применение: Отладка кода, многошаговое рассуждение

Опытное обучение (Experiential Learning)

  • Концепция: Агрегация инсайтов по опытам для улучшения политики
  • Процесс:
    • Извлечение инсайтов из опытов
    • Управление инсайтами (добавление, редактирование, продвижение, понижение)
    • Дистилляция в небольшой список правил
  • Операции: AGREE, REMOVE, EDIT, ADD
  • Преимущества: Межзадачное обучение, адаптация к нестационарным окружениям

3. Параметрическое обучение: Дообучение

Дообучение больших базовых моделей

Когда рассматривать:

  • Доменная специализация критична
  • Последовательный тон и формат важны
  • Вызовы инструментов должны быть точными
  • Достаточно данных и бюджета
  • Частота переобучения управляема

Когда воздержаться:

  • Быстрое прототипирование
  • Эволюция модели может аннулировать усилия
  • Ограничения ресурсов

Методы:

  1. SFT (Supervised Fine-Tuning): Пары (промпт, ответ)
  2. Визуальное дообучение: Пары изображение-метка
  3. DPO (Direct Preference Optimization): Ранжированные пары "хороший vs плохой"
  4. RFT (Reinforcement Fine-Tuning): Экспертная оценка и градиенты политики

Преимущества: Исключительная производительность, глубокая специализация

Вызовы: Значительные ресурсы, высокие требования к данным

Обещание малых моделей

Преимущества:

  • Ресурсоэффективность
  • Прозрачность и интерпретируемость
  • Agile разработка
  • Доступность (открытый исходный код)
  • Устойчивость (меньше энергии)
  • Частые обновления

Производительность: Могут достигать результатов, сопоставимых с большими моделями на узко определенных задачах.

Современное состояние: Модели 8B-70B параметров достигают >64% на MMLU.

Контролируемое дообучение (SFT)

Применение: Обучение точному вызову функций, структурированным выходам.

Процесс:

  1. Определение схемы API
  2. Сбор данных дообучения
  3. Использование специальных токенов
  4. Обучение с LoRA
  5. Валидация схемы

Преимущества: Снижение ошибок, контекстуальное суждение, рассуждение о необходимости вызова.

Оптимизация прямых предпочтений (DPO)

Концепция: Обучение модели предпочитать лучшие выходы над худшими.

Процесс: Обучение на ранжированных парах (chosen vs rejected).

Преимущества: Формирование качества выхода, выравнивание с человеческими ожиданиями.

Применение: Настройка тона, стиля, приоритетов суммирования.

Обучение с подкреплением с проверяемыми наградами (RLVR)

Концепция: Оптимизация политики против явной функции награды.

Отличие от DPO: Объединяет обучение предпочтениям с RL, обобщается за пределы наблюдаемых примеров.

Преимущества:

  • Гибкость (любой измеримый сигнал)
  • Обобщение через предсказание ценности
  • Масштабируемость

Применение: Задачи с автоматизированным оцениванием, постоянное улучшение качества.

Ключевые выводы

  1. Обучение не всегда необходимо: Зависит от требований приложения.

  2. Начинать с непараметрического: Проще, быстрее, часто достаточно.

  3. Параметрическое для специализации: Когда нужна глубокая специализация и есть ресурсы.

  4. Компромиссы:

    • Простота vs. Специализация
    • Стоимость vs. Производительность
    • Скорость vs. Точность
  5. Комбинирование подходов: Непараметрическая ловкость + параметрическая адаптация.

Рекомендации

  1. Начинать с простого: Непараметрические методы для быстрого улучшения
  2. Оценивать ROI: Рассматривать дообучение только когда оправдано
  3. Учитывать ресурсы: Дообучение требует значительных инвестиций
  4. Планировать обслуживание: Управление версиями и переобучение
  5. Комбинировать подходы: Использовать сильные стороны каждого метода

Следующие шаги

После изучения обучения следующая глава рассматривает множественные агенты — как координировать работу нескольких агентов вместе.