Параметрическое обучение: Дообучение
Параметрическое обучение включает корректировку параметров предопределенной модели для улучшения её производительности на конкретных задачах. Когда у нас есть данные оценки, мы можем использовать их для улучшения производительности нашей системы. Часто имеет смысл начинать с непараметрических подходов, потому что они проще и быстрее в реализации.
Добавление примеров и инсайтов в промпт требует времени и вычислительных ресурсов. Когда у нас есть достаточное число примеров, может быть стоит рассмотреть дообучение ваших моделей для улучшения агентной производительности на ваших задачах. Дообучение — это общий подход, где предобученная модель адаптируется к новым задачам или наборам данных путем внесения небольших корректировок в её параметры.
Дообучение больших базовых моделей
Большинство разработчиков начинают строить агентные системы с общих больших базовых моделей, таких как GPT-5, Claude Opus, Gemini и других подобных классов моделей, потому что они предлагают исключительный уровень производительности на различных задачах. Эти модели предобучены на обширных, общего назначения наборах данных, что снабжает их огромным количеством лингвистических и концептуальных знаний.
Когда рассматривать дообучение:
-
Доменная специализация критична: Вам нужно, чтобы модель говорила на жаргоне вашей организации, следовала строгому руководству по стилю или обрабатывала высокочувствительный контент с минимальными ошибками.
-
Последовательный тон и формат важны: Если каждый ответ должен соответствовать точному шаблону — скажем, финансовые раскрытия или юридические отказы — дообучение обеспечивает, чтобы модель надежно производила правильную структуру без сложной инженерии промптов.
-
Вызовы инструментов и API должны быть точными: Когда ваш агент регулярно вызывает внешние функции или сервисы, дообучение вызова функций может резко уменьшить неправильные вызовы.
-
У вас достаточно высококачественных данных и бюджета: Дообучение больших моделей требует сотен или тысяч курированных примеров, экспертных оценщиков и GPU-часов.
-
Частота переобучения управляема: Дообученные модели требуют управления версиями, расписаний переобучения и проверок совместимости.
Когда воздержаться:
- Вы в быстром прототипировании или низкообъемном использовании
- Эволюция модели может аннулировать ваши усилия
- Вы испытываете ограничения ресурсов
Методы дообучения:
-
Контролируемое дообучение (SFT): Предоставляет пары (промпт, идеальный ответ) как примеры "истины". Идеально для классификации, структурированного выхода, исправления ошибок следования инструкциям.
-
Визуальное дообучение: Поставляет пары изображение-метка для контролируемого обучения на визуальных входах. Улучшает понимание изображений и мультимодальное следование инструкциям.
-
Оптимизация прямых предпочтений (DPO): Дает как "хороший", так и "плохой" ответ на промпт и указывает предпочтительный. Модель учится ранжировать и предпочитать выходы более высокого качества.
-
Дообучение с подкреплением (RFT): Генерирует кандидатские выходы и имеет экспертных оценщиков, которые оценивают их. Затем использует обновление в стиле градиента политики для подкрепления высоко оцененных цепочек мыслей.
Преимущества дообучения больших моделей:
- Исключительная производительность при дообучении для конкретных задач
- Глубокая специализация для доменов
- Сохранение общих возможностей
Вызовы:
- Значительные вычислительные ресурсы
- Высокие требования к данным
- Необходимость управления версиями и переобучения
Обещание малых моделей
В отличие от больших базовых моделей, малые модели предлагают более ресурсоэффективную альтернативу, делая их подходящими для многих приложений, где вычислительные ресурсы ограничены или время ответа критично.
Преимущества малых моделей:
-
Ресурсоэффективность: Меньше параметров и более простые архитектуры позволяют быстрее адаптироваться и экспериментировать.
-
Прозрачность и интерпретируемость: Меньше слоев и параметров облегчают анализ процессов принятия решений. Это бесценно в приложениях, где объяснимость необходима — таких как финансы, здравоохранение и регуляторные домены.
-
Agile разработка: Легковесная структура позволяет быстрее итерироваться во время дообучения, что может привести к более быстрым инсайтам и корректировкам.
-
Доступность: Многие высокопроизводительные малые модели являются открытыми и свободно доступными, включая модели, такие как Llama и Phi.
-
Устойчивость: Требуют значительно меньше энергии для обучения и вывода, делая их более устойчивым выбором.
-
Частые обновления: Могут быть быстро переобучены или дообучены с новыми данными, адаптируясь быстро к изменяющимся паттернам.
Производительность: Дообученные малые модели могут достигать результатов, сопоставимых с большими моделями на конкретных, узко определенных задачах. Например, малая модель, дообученная для анализа тональности в конкретном домене, может достичь высокой точности, потому что специализируется на распознавании паттернов, специфичных для этого контекста.
Современное состояние: В начале 2025 года бенчмарки, такие как Stanford HELM, показали, что модели с открытыми весами, такие как DeepSeek-v3 и Llama 3.1 Instruct Turbo (70B), достигли средних оценок выше 66% на MMLU, и даже варианты с 8B параметрами, такие как Gemini 2.0 Flash-Lite, начали преодолевать порог 64%.
Контролируемое дообучение (Supervised Fine-Tuning)
Среди параметрических подходов контролируемое дообучение остается фундаментальной техникой, позволяющей точное формирование поведения через курированные примеры вход/выход. SFT — это фундаментальный подход для точного управления поведением агента, показывая ему явные примеры того, как отвечать.
Мощный случай использования: Обучение агента точно, когда и как вызывать внешние API — дообучение вызова функций, так что агент не только форматирует вызовы инструментов правильно, но и рассуждает, должен ли вызов произойти вообще.
Процесс SFT:
-
Определение схемы: Определите явную схему для каждого API, который вы раскрываете — указывая имена функций, валидные аргументы, типы и форматы возврата.
-
Сбор данных дообучения: Соберите набор данных дообучения структурированных примеров, которые отражают вашу точную схему API — имена функций, типы аргументов и форматы возврата.
-
Специальные токены: Оберните внутреннее рассуждение модели и внешние вызовы инструментов в специальные токены, такие как
<think>…</think>или<tool_call>…</tool_call>. -
Обучение: Используйте LoRA (Low-Rank Adaptation) адаптеры для эффективной адаптации только целевых слоев.
-
Валидация: Валидируйте каждый предлагаемый вызов против той же схемы во время выполнения перед выполнением.
Преимущества SFT:
- Снижает частоту ошибок
- Обучает контекстуальному суждению (когда не вызывать)
- Уменьшает вашу стоимость токенов, сокращая повторы и неправильно сформированные вызовы
- Вводит слой рассуждения: модель может выбирать, когда не вызывать инструмент
Рекомендация: Начинать с встроенного вызова функций предобученных моделей и валидации схемы во время выполнения. Рассматривать дообучение только после подтверждения, что инженерия промптов и стандартные API не справляются.
Оптимизация прямых предпочтений (Direct Preference Optimization)
Строясь на SFT, оптимизация прямых предпочтений вводит обучение предпочтениям, выравнивая выходы более близко с человеческими ранжированными суждениями качества. DPO — это техника дообучения, которая обучает модель предпочитать лучшие выходы над худшими, обучаясь на ранжированных парах.
Отличие от SFT: В отличие от стандартного SFT, который просто учит модель реплицировать "золотой" выход, DPO помогает модели интериоризировать суждения предпочтений — улучшая её способность ранжировать и выбирать завершения высокого качества во время вывода.
Процесс DPO:
-
Подготовка данных: Каждый пример включает промпт, предпочтительный ("chosen") ответ и менее предпочтительный ("rejected") ответ.
-
Обучение: Модель обучается на этих ранжированных парах, изучая, какие выходы предпочитать во время обучения.
-
Параметр beta: Настраивает, насколько сильно модель приоритизирует предпочтительный ответ во время оптимизации.
Преимущества DPO:
- Особенно полезен, когда ваша основная цель — формировать качество выхода, а не просто реплицировать примеры
- Дополняет SFT, добавляя измерение обучения предпочтениям
- Помогает агентам производить выходы, которые не только правильны, но и выровнены с нюансированными человеческими ожиданиями
Применение: Полезен для настройки тона, стиля или приоритетов суммирования.
Обучение с подкреплением с проверяемыми наградами (Reinforcement Learning with Verifiable Rewards)
Строясь на дообучении на основе предпочтений, обучение с подкреплением с проверяемыми наградами (RLVR) вводит оптимизацию политики против явной, измеримой функции награды.
Отличие от DPO: В отличие от DPO, который напрямую оптимизирует для парных предпочтений, RLVR объединяет обучение предпочтениям с обучением с подкреплением, позволяя модели обобщаться за пределы наблюдаемых ранжирований, предсказывая оценки ценности и оптимизируя свои выходы соответственно.
Преимущества RLVR:
-
Гибкость: Может оптимизировать против любого измеримого сигнала — автоматизированные метрики, валидаторы на основе правил, внешние модели оценки или человеческие оценщики.
-
Обобщение: Способность обобщаться за пределы наблюдаемых примеров через предсказание ценности.
-
Масштабируемость: Подходит для задач, где доступно автоматизированное оценивание или масштабируемая человеческая оценка.
-
Применимость: Особенно эффективно, когда у вас есть ранжированные данные предпочтений или когда вы можете построить надежную функцию оценки для оценки выходов.
Идеально для: Сценариев, требующих постоянного улучшения качества, особенно когда награды редки или оценка слишком дорога для получения в масштабе через прямую человеческую маркировку.
Процесс RLVR:
- Промпты сэмплируются для генерации множественных завершений
- Завершения оцениваются оценщиком (автоматизированным или человеческим)
- Эти награды подаются в тренер модели для обновления политики
- Будущие выходы улучшаются на основе наблюдаемой производительности
RLVR расширяет возможности RFT, объединяя обучение предпочтениям с оптимизацией политики на основе ценности. Это позволяет вашим моделям не просто имитировать предпочтительные выходы, но предсказывать и оптимизировать то, что будет наиболее полезным, точным или выровненным — прокладывая путь для самосовершенствующихся, специализированных на задачах базовых моделей.