Параметрическое обучение: Дообучение

Параметрическое обучение включает корректировку параметров предопределенной модели для улучшения её производительности на конкретных задачах. Когда у нас есть данные оценки, мы можем использовать их для улучшения производительности нашей системы. Часто имеет смысл начинать с непараметрических подходов, потому что они проще и быстрее в реализации.

Добавление примеров и инсайтов в промпт требует времени и вычислительных ресурсов. Когда у нас есть достаточное число примеров, может быть стоит рассмотреть дообучение ваших моделей для улучшения агентной производительности на ваших задачах. Дообучение — это общий подход, где предобученная модель адаптируется к новым задачам или наборам данных путем внесения небольших корректировок в её параметры.

Дообучение больших базовых моделей

Большинство разработчиков начинают строить агентные системы с общих больших базовых моделей, таких как GPT-5, Claude Opus, Gemini и других подобных классов моделей, потому что они предлагают исключительный уровень производительности на различных задачах. Эти модели предобучены на обширных, общего назначения наборах данных, что снабжает их огромным количеством лингвистических и концептуальных знаний.

Когда рассматривать дообучение:

Доменная специализация критична: Вам нужно, чтобы модель говорила на жаргоне вашей организации, следовала строгому руководству по стилю или обрабатывала высокочувствительный контент с минимальными ошибками.
Последовательный тон и формат важны: Если каждый ответ должен соответствовать точному шаблону — скажем, финансовые раскрытия или юридические отказы — дообучение обеспечивает, чтобы модель надежно производила правильную структуру без сложной инженерии промптов.
Вызовы инструментов и API должны быть точными: Когда ваш агент регулярно вызывает внешние функции или сервисы, дообучение вызова функций может резко уменьшить неправильные вызовы.
У вас достаточно высококачественных данных и бюджета: Дообучение больших моделей требует сотен или тысяч курированных примеров, экспертных оценщиков и GPU-часов.
Частота переобучения управляема: Дообученные модели требуют управления версиями, расписаний переобучения и проверок совместимости.

Когда воздержаться:

Вы в быстром прототипировании или низкообъемном использовании
Эволюция модели может аннулировать ваши усилия
Вы испытываете ограничения ресурсов

Методы дообучения:

Контролируемое дообучение (SFT): Предоставляет пары (промпт, идеальный ответ) как примеры "истины". Идеально для классификации, структурированного выхода, исправления ошибок следования инструкциям.
Визуальное дообучение: Поставляет пары изображение-метка для контролируемого обучения на визуальных входах. Улучшает понимание изображений и мультимодальное следование инструкциям.
Оптимизация прямых предпочтений (DPO): Дает как "хороший", так и "плохой" ответ на промпт и указывает предпочтительный. Модель учится ранжировать и предпочитать выходы более высокого качества.
Дообучение с подкреплением (RFT): Генерирует кандидатские выходы и имеет экспертных оценщиков, которые оценивают их. Затем использует обновление в стиле градиента политики для подкрепления высоко оцененных цепочек мыслей.

Преимущества дообучения больших моделей:

Исключительная производительность при дообучении для конкретных задач
Глубокая специализация для доменов
Сохранение общих возможностей

Вызовы:

Значительные вычислительные ресурсы
Высокие требования к данным
Необходимость управления версиями и переобучения

Обещание малых моделей

В отличие от больших базовых моделей, малые модели предлагают более ресурсоэффективную альтернативу, делая их подходящими для многих приложений, где вычислительные ресурсы ограничены или время ответа критично.

Преимущества малых моделей:

Ресурсоэффективность: Меньше параметров и более простые архитектуры позволяют быстрее адаптироваться и экспериментировать.
Прозрачность и интерпретируемость: Меньше слоев и параметров облегчают анализ процессов принятия решений. Это бесценно в приложениях, где объяснимость необходима — таких как финансы, здравоохранение и регуляторные домены.
Agile разработка: Легковесная структура позволяет быстрее итерироваться во время дообучения, что может привести к более быстрым инсайтам и корректировкам.
Доступность: Многие высокопроизводительные малые модели являются открытыми и свободно доступными, включая модели, такие как Llama и Phi.
Устойчивость: Требуют значительно меньше энергии для обучения и вывода, делая их более устойчивым выбором.
Частые обновления: Могут быть быстро переобучены или дообучены с новыми данными, адаптируясь быстро к изменяющимся паттернам.

Производительность: Дообученные малые модели могут достигать результатов, сопоставимых с большими моделями на конкретных, узко определенных задачах. Например, малая модель, дообученная для анализа тональности в конкретном домене, может достичь высокой точности, потому что специализируется на распознавании паттернов, специфичных для этого контекста.

Современное состояние: В начале 2025 года бенчмарки, такие как Stanford HELM, показали, что модели с открытыми весами, такие как DeepSeek-v3 и Llama 3.1 Instruct Turbo (70B), достигли средних оценок выше 66% на MMLU, и даже варианты с 8B параметрами, такие как Gemini 2.0 Flash-Lite, начали преодолевать порог 64%.

Контролируемое дообучение (Supervised Fine-Tuning)

Среди параметрических подходов контролируемое дообучение остается фундаментальной техникой, позволяющей точное формирование поведения через курированные примеры вход/выход. SFT — это фундаментальный подход для точного управления поведением агента, показывая ему явные примеры того, как отвечать.

Мощный случай использования: Обучение агента точно, когда и как вызывать внешние API — дообучение вызова функций, так что агент не только форматирует вызовы инструментов правильно, но и рассуждает, должен ли вызов произойти вообще.

Процесс SFT:

Определение схемы: Определите явную схему для каждого API, который вы раскрываете — указывая имена функций, валидные аргументы, типы и форматы возврата.
Сбор данных дообучения: Соберите набор данных дообучения структурированных примеров, которые отражают вашу точную схему API — имена функций, типы аргументов и форматы возврата.
Специальные токены: Оберните внутреннее рассуждение модели и внешние вызовы инструментов в специальные токены, такие как <think>…</think> или <tool_call>…</tool_call>.
Обучение: Используйте LoRA (Low-Rank Adaptation) адаптеры для эффективной адаптации только целевых слоев.
Валидация: Валидируйте каждый предлагаемый вызов против той же схемы во время выполнения перед выполнением.

Преимущества SFT:

Снижает частоту ошибок
Обучает контекстуальному суждению (когда не вызывать)
Уменьшает вашу стоимость токенов, сокращая повторы и неправильно сформированные вызовы
Вводит слой рассуждения: модель может выбирать, когда не вызывать инструмент

Рекомендация: Начинать с встроенного вызова функций предобученных моделей и валидации схемы во время выполнения. Рассматривать дообучение только после подтверждения, что инженерия промптов и стандартные API не справляются.

Оптимизация прямых предпочтений (Direct Preference Optimization)

Строясь на SFT, оптимизация прямых предпочтений вводит обучение предпочтениям, выравнивая выходы более близко с человеческими ранжированными суждениями качества. DPO — это техника дообучения, которая обучает модель предпочитать лучшие выходы над худшими, обучаясь на ранжированных парах.

Отличие от SFT: В отличие от стандартного SFT, который просто учит модель реплицировать "золотой" выход, DPO помогает модели интериоризировать суждения предпочтений — улучшая её способность ранжировать и выбирать завершения высокого качества во время вывода.

Процесс DPO:

Подготовка данных: Каждый пример включает промпт, предпочтительный ("chosen") ответ и менее предпочтительный ("rejected") ответ.
Обучение: Модель обучается на этих ранжированных парах, изучая, какие выходы предпочитать во время обучения.
Параметр beta: Настраивает, насколько сильно модель приоритизирует предпочтительный ответ во время оптимизации.

Преимущества DPO:

Особенно полезен, когда ваша основная цель — формировать качество выхода, а не просто реплицировать примеры
Дополняет SFT, добавляя измерение обучения предпочтениям
Помогает агентам производить выходы, которые не только правильны, но и выровнены с нюансированными человеческими ожиданиями

Применение: Полезен для настройки тона, стиля или приоритетов суммирования.

Обучение с подкреплением с проверяемыми наградами (Reinforcement Learning with Verifiable Rewards)

Строясь на дообучении на основе предпочтений, обучение с подкреплением с проверяемыми наградами (RLVR) вводит оптимизацию политики против явной, измеримой функции награды.

Отличие от DPO: В отличие от DPO, который напрямую оптимизирует для парных предпочтений, RLVR объединяет обучение предпочтениям с обучением с подкреплением, позволяя модели обобщаться за пределы наблюдаемых ранжирований, предсказывая оценки ценности и оптимизируя свои выходы соответственно.

Преимущества RLVR:

Гибкость: Может оптимизировать против любого измеримого сигнала — автоматизированные метрики, валидаторы на основе правил, внешние модели оценки или человеческие оценщики.
Обобщение: Способность обобщаться за пределы наблюдаемых примеров через предсказание ценности.
Масштабируемость: Подходит для задач, где доступно автоматизированное оценивание или масштабируемая человеческая оценка.
Применимость: Особенно эффективно, когда у вас есть ранжированные данные предпочтений или когда вы можете построить надежную функцию оценки для оценки выходов.

Идеально для: Сценариев, требующих постоянного улучшения качества, особенно когда награды редки или оценка слишком дорога для получения в масштабе через прямую человеческую маркировку.

Процесс RLVR:

Промпты сэмплируются для генерации множественных завершений
Завершения оцениваются оценщиком (автоматизированным или человеческим)
Эти награды подаются в тренер модели для обновления политики
Будущие выходы улучшаются на основе наблюдаемой производительности

RLVR расширяет возможности RFT, объединяя обучение предпочтениям с оптимизацией политики на основе ценности. Это позволяет вашим моделям не просто имитировать предпочтительные выходы, но предсказывать и оптимизировать то, что будет наиболее полезным, точным или выровненным — прокладывая путь для самосовершенствующихся, специализированных на задачах базовых моделей.

Дообучение больших базовых моделей​

Обещание малых моделей​

Контролируемое дообучение (Supervised Fine-Tuning)​

Оптимизация прямых предпочтений (Direct Preference Optimization)​

Обучение с подкреплением с проверяемыми наградами (Reinforcement Learning with Verifiable Rewards)​

Дообучение больших базовых моделей

Обещание малых моделей

Контролируемое дообучение (Supervised Fine-Tuning)

Оптимизация прямых предпочтений (Direct Preference Optimization)

Обучение с подкреплением с проверяемыми наградами (Reinforcement Learning with Verifiable Rewards)