Skip to main content

Параметрическое обучение: Дообучение

Параметрическое обучение включает корректировку параметров предопределенной модели для улучшения её производительности на конкретных задачах. Когда у нас есть данные оценки, мы можем использовать их для улучшения производительности нашей системы. Часто имеет смысл начинать с непараметрических подходов, потому что они проще и быстрее в реализации.

Добавление примеров и инсайтов в промпт требует времени и вычислительных ресурсов. Когда у нас есть достаточное число примеров, может быть стоит рассмотреть дообучение ваших моделей для улучшения агентной производительности на ваших задачах. Дообучение — это общий подход, где предобученная модель адаптируется к новым задачам или наборам данных путем внесения небольших корректировок в её параметры.

Дообучение больших базовых моделей

Большинство разработчиков начинают строить агентные системы с общих больших базовых моделей, таких как GPT-5, Claude Opus, Gemini и других подобных классов моделей, потому что они предлагают исключительный уровень производительности на различных задачах. Эти модели предобучены на обширных, общего назначения наборах данных, что снабжает их огромным количеством лингвистических и концептуальных знаний.

Когда рассматривать дообучение:

  • Доменная специализация критична: Вам нужно, чтобы модель говорила на жаргоне вашей организации, следовала строгому руководству по стилю или обрабатывала высокочувствительный контент с минимальными ошибками.

  • Последовательный тон и формат важны: Если каждый ответ должен соответствовать точному шаблону — скажем, финансовые раскрытия или юридические отказы — дообучение обеспечивает, чтобы модель надежно производила правильную структуру без сложной инженерии промптов.

  • Вызовы инструментов и API должны быть точными: Когда ваш агент регулярно вызывает внешние функции или сервисы, дообучение вызова функций может резко уменьшить неправильные вызовы.

  • У вас достаточно высококачественных данных и бюджета: Дообучение больших моделей требует сотен или тысяч курированных примеров, экспертных оценщиков и GPU-часов.

  • Частота переобучения управляема: Дообученные модели требуют управления версиями, расписаний переобучения и проверок совместимости.

Когда воздержаться:

  • Вы в быстром прототипировании или низкообъемном использовании
  • Эволюция модели может аннулировать ваши усилия
  • Вы испытываете ограничения ресурсов

Методы дообучения:

  1. Контролируемое дообучение (SFT): Предоставляет пары (промпт, идеальный ответ) как примеры "истины". Идеально для классификации, структурированного выхода, исправления ошибок следования инструкциям.

  2. Визуальное дообучение: Поставляет пары изображение-метка для контролируемого обучения на визуальных входах. Улучшает понимание изображений и мультимодальное следование инструкциям.

  3. Оптимизация прямых предпочтений (DPO): Дает как "хороший", так и "плохой" ответ на промпт и указывает предпочтительный. Модель учится ранжировать и предпочитать выходы более высокого качества.

  4. Дообучение с подкреплением (RFT): Генерирует кандидатские выходы и имеет экспертных оценщиков, которые оценивают их. Затем использует обновление в стиле градиента политики для подкрепления высоко оцененных цепочек мыслей.

Преимущества дообучения больших моделей:

  • Исключительная производительность при дообучении для конкретных задач
  • Глубокая специализация для доменов
  • Сохранение общих возможностей

Вызовы:

  • Значительные вычислительные ресурсы
  • Высокие требования к данным
  • Необходимость управления версиями и переобучения

Обещание малых моделей

В отличие от больших базовых моделей, малые модели предлагают более ресурсоэффективную альтернативу, делая их подходящими для многих приложений, где вычислительные ресурсы ограничены или время ответа критично.

Преимущества малых моделей:

  1. Ресурсоэффективность: Меньше параметров и более простые архитектуры позволяют быстрее адаптироваться и экспериментировать.

  2. Прозрачность и интерпретируемость: Меньше слоев и параметров облегчают анализ процессов принятия решений. Это бесценно в приложениях, где объяснимость необходима — таких как финансы, здравоохранение и регуляторные домены.

  3. Agile разработка: Легковесная структура позволяет быстрее итерироваться во время дообучения, что может привести к более быстрым инсайтам и корректировкам.

  4. Доступность: Многие высокопроизводительные малые модели являются открытыми и свободно доступными, включая модели, такие как Llama и Phi.

  5. Устойчивость: Требуют значительно меньше энергии для обучения и вывода, делая их более устойчивым выбором.

  6. Частые обновления: Могут быть быстро переобучены или дообучены с новыми данными, адаптируясь быстро к изменяющимся паттернам.

Производительность: Дообученные малые модели могут достигать результатов, сопоставимых с большими моделями на конкретных, узко определенных задачах. Например, малая модель, дообученная для анализа тональности в конкретном домене, может достичь высокой точности, потому что специализируется на распознавании паттернов, специфичных для этого контекста.

Современное состояние: В начале 2025 года бенчмарки, такие как Stanford HELM, показали, что модели с открытыми весами, такие как DeepSeek-v3 и Llama 3.1 Instruct Turbo (70B), достигли средних оценок выше 66% на MMLU, и даже варианты с 8B параметрами, такие как Gemini 2.0 Flash-Lite, начали преодолевать порог 64%.

Контролируемое дообучение (Supervised Fine-Tuning)

Среди параметрических подходов контролируемое дообучение остается фундаментальной техникой, позволяющей точное формирование поведения через курированные примеры вход/выход. SFT — это фундаментальный подход для точного управления поведением агента, показывая ему явные примеры того, как отвечать.

Мощный случай использования: Обучение агента точно, когда и как вызывать внешние API — дообучение вызова функций, так что агент не только форматирует вызовы инструментов правильно, но и рассуждает, должен ли вызов произойти вообще.

Процесс SFT:

  1. Определение схемы: Определите явную схему для каждого API, который вы раскрываете — указывая имена функций, валидные аргументы, типы и форматы возврата.

  2. Сбор данных дообучения: Соберите набор данных дообучения структурированных примеров, которые отражают вашу точную схему API — имена функций, типы аргументов и форматы возврата.

  3. Специальные токены: Оберните внутреннее рассуждение модели и внешние вызовы инструментов в специальные токены, такие как <think>…</think> или <tool_call>…</tool_call>.

  4. Обучение: Используйте LoRA (Low-Rank Adaptation) адаптеры для эффективной адаптации только целевых слоев.

  5. Валидация: Валидируйте каждый предлагаемый вызов против той же схемы во время выполнения перед выполнением.

Преимущества SFT:

  • Снижает частоту ошибок
  • Обучает контекстуальному суждению (когда не вызывать)
  • Уменьшает вашу стоимость токенов, сокращая повторы и неправильно сформированные вызовы
  • Вводит слой рассуждения: модель может выбирать, когда не вызывать инструмент

Рекомендация: Начинать с встроенного вызова функций предобученных моделей и валидации схемы во время выполнения. Рассматривать дообучение только после подтверждения, что инженерия промптов и стандартные API не справляются.

Оптимизация прямых предпочтений (Direct Preference Optimization)

Строясь на SFT, оптимизация прямых предпочтений вводит обучение предпочтениям, выравнивая выходы более близко с человеческими ранжированными суждениями качества. DPO — это техника дообучения, которая обучает модель предпочитать лучшие выходы над худшими, обучаясь на ранжированных парах.

Отличие от SFT: В отличие от стандартного SFT, который просто учит модель реплицировать "золотой" выход, DPO помогает модели интериоризировать суждения предпочтений — улучшая её способность ранжировать и выбирать завершения высокого качества во время вывода.

Процесс DPO:

  1. Подготовка данных: Каждый пример включает промпт, предпочтительный ("chosen") ответ и менее предпочтительный ("rejected") ответ.

  2. Обучение: Модель обучается на этих ранжированных парах, изучая, какие выходы предпочитать во время обучения.

  3. Параметр beta: Настраивает, насколько сильно модель приоритизирует предпочтительный ответ во время оптимизации.

Преимущества DPO:

  • Особенно полезен, когда ваша основная цель — формировать качество выхода, а не просто реплицировать примеры
  • Дополняет SFT, добавляя измерение обучения предпочтениям
  • Помогает агентам производить выходы, которые не только правильны, но и выровнены с нюансированными человеческими ожиданиями

Применение: Полезен для настройки тона, стиля или приоритетов суммирования.

Обучение с подкреплением с проверяемыми наградами (Reinforcement Learning with Verifiable Rewards)

Строясь на дообучении на основе предпочтений, обучение с подкреплением с проверяемыми наградами (RLVR) вводит оптимизацию политики против явной, измеримой функции награды.

Отличие от DPO: В отличие от DPO, который напрямую оптимизирует для парных предпочтений, RLVR объединяет обучение предпочтениям с обучением с подкреплением, позволяя модели обобщаться за пределы наблюдаемых ранжирований, предсказывая оценки ценности и оптимизируя свои выходы соответственно.

Преимущества RLVR:

  1. Гибкость: Может оптимизировать против любого измеримого сигнала — автоматизированные метрики, валидаторы на основе правил, внешние модели оценки или человеческие оценщики.

  2. Обобщение: Способность обобщаться за пределы наблюдаемых примеров через предсказание ценности.

  3. Масштабируемость: Подходит для задач, где доступно автоматизированное оценивание или масштабируемая человеческая оценка.

  4. Применимость: Особенно эффективно, когда у вас есть ранжированные данные предпочтений или когда вы можете построить надежную функцию оценки для оценки выходов.

Идеально для: Сценариев, требующих постоянного улучшения качества, особенно когда награды редки или оценка слишком дорога для получения в масштабе через прямую человеческую маркировку.

Процесс RLVR:

  1. Промпты сэмплируются для генерации множественных завершений
  2. Завершения оцениваются оценщиком (автоматизированным или человеческим)
  3. Эти награды подаются в тренер модели для обновления политики
  4. Будущие выходы улучшаются на основе наблюдаемой производительности

RLVR расширяет возможности RFT, объединяя обучение предпочтениям с оптимизацией политики на основе ценности. Это позволяет вашим моделям не просто имитировать предпочтительные выходы, но предсказывать и оптимизировать то, что будет наиболее полезным, точным или выровненным — прокладывая путь для самосовершенствующихся, специализированных на задачах базовых моделей.