4. Выбор модели
Изобилие выбора
Сегодня у нас есть множество мощных моделей от:
- Коммерческих провайдеров: OpenAI, Anthropic, Google, Meta, DeepSeek
- Сообщества с открытым исходным кодом: Llama, Mistral, Gemma
Тренды в моделях
- State-of-the-art foundation модели с впечатляющими общими возможностями
- Open-weight модели расширяют границы локальных или тонко настроенных развертываний
- Малые и средние модели быстро развиваются благодаря:
- Дистилляции
- Квантованию
- Генерации синтетических данных
Дилемма выбора
Конкуренция ведет к:
- Более быстрым инновациям
- Лучшей производительности
- Более низким затратам
Но как выбрать правильную модель для вашей агентной системы?
Реалистичный старт
Один из самых разумных отправных пунктов — просто использовать последнюю модель общего назначения от ведущего провайдера, такого как OpenAI или Anthropic.
Согласно таблице 1-1 (HELM Core Scenario leaderboard, август 2025):
- GPT-5 mini (2025-08-07): средний балл 0.819 (лидер)
- o4-mini (2025-04-16): 0.812
- o3 (2025-04-16): 0.811
- GPT-5 (2025-08-07): 0.807
- Qwen3 235B: 0.798
- Grok 4: 0.785
- Claude 4 Opus: 0.78
Эти модели предлагают:
- Сильную производительность "из коробки"
- Требуют мало настройки
- Уведут вас удивительно далеко для многих приложений
Когда использовать меньшие модели?
Для многих задач, особенно:
- Хорошо определенных
- Низкой задержки
- Чувствительных к стоимости
Много меньшие модели могут обеспечить почти эквивалентную производительность за долю стоимости.
Тренд: автоматизированный выбор модели
Некоторые платформы теперь маршрутизируют:
- Простые запросы → быстрые, недорогие малые модели
- Сложные рассуждения → большие, дорогие модели
Эта динамическая оптимизация во время тестирования оказывается эффективной и намекает на будущее, где мультимодельные системы станут нормой.
Ключевой вывод
Вы можете потратить огромные усилия на оптимизацию выбора модели для маргинальных выигрышей, но если ваш масштаб или ограничения не требуют этого, начните просто.
Со временем часто стоит экспериментировать с:
- Меньшими моделями
- Тонкой настройкой
- Добавлением извлечения (retrieval)
Чтобы улучшить производительность и снизить затраты.
Помните: будущее почти наверняка мультимодельное, и проектирование для гибкости сейчас окупится позже.