Краткое содержание: Проектирование агентных систем
Основные тезисы
1. Наша первая агентная система
- Практический подход: начинать с конкретной проблемы, а не с грандиозного плана
- Пример: агент поддержки клиентов для электронной коммерции
- Обработка запросов на отмену заказов, возвраты, изменение адресов
- Простой двухшаговый рабочий процесс: выбор инструмента → выполнение → подтверждение
- Важность правильного выбора области применения:
- Слишком узко → упускаем другие возможности
- Слишком широко → утопаем в граничных случаях
- Слишком расплывчато → не знаем, когда преуспели
- Оценка производительности: непротестированный агент = недоверенный агент
- Проверка вызова правильного инструмента
- Проверка правильности параметров
- Проверка качества подтверждения
2. Основные компоненты агентных систем
Архитектура компонентов:
- Foundation модель — движущая сила принятия решений
- Инструменты (Tools) — функциональные возможности для выполнения действий
- Память (Memory) — хранение и извлечение информации
- Оркестрация — координация и управление рабочими процессами
3. Выбор модели
Критерии выбора:
- Сложность задачи:
- Большие модели (GPT-5, Claude Opus) → открытые среды, нюансированное понимание
- Малые модели (ModernBERT, Phi-4) → четко определенные, повторяющиеся задачи
- Модальность: мультимодальные модели для текста + изображения + аудио
- Открытость: open-source (Llama, DeepSeek) vs проприетарные (GPT-5, Claude)
- Стоимость и задержка: баланс между производительностью и практичностью
- Гибридные стратегии: динамическая маршрутизация на основе сложности
Сравнение моделей:
- Малые модели (до ~14B параметров) → один потребительский GPU (RTX 3090)
- Большие модели → минимум 12 GPU, обычно в облаке
- Производительность не всегда коррелирует с ценой
4. Инструменты
Три типа инструментов:
- Локальные инструменты — внутренняя логика, правила, вычисления
- API-инструменты — взаимодействие с внешними сервисами
- MCP-инструменты — Model Context Protocol для структурированного контекста
Принципы проектирования:
- Модульность: каждый инструмент — самодостаточный модуль
- Легкая интеграция и замена
- Постепенное расширение функциональности
5. Память
Краткосрочная память:
- Контекст текущей задачи/разговора
- Скользящие контекстные окна
- Полезно для чатботов и виртуальных помощников
Долгосрочная память:
- Хранение знаний и опыта на длительный период
- Базы данных, графы знаний, тонко настроенные модели
- Персонализация и улучшение со временем
Управление памятью:
- Организация и индексация данных
- Различение релевантных и нерелевантных данных
- Приоритизация недавних данных
6. Оркестрация
- Превращает изолированные возможности в сквозные решения
- Композиция, планирование и контроль серии навыков
- Оценка последовательностей, прогнозирование результатов
- Непрерывный мониторинг и адаптация
- Инкрементальное планирование
7. Компромиссы проектирования
Производительность: скорость/точность:
- Высокая скорость → может снизить точность
- Высокая точность → может замедлить агента
- Гибридный подход: быстрый ответ → уточнение
Масштабируемость:
- Управление GPU ресурсами:
- Динамическое выделение
- Эластичное выделение
- Приоритетная очередь
- Оптимизация задержки:
- Асинхронное выполнение задач
- Динамическая балансировка нагрузки
- Горизонтальное масштабирование:
- Добавление GPU узлов
- Гибридный облачный подход
- Burst scaling
Надежность:
- Отказоустойчивость: обнаружение и восстановление после сбоев
- Последовательность: работа в различных сценариях
- Требования: обширное тестирование, мониторинг, циклы обратной связи
Стоимость:
- Затраты на разработку: команда, данные, инфраструктура
- Операционные затраты: GPU, хранение, пропускная способность, обслуживание
- Стратегии оптимизации:
- Экономные модели
- Облачные ресурсы
- Open-source инструменты
8. Архитектурные паттерны
Одноагентные архитектуры:
- Один агент для всех задач
- Простота проектирования и развертывания
- Идеально для четко определенных, узких задач
- Примеры: простые чатботы, автоматизация задач
Мультиагентные архитектуры:
- Преимущества:
- Сотрудничество и специализация
- Параллелизм
- Улучшенная масштабируемость
- Избыточность и устойчивость
- Проблемы:
- Координация и коммуникация
- Увеличенная сложность
- Сниженная эффективность (высокое потребление токенов)
- Идеально для сложных, распределенных задач
9. Лучшие практики
Итеративный дизайн:
- Построение инкрементально с обратной связью
- Раннее обнаружение проблем
- Пользователь-центричный подход
- Масштабируемость через MVP
Стратегия оценки:
- Функциональное тестирование: правильность, граничные случаи, метрики
- Обобщающая способность: работа с новыми задачами
- Оценка UX: удовлетворенность, завершение задач, явные/неявные сигналы
- Человеческая валидация: экспертная оценка
- Сквозное тестирование: полная операционная среда
Реальное тестирование:
- Развертывание в продакшене
- Выявление граничных случаев
- Оценка под нагрузкой
- Поэтапный запуск
- Мониторинг и обратная связь
Ключевые выводы
- Начните с малого: выбирайте управляемый срез задачи для быстрого создания ценности
- Тестируйте с самого начала: непротестированный агент = недоверенный агент
- Балансируйте компромиссы: производительность, масштабируемость, надежность, стоимость
- Выбирайте правильную архитектуру: одноагентная для простых задач, мультиагентная для сложных
- Следуйте лучшим практикам: итеративный дизайн, оценка, реальное тестирование
- Управляйте ресурсами эффективно: особенно GPU для масштабирования
- Помните о стоимости: балансируйте ценность и расходы на всех этапах
Связь с другими главами
- Глава 3: Дизайн пользовательского опыта для агентных систем
- Глава 4: Использование инструментов (детально)
- Глава 5: Оркестрация (детально)
- Глава 6: Знания и память (детально)
- Глава 8: От одного агента к многим (детально)
- Глава 9: Валидация и измерение (детально)