Краткое содержание: Проектирование агентных систем

Основные тезисы

1. Наша первая агентная система

Практический подход: начинать с конкретной проблемы, а не с грандиозного плана
Пример: агент поддержки клиентов для электронной коммерции
- Обработка запросов на отмену заказов, возвраты, изменение адресов
- Простой двухшаговый рабочий процесс: выбор инструмента → выполнение → подтверждение
Важность правильного выбора области применения:
- Слишком узко → упускаем другие возможности
- Слишком широко → утопаем в граничных случаях
- Слишком расплывчато → не знаем, когда преуспели
Оценка производительности: непротестированный агент = недоверенный агент
- Проверка вызова правильного инструмента
- Проверка правильности параметров
- Проверка качества подтверждения

2. Основные компоненты агентных систем

Архитектура компонентов:

Foundation модель — движущая сила принятия решений
Инструменты (Tools) — функциональные возможности для выполнения действий
Память (Memory) — хранение и извлечение информации
Оркестрация — координация и управление рабочими процессами

3. Выбор модели

Критерии выбора:

Сложность задачи:
- Большие модели (GPT-5, Claude Opus) → открытые среды, нюансированное понимание
- Малые модели (ModernBERT, Phi-4) → четко определенные, повторяющиеся задачи
Модальность: мультимодальные модели для текста + изображения + аудио
Открытость: open-source (Llama, DeepSeek) vs проприетарные (GPT-5, Claude)
Стоимость и задержка: баланс между производительностью и практичностью
Гибридные стратегии: динамическая маршрутизация на основе сложности

Сравнение моделей:

Малые модели (до ~14B параметров) → один потребительский GPU (RTX 3090)
Большие модели → минимум 12 GPU, обычно в облаке
Производительность не всегда коррелирует с ценой

4. Инструменты

Три типа инструментов:

Локальные инструменты — внутренняя логика, правила, вычисления
API-инструменты — взаимодействие с внешними сервисами
MCP-инструменты — Model Context Protocol для структурированного контекста

Принципы проектирования:

Модульность: каждый инструмент — самодостаточный модуль
Легкая интеграция и замена
Постепенное расширение функциональности

5. Память

Краткосрочная память:

Контекст текущей задачи/разговора
Скользящие контекстные окна
Полезно для чатботов и виртуальных помощников

Долгосрочная память:

Хранение знаний и опыта на длительный период
Базы данных, графы знаний, тонко настроенные модели
Персонализация и улучшение со временем

Управление памятью:

Организация и индексация данных
Различение релевантных и нерелевантных данных
Приоритизация недавних данных

6. Оркестрация

Превращает изолированные возможности в сквозные решения
Композиция, планирование и контроль серии навыков
Оценка последовательностей, прогнозирование результатов
Непрерывный мониторинг и адаптация
Инкрементальное планирование

7. Компромиссы проектирования

Производительность: скорость/точность:

Высокая скорость → может снизить точность
Высокая точность → может замедлить агента
Гибридный подход: быстрый ответ → уточнение

Масштабируемость:

Управление GPU ресурсами:
- Динамическое выделение
- Эластичное выделение
- Приоритетная очередь
Оптимизация задержки:
- Асинхронное выполнение задач
- Динамическая балансировка нагрузки
Горизонтальное масштабирование:
- Добавление GPU узлов
- Гибридный облачный подход
- Burst scaling

Надежность:

Отказоустойчивость: обнаружение и восстановление после сбоев
Последовательность: работа в различных сценариях
Требования: обширное тестирование, мониторинг, циклы обратной связи

Стоимость:

Затраты на разработку: команда, данные, инфраструктура
Операционные затраты: GPU, хранение, пропускная способность, обслуживание
Стратегии оптимизации:
- Экономные модели
- Облачные ресурсы
- Open-source инструменты

8. Архитектурные паттерны

Одноагентные архитектуры:

Один агент для всех задач
Простота проектирования и развертывания
Идеально для четко определенных, узких задач
Примеры: простые чатботы, автоматизация задач

Мультиагентные архитектуры:

Преимущества:
- Сотрудничество и специализация
- Параллелизм
- Улучшенная масштабируемость
- Избыточность и устойчивость
Проблемы:
- Координация и коммуникация
- Увеличенная сложность
- Сниженная эффективность (высокое потребление токенов)
Идеально для сложных, распределенных задач

9. Лучшие практики

Итеративный дизайн:

Построение инкрементально с обратной связью
Раннее обнаружение проблем
Пользователь-центричный подход
Масштабируемость через MVP

Стратегия оценки:

Функциональное тестирование: правильность, граничные случаи, метрики
Обобщающая способность: работа с новыми задачами
Оценка UX: удовлетворенность, завершение задач, явные/неявные сигналы
Человеческая валидация: экспертная оценка
Сквозное тестирование: полная операционная среда

Реальное тестирование:

Развертывание в продакшене
Выявление граничных случаев
Оценка под нагрузкой
Поэтапный запуск
Мониторинг и обратная связь

Ключевые выводы

Начните с малого: выбирайте управляемый срез задачи для быстрого создания ценности
Тестируйте с самого начала: непротестированный агент = недоверенный агент
Балансируйте компромиссы: производительность, масштабируемость, надежность, стоимость
Выбирайте правильную архитектуру: одноагентная для простых задач, мультиагентная для сложных
Следуйте лучшим практикам: итеративный дизайн, оценка, реальное тестирование
Управляйте ресурсами эффективно: особенно GPU для масштабирования
Помните о стоимости: балансируйте ценность и расходы на всех этапах

Связь с другими главами

Глава 3: Дизайн пользовательского опыта для агентных систем
Глава 4: Использование инструментов (детально)
Глава 5: Оркестрация (детально)
Глава 6: Знания и память (детально)
Глава 8: От одного агента к многим (детально)
Глава 9: Валидация и измерение (детально)

Основные тезисы​

1. Наша первая агентная система​

2. Основные компоненты агентных систем​

3. Выбор модели​

4. Инструменты​

5. Память​

6. Оркестрация​

7. Компромиссы проектирования​

8. Архитектурные паттерны​

9. Лучшие практики​

Ключевые выводы​

Связь с другими главами​