Валидация и измерение (Validation and Measurement)
Никогда не было проще строить продукты и приложения, но эффективное измерение этих систем остается огромным вызовом. Хотя команды часто находятся под давлением быстро выпускать вещи, выделение времени на тщательную оценку производительности и оценку качества приносит долгосрочные дивиденды и позволяет командам в конечном итоге двигаться быстрее и с большей уверенностью.
Без тщательной оценки и измерения решения о том, какие изменения выпускать, становятся намного более сложными. Тщательное измерение и валидация становятся необходимыми не только для оптимизации производительности, но и для построения доверия и обеспечения соответствия ожиданиям пользователей.
Эта глава исследует методологии для оценки агентных систем, охватывая ключевые принципы, техники измерения и стратегии валидации. Мы исследуем критическую роль определения четких целей, выбора подходящих метрик и реализации надежных фреймворков тестирования для оценки производительности системы в условиях реального мира.
Помимо простой функциональности, надежность выходов агента — включая точность, согласованность, связность и отзывчивость — требует систематического изучения, особенно учитывая вероятностную природу базовых моделей, которые часто питают эти системы.
На протяжении этой главы мы следуем за агентом поддержки клиентов, обрабатывающим общий сценарий электронной коммерции: клиент сообщает о треснувшей кофейной кружке и запрашивает возврат средств. Мы будем строить на этом случае, исследуя вариации, такие как заказы с несколькими товарами, отмены или изменения адресов, чтобы проиллюстрировать измерение, валидацию и развертывание.