"Привет, Сири!" Как оценить качество работы голосовых помощников?
"Привет, Сири!" Как оценить качество работы голосовых помощников?
Никита Блинков, Senior Product Manager, ex-Маруся VK, рассказывает про то, как оценивается эффективность голосовых помощников.
Кому будет интересно:
Всем, кто работает над созданием и улучшением голосовых ассистентов
Продукт-менеджерам, которые занимаются цифровыми продуктами
Всем, кто интересуется технологиями, ИИ и смарт-устройствами
UnionVK
Материал подготовлен на основе онлайн-встречи UnionVK, сообщества текущих и бывших сотрудников группы компаний VK. Присоединяйся к комьюнити, если тоже являешься выпускником группы VK :)
А полную запись встречи можно посмотреть по ссылке на нашем YouTube канале.
Оглавление
Удержание пользователя (Retention)
Типы умных колонок
Метрика "качество ответа"
Метрика "длина диалога"
Метрика "количество сессий"
Формирование привычки пользователей
Метрика "проведенное время"
Дополнительные метрики
Net Promoter Score (NPS)
Метрика "достижение целей"
За последнее время рынок голосовых ассистентов активно развивался и подарил удивительные продукты: Amazon Echo Show 2 и 3 поколений, Apple HomePod mini, Google Nest Mini и др. Рынок СНГ примечателен в этом контексте, так как насыщенумными колонками. Однако, чтобы создать крутого голосового ассистента, важно оценивать прогресс. Даже у крупных тех.компаний ресурсы ограничены, поэтому при создании и продвижении умных колонок важно использовать правильные метрики, чтобы определить, в каком направлении работать.
Далее поделюсь мыслями по поводу метрик для умных колонок и об их “умности”. Эта метрика — одна из самых интересных, поскольку, хоть колонки и называются “умными”, трудно определить, что означает “умность”.
Удержание пользователя (Retention)
Удержание пользователей важно для любого цифрового продукта, но на рынке умных колонок это сложно, особенно для физического устройства, а не приложения. Люди могут приобрести колонку и не использовать постоянно. Если пользователь отложил колонку в сторону, мало что можно сделать, чтобы изменить это. Поэтому успех продуктовой стратегии оценивается другими показателями, которые зависят от типа умной колонки.
Офф-топ — типы умных колонок
Есть два типа умных колонок: ориентированные на разговор, и те, которые выполняют задачи. Siri — голосовой помощник, который выполняет задачи: говорит прогноз погоды или включает музыку, но плохо поддерживает разговор. Replika поддерживает продолжительное и персонализированное общение. Есть помощники, которые и общаются, и выполняют задачи: Алиса Яндекса или Маруся VK. Независимо от типа, у колонок одинаковый набор метрик для оценки, хотя приоритеты этих метрик отличаются.
Качество ответа
Показатель, над которым я работал последние несколько лет, — качество ответа или умность*. Умные колонки унаследовали этот показатель от поисковых систем, так как по сути колонки — говорящие поисковики. Для расчета берется количество запросов пользователей и количество релевантных ответов. Если умная колонка дает 90 релевантных ответов на 100 запросов, то качество ответа будет составлять 90%. Преимущество метрики в легкости оценки — вы просто анализируете ответы за определенный период. Однако эта оценка субъективная и затратная.
Люди, которые оценивают ответы, понимают релевантность по-своему. Оценщики работают со сложными данными в большом объеме, что иногда приводит до 10-15% ошибок в анализе. В результате, технологические компании инвестируют в улучшение качества оценки и интерфейсов. Разработчики умных колонок уже внедряют алгоритмы машинного обучения для решения проблемы, однако процесс оценки качества ответов остается затратным. Вероятно, все еще важный показатель качества ответов будет пересмотрен в будущем**.
Длина диалога
Этот показатель актуален для умных колонок, ориентированных на общение. Клиент захочет купить голосового помощника, который поддерживает длительные и содержательные разговоры — этим человек отличается от робота. Если разговоры между клиентами и колонкой становятся дольше, это успех. Здесь используются те же приемы, что и в разговорах между людьми. Например, мы тестировали механику разговора, в которой голосовой ассистент не только отвечал на вопросы, но и сам задавал, что увеличило продолжительность диалога.
Количество сессий
Я часто сравниваю умные колонки с баттлом “кнопочные телефоны vs смартфоны”: телефон с кнопками используют пару раз в день, чтобы позвонить, отправить сообщение или поиграть в “Змейку”, потому что нет других функций. Смартфон решает гораздо больше задач, поэтому используется тысячи раз в день. Думаю, умные колонки тоже пойдут по этому пути — чем они умнее, тем чаще с ними взаимодействуют. Если пользователь знает, что колонка может помочь с “jobs to be done”, то будет использовать ее чаще.
Новые привычки пользователей
Управление продуктом обычно связано с формированием и укреплением привычек: мы разрабатываем новые функции, чтобы переводить людей из одной категории (с низкой активностью) в другую (со средней активностью) и так далее. Умные колонки — область, где продукт-менеджеры могут проявить мастерство: они подбирают правильные функции, которые превратятся в привычки пользователей. (В курсе Reforge — больше о дизайне привычек. Хотя курс больше посвящен удержанию пользователей существующих цифровых продуктов, вопросы вовлечения актуальны и для умных колонок).
Проведенное время
Умные колонки — это также доступ к контенту: музыка, аудиокниги, фильмы, игры с голосовым управлением или даже мультимодальные игры. Монетизация колонки напрямую связана с тем, сколько времени пользователь тратит на взаимодействие с контентом. Это влияет на впечатление от продукта и учитывается при расчете стоимости подписки.
Дополнительные метрики, о которых стоит подумать
Важной чертой голосовых помощников является проактивность — способность не только отвечать на вопросы, но и предлагать релевантные идеи. Я уже создал пару MVP: например, мы добавили в умную колонку функцию задавать пользователю вопросы и предлагать углубиться в тему разговора (допустим, об Илоне Маске). Alexa, например, предлагает добавить вещи в список покупок. В будущем проактивность может выражаться в своевременных предложениях, основанных на интересах пользователя и истории взаимодействия. Для измерения проактивности можно сравнить долю принятых предложений с количеством случаев их отклонения. Рано говорить об оптимальном значении метрики, но индустрия может развиваться в этом направлении.
Чтобы оценить общее качество отклика, мы можем измерить качество отклика по отдельным функциям. Например, взять данные о прогнозе погоды, который часто запрашивают пользователи, и улучшить качество ответа на этот конкретный запрос. Тогда общее качество ответов повысится пропорционально доле запросов о погоде среди всех запросов пользователей. То же самое можно сделать с поиском музыки и другими функциями.
Однако не все релевантные ответы хорошие. Если умная колонка говорит пользователю, что погода пасмурная, в локации пользователя может все еще идти дождь. Чтобы создать по-настоящему умного помощника, мы должны контролировать не только ответ, но и предоставляемые данные, например, местоположение и прочие условия.
Для этого оцениваются сегменты данных по ключевым функциям: качество поиска музыки, функциональность умного дома и так далее. Также используются конкретные показатели для разных подсистем умных колонок:
Скорость пролистывания музыки (как быстро пользователь “скипает” подобранную песню);
Разнообразие ответов;
% дослушивания аудио-контента;
Длина ответов (если у двух ответов одинаковое качество, лучше выбрать более короткий, как в общении между людьми);
Параллельное сравнение для различия хороших и отличных ответов;
Клики для умных колонок с экраном.
Индекс потребительской лояльности (NPS)
Net Promoter Score (NPS) измеряется для умных колонок, как и для других продуктов. Однако этот показатель иногда нестабилен: высокий NPS не гарантирует высокий ретеншн пользователей, и оценка NPS может не меняться долгое время.
Несмотря на это, NPS тесно связан с качеством ответов. Высокий NPS сопровождается эффективностью выполнения задач и правильными ответами умной колонки.
Интересно, что NPS — это отличный инструмент для понимания продукта и улучшения качества откликов, если анализировать отзывы пользователей. В опросах после оценки NPS пользователи часто делятся большим количеством информации, которую можно анализировать по ключевым словам. Это позволяет изучить, как качественные данные связаны с количественными. В результате такого анализа мы получаем качественную информацию, которую можно превратить в количественную, анализируя похожие запросы в логах.
Достижение цели за сессию
Даже когда пользователь получает релевантный ответ на вопрос, не всегда понятно, достигнута ли его цель. Можно проанализировать весь диалог между пользователем и колонкой и посмотреть, какой перцентиль целей достигнут в рамках сессии. Улучшение этой метрики поможет понять, доволен ли пользователь или нет, задает ли дополнительные вопросы для достижения цели и сколько запросов для этого потребовалось. Слишком много итераций типа «У меня есть это и то, что выберешь?» обычно раздражает пользователя. Хотя достижение цели похоже на показатель качества ответа, методология расчета отличается. Качество ответа — это среднее значение всех запросов пользователя за один сеанс. Но пользователь может обращаться к голосовому помощнику несколько раз в день, и количество запросов в каждой сессии может отличаться.
Заключение
Показатели, относящиеся к голосовому продукту, зависят от типа умной колонки и стадии разработки. Метрики будут разными для Alexa и Spotify’s Car Thing. На начальном этапе следует инвестировать в качество ответов, но как только продукт появится на рынке, показатели будут зависеть продуктовой стратегии.
*Дело не в том, что качество ответа — единственное, что подчеркивает умность, но на современном этапе развития голосовых технологий эта метрика работает — можно ее отслеживать и улучшать с видимыми результатами
**Это может быть качество ответа только для набора оценок, полученного от новых пользователей, что кажется более информативным