Распознавание голоса плюс искусственный интеллект

30 декабря 2021, 15:00

Николай Шалаев - Директор по развитию бизнеса Loftice. Голосовые помощники (voice assistance) — только верхушка айсберга технологий распознавания речи, которые на самом деле используются гораздо шире. Добавив искусственный интеллект, мы получили программы, которые не только понимают, что говорит человек, но и отвечают ему. Но пока нельзя сказать, что интеллект таких ассистентов сильно развит: либо они отвечают по написанным скриптам, либо постоянно обучаются на базе нейросети, как многие популярные на массовом рынке ассистенты вроде Apple Siri, Google Assistant, Microsoft Cortana или русскоязычных «Алисы» и «Маруси» от «Яндекса» и группы VK. Тем не менее их возможности год от года растут, так что голосовые помощники, получившие популярность в первую очередь на массовом рынке, начинают проникать в B2B. Как будет развиваться технология? В этом году, по мнению аналитиков, происходит значимый перелом в индустрии, в результате которого голосовые ассистенты должны шагнуть за пределы узкого круга гаджетов вроде умных колонок или смартфонов. По прогнозам Gartner, по итогам 2021 года компании потратят $3,5 млрд на виртуальных персональных помощников. А к 2025 году более 50% работников интеллектуального труда будут использовать таких ассистентов на регулярной основе (в 2019 году таких было только 2%). Уже сейчас получают широкое распространение кейсы использования виртуальных ассистентов в ритейле, например на сайтах интернет-магазинов, в службах поддержки банков и сервисных компаний. Однако это только начало. У помощников есть потенциал к развитию в системах умного транспорта, управления городской инфраструктурой, в промышленности, медицине и образовании. И чем шире будут их возможности, тем быстрее будут шириться сферы их использования. Главные технологические тренды Каким образом будут развиваться голосовые помощники и возможны ли в принципе инновации на рынке? Ведь распознавание речи, обработка естественного языка и ИИ, в том числе машинное обучение, — совсем не новость в сфере ИТ и существуют достаточно давно. Что может измениться и подтолкнуть рынок вперед? Персонализация опыта Голосовые помощники должны стать более персонализированными — и это не про возможность реагировать на имя пользователя. Уже сейчас многие из них умеют реагировать на голос, определяя, кто перед ними, и действуя дальше в зависимости от предпочтений конкретного человека. Так работают голосовые помощники, интегрированные с системами умного дома. Они могут включить нужную яркость освещения или отрегулировать кондиционер под конкретного члена семьи, если он сохранял ранее свои настройки. Это простейший сценарий. В будущем помощники благодаря машинному обучению должны уметь не только узнавать язык пользователя, но и считывать его эмоции, выстраивая стратегию общения с учетом контекста. В бизнесе это будет означать, что помощники будут выбирать индивидуальную манеру обслуживания для каждого, кто с ними общается. И не только выбирать стиль приветствия между «Привет» и «Добрый день», но адресно предлагать товары, услуги, по-разному реализовывать маркетинговые стратегии. Умение быть «заточенными» под пользователя пригодится в образовании и медицине: там, где личность в общении играет большую роль, даже если эта личность — виртуальная. Интеграция с другими системами Ценность голосового помощника возрастает, когда он может получать данные не только из своей собственной базы или сервиса погоды Google, но и из бизнес-систем. В массовом сегменте эта опция уже реализуется. Например, помощники синхронизируются с данными систем уведомлений, личных календарей и различных планировщиков, чтобы напоминать о назначенных встречах, необходимости покормить кота или принять лекарство. Дальше больше: Samsung уже поселила голосового помощника в холодильник, а Google выпустила решение Google Assistant Connect, которое позволяет сторонним производителям встраивать помощника в свои девайсы. В бизнесе возможности интеграции шире, так как глубина данных здесь намного больше. Например, если помощники научатся считывать историю взаимодействия бренда с клиентом из системы CRM, они смогут учитывать эту информацию в коммуникации. Возможности для интеграции — практически безграничны. Развитие рекламных возможностей Это еще один способ коммерциализировать голосовых помощников. По данным Juniper Research, в 2022 году пользователи потратят $19 млрд на гаджеты с голосовыми возможностями. Это огромная аудитория, с которой бренды могут взаимодействовать в контексте ситуации их запроса. Разве не логично, если человек просит помощника вызвать ему такси, предложить ему в этот момент какой-то определенный сервис? Сейчас все рекламные интеграции в голосовые помощники ведутся на уровне экспериментов, но на самом деле это рынок с миллиардным потенциалом, который еще только предстоит освоить. Защита данных Этот пункт важен, поскольку он тревожит конечных пользователей. Если голосовой помощник знает про вас все, от имени до расписания тренировок и списка контактов, где гарантия, что сведения не утекут? Тем более что громкие скандалы с умными колонками в этой связи уже случались. Производители работают над этим, например Amazon опубликовал несколько всеобъемлющих документов о возможностях записи голоса в колонках Echo и о том, как она сохраняет данные пользователей. Такие протоколы разрабатываются, но вопросы правового регулирования в сфере еще предстоит усовершенствовать. Особенно для применения помощников в B2B, где вся история взаимодействия с данными пользователей, особенно персональными, должна быть прозрачной и легальной. Интеграция голосовых помощников и IVR IVR-системы компаний уже знают, что такое голосовые роботы, но пока возможности их довольно примитивны. В колл-центрах роботы могут сориентировать звонящего клиента в голосовом меню, переключить на нужный отдел или дать простую справку: они озвучивают баланс на мобильном счете или остаток по банковской карте. Чем активнее будут интегрироваться голосовые ассистенты в IVR, тем ближе день, когда на том конце провода вам ответит виртуальная личность, которая действительно сможет помочь не хуже живого сотрудника. Такие помощники не будут вызывать раздражение и заметно увеличат скорость обслуживания клиентов. Клонирование голоса Технология клонирования голоса позволяет имитировать реалистичную человеческую речь. Здесь вступают в игру технологии deep learning, которые помогают машинам копировать не только реплики людей, но их манеру и эмоциональную окраску. В жизни мы не говорим ровным тоном с одинаковым количеством пауз между словами. Живая речь человека богата разными оттенками, театральными паузами, она может быть медленной, быстрой, оживленной, задумчивой и много какой еще. Все это предстоит перенять компьютерам; чем быстрее они научатся это делать, тем им проще будет адаптироваться. Более человечные ассистенты будут вызывать у пользователей больше симпатии и доверия, что позволит технологии преодолеть психологические барьеры. Кстати, пока нет помощников, которые смогли бы пройти тест Тьюринга. Английский ученый Алан Тьюринг придумал этот тест, чтобы оценить интеллект машины. Чтобы сдать тест, робот должен вести себя неотличимо от живого человека. Председатель совета директоров Alphabet ранее заявил, что Google Duplex проходит тест Тьюринга при назначении встреч. Но он подчеркнул, что это происходит при соблюдении определенных условий. Развитие голосового ввода Изначально нейросети обучались на голосах белых мужчин и женщин. Однако у людей различных национальностей, культур, профессий, образа жизни в реальной жизни стиль речи может отличаться от идеального, к которому привыкли голосовые помощники. Пока особенности речи сбивают роботов с толку. В качестве примера — простая ситуация, когда человек говорит с акцентом, простужен или носит брекеты, в связи с чем меняется его произношение. Здесь — непаханое поле для совершенствования нейросетей и их возможностей в понимании реальных людей и ситуаций. Им предстоит научиться различать диалекты, отделять голос от фонового шума и решить много других задач. Одна из них — научиться вступать в коммуникацию по ситуации и без прямого запроса. То есть не ждать команды «Окей, Google», а предлагать помощь первым, когда она необходима. Облачный коннект Поскольку голосовые помощники работают на основе дата-сета, для обращения к базе и поиска нужной информации им требуются определенные вычислительные ресурсы. И чем они больше и доступнее, тем оперативнее помощник реагирует на конкретную ситуацию. Логичным развитием технологии станет работа на базе облачной инфраструктуры по модели SaaS. Неважно, будет ли это публичное облако провайдера, который придумал помощника, или частное облако самой компании, которая хочет максимально распространить его доступность по всей своей сети филиалов или магазинов. По сути, работа помощников из облака упростит их инсталляцию и сделает технологию более простой и доступной. Визуализация ассистентов Согласитесь, разговаривать с квадратным куском пластика стало привычно, но все еще не слишком уютно. В будущем виртуальные ассистенты должны приобрести человеческий облик там, где их визуализация будет оправданной. Это может быть как вывод персонажа на LCD-дисплей, так и более сложные реализации, вплоть до голограмм. Их все еще относят к жанру фантастики, однако такие технологии уже существуют. Создавая виртуального помощника «Агата», мы столкнулись с тем, что визуализацией помощников пока мало кто занимается, и увидели в этом перспективную нишу. В этом и есть наша главная идея — сделать помощника более реальным и человечным. С технологической точки зрения мы не сделали ничего нового, объединив распознавание и синтез речи. В создании визуального образа «Агаты», которая сейчас живет как 3D-модель на экране, помогли специалисты по игровой анимации. Сам персонаж был приобретен у мультипликационной студии и доработан. «Агата» имеет живую мимику, моргает, показывает разные жесты, двигается. Даже если она стоит в режиме ожидания, она выглядит живой: переступает с ноги на ногу, стряхивает соринки с юбки. Мы еще не работали с фоном, это тоже может стать отдельной историей. У аудитории на такого персонажа возник очень позитивный отклик. Что будет дальше? Развитие технологий приведёт компании к поиску ответов на вопрос, как лучше всего использовать голос для взаимодействия со своими клиентами. Будут рождаться все новые кейсы в бизнесе, которые вдохновят других своим примером. Прогресс не стоит на месте, и в будущем у голосовых технологий с визуализацией есть все шансы стать основным интерфейсом в цифровом мире. Подписывайтесь на канал «Инвест-Форсайта» в «Яндекс.Дзене»

Распознавание голоса плюс искусственный интеллект — © Инвест-Форсайт