Глава MTS AI Александр Ханин - о биометрии, "сверхчеловеческом" ИИ и умном доме

27 марта 2022, 14:31

Вас записывают - Приведите пример использования искусственного интеллекта в телекоме, который знаком всем нам? - Виртуальный ассистент. Он может работать и когда вы звоните в кол-центр, и в мобильном приложении, и в других каналах, например, в умном доме. Основная идея - оптимизация затрат, повышение скорости, чтобы когда вы куда-то звоните или пишете в чат, не ждали, пока следующий оператор освободится через 15 минут. Допустим, у вас есть пропущенный вызов. Если у вас подключен робот, вы можете получить расшифровку - о чем звонивший говорил. Это по сути личный секретарь. - Вы сейчас описываете систему речевой аналитики? - Система речевой аналитики - это одна из подсистем. Речевая аналитика нужна постфактум, когда уже произошел разговор, мы сделали стенограмму, можем посмотреть, каким было качество обслуживания и прочие вещи. Это постфактум-анализ, а сам по себе голосовой робот работает в реальном времени, здесь и сейчас решает вопросы. Он собой представляет комбинацию нескольких продуктов. - Правильно понимаю, что для тренировки робот-ассистент ведет запись разговора, анализирует беседу для текстовой расшифровки? - Да. - Это как-то проговаривается с абонентом при звонке? Типа стандартной формулировки "звонок записывается", "звонок анализируется искусственным интеллектом"? - Сейчас законодательной нормы нет, которая регулирует, что если это робот, он обязательно должен представиться: "Я робот". Некоторые представляются, некоторые не представляются. В некоторых странах Европы это обязательное требование, когда человек видит, что он сейчас общается именно с роботом. - Насколько велика роль ИИ в проектах умного дома? - Все, что связано с умным домом и видеонаблюдением - самое интересное. Телеком-оператор имеет доступ в более чем 10 млн домовладений через фиксированный интернет. Вы наверняка дома и в офисе пользуетесь интернетом, не все через мобильный телефон. Логично задействовать еще камеры с "облачным" видеонаблюдением, которые будут, например, показывать, что делал ваш пес или кошка, когда вас не было дома, или во сколько домой пришел ребенок. Искусственный интеллект в целом - область, которая позволяет работать с неструктурированными данными, автоматизировать принятие решений, а где-то и расширить возможности человека. ИИ не поработит мир? - Можно ли сказать, что в будущем ИИ будет неким разумом, который можно сравнить с человеческим? Стоит ли из-за этих опасений ограничивать развитие технологий? - Практически во всех сферах есть узкие направления, в которых ИИ работает уже лучше, чем живой человек. Но если мы говорим о том, что искусственный интеллект размышляет, как захватить галактику, такого нет и пока что не предвидится. Многие представляют себе искусственный интеллект как живой организм, но это не так. Это на самом деле просто математическая модель, абсолютно безопасная, она по-прежнему управляется человеком - человек создает. Пока нет ситуации, когда искусственный интеллект получает абстрактное мышление, сложные причинно-следственные связи для творческой работы. Мы считаем, что опасения беспочвенные. - В чем тогда главная задача искусственного интеллекта сейчас? - Основная задача искусственного интеллекта - убрать рутинные операции, исключить негативное влияние человеческого фактора и где-то расширить возможности человека на благо всего мира. - А в каких сферах искусственный интеллект будет развиваться взрывными темпами? - Беспилотные автомобили. Многие боятся, что машина без водителя, но статистика показывает, что беспилотный автомобиль даже в нынешней своей версии сильно-сильно безопаснее, чем средний водитель. Второе направление - это коллаборативная робототехника. Это роботы, которые могут учиться у человека и выполнять рутинные операции. Такие роботы копируют действия человека, запоминают и потом повторяют. Не нужно сложно их программировать, можно передвигать руки робота и говорить, какая операция. Еще одна сфера - синтез данных, начиная от написания кода. Вы нарисовали какой-то макет, сайт, а код, который лежит за всем этим, будет написан роботом. То же самое - синтез голоса. Часто договориться с диктором стоит дорого, поэтому вам проще синтезировать искусственный голос, который будет похож на человеческий - не отличите, но не будете нарушать ничьи права. Дополненная реальность - тоже огромный рынок. Нужно в реальном времени распознавать объекты вокруг человека, локализовывать их, рисовать контуры и накладывать это все на дисплей. Это очень сложная задача, которая пока не решена полноценно, но будет актуальна. Обучение искусственного интеллекта - Как устроена тренировка ИИ? - Если сильно упростить, есть два этапа. Первый - этап обучения модели. Он собой представляет сбор данных. Допустим, вы сохранили 10 млн чатов или картинок, потом по всем этим 10 млн провели разметку, то есть сказали, что на этой картинке собака, здесь - кошка, здесь - человек, обвели это рамочкой и сохранили координаты. Потом вы берете нейросеть. Нейросеть, по сути, большой набор параметров. Этой нейросети вы скармливаете большое количество примеров на входе, а на выходе ей говорите: "Вот правильные ответы". Путем построения соответствий между входящими данными и желаемым результатом сеть подстраивает свои параметры. В итоге получается так называемая обученная модель, которая может потом даже делать какие-то предсказания по тем данным, которых не было в обучающей выборке. Это этап, когда вы создаете робота. Второй этап - уже его эксплуатация или продакшен, иногда называют инференс [задача, для выполнения которой необходимы обученные нейронные сети. - прим. ред.]. Пользователь сталкивается только с инференсом, когда уже обученная модель используется в продакшене. - Сколько потребуется времени для того, чтобы голосовой робот стал сильно приближен к человеку в плане понимания речи и разговора? - Здесь нет предела совершенству. Даже люди развиваются, читают книги, учатся новым навыкам, точно так же и искусственный интеллект. Никогда нет такой точки, когда он скажет: "Все, данных достаточно, горшочек, не вари". Мы сейчас развиваем это итерационно - нет такого, что ты отвернулся, а он ушел в развитии на двадцать лет вперед. Накапливается новый набор данных, этот набор данных используется как дообучение, и появляется новая более совершенная версия алгоритма, которая через месяц может устареть и требует обновления. Чтобы создать очень крутую языковую модель, требуются большие инвестиции. Далеко не каждый стартап может натренировать модель, у которой сотни миллиардов параметров. Это дорого. Забудьте о персональных данных - Постоянно появляются исследования от специалистов по информационной безопасности о том, как умные устройства уязвимы, что возможна прослушка владельцев этих устройств, кража личных данных. Считаете, что этого действительно стоит опасаться? - Тут аналогию можно приводить с биометрией. Во многих странах начинали вводить паспортный контроль, когда стояли киоски, куда можно подойти, отсканировать свой паспорт и проходить. Долгое время все стояли в очереди и смотрели как на сумасшедших на людей, которые в пустом коридоре пытаются отсканировать свой паспорт в этой чудо-машине. Со временем их уровень доверия сместился, потому что это удобно, люди берегут свое время. Точно так же и с умными устройствами. Когда они бесполезные игрушки, то поиграешься недельку и забудешь, а когда это становится неотъемлемой частью твоей жизни и дает определенный уровень пользовательского опыта, то люди привыкают. Если мы сделаем плохое устройство, но скажем, что оно суперзащищенное и конфиденциальное, это не решит задачу. Но и другая правда в том, что кибербезопасность всегда идет рука об руку с искусственным интеллектом. Какой бы ни был крутой искусственный интеллект, если он незащищен, уязвим, это тоже будет не очень долгосрочный проект. Поэтому мы рекомендуем всегда соблюдать хотя бы гигиенический минимум защиты по информационной безопасности. - На ваш взгляд, риски от использования технологии распознавания лиц завышены? Плюсы технологии перевешивают ее минусы? - В любой технологии есть вероятность ошибки, даже если она ничтожно мала - какие-то миллионные доли процента, все равно вероятность ошибки есть. Часто мы слышим комментарии, что система ненадежна. Правильный встречный вопрос: относительно чего ненадежна? Относительно текущего уровня? Относительно живого человека, который выполняет такую же операцию? Система распознавания лиц супернадежна, на порядки надежнее, чем человек с факторами усталости, невнимательности. Мы точно знаем, что это работает сильно лучше, чем живой человек, даже специально обученный. Мы также понимаем, чего люди могут опасаться. Поэтому надо дать понятное применение. Не так, что сфотографировали лицо, потому что нам хочется, а потому что появится возможность получать скидки, бесплатный проезд или бесконтактную оплату проезда. Людям удобнее становится. Разработка чипов и санкции - Вы инвестировали в стартап Kneron, производителя AI-чипов. Собираетесь заняться производством умных устройств? - Да, это прежде всего связано с умными устройствами. Kneron специализировался изначально на видеообработке. Если вы хотите использовать умную камеру, которая здесь и сейчас внутри обрабатывает видео и уже вам выдает результаты, это как раз то, что называется AI-чипы. - Весной 2021 года была инвестиция в $10 млн. Kneron сейчас - это стартап под управлением Intema (дочерняя компания MTS AI. - прим. ред.)? - Да. - Intema создавалась в Люксембурге, чтобы упростить сделки с зарубежными компаниями, именно с ними планировалось большинство сделок. Как в текущей ситуации будете действовать? - Прорабатываются разные возможности инвестиций и из Intema, и из MTS AI. В некоторые компании, которые работают только на российском рынке или на рынке России и СНГ, мы не видим смысла инвестировать из какой-то нашей зарубежной "дочки". Мы верим, что и группой МТС, и в целом в России должны использоваться продукты мирового уровня. Наша задача иметь портфель собственных продуктов мирового уровня. Даже компании, которые фокусируются только на российский рынок, сталкиваются в конкуренции с глобальными игроками. Главная технология ближайшего будущего - По поводу the next big thing (следующей прорывной технологии. - прим. ред.) в хайтек-сфере. На ваш взгляд, что это будет? Чем будут заняты IT-гиганты ближайшие годы? - Технологии компьютерного зрения. Человек примерно 85% всей информации об окружающем мире воспринимает через глаза. Решение задачи компьютерного зрения, когда вы по фото, картинке или серии картинок можете описать все то же самое, что описал бы живой человек, приближает нас к решению задачи искусственного интеллекта, поэтому эта сфера будет очень сильно развиваться. - Что изменится для пользователей? - Сейчас навигация работает в мобильных телефонах, со временем будет работать и в очках дополненной реальности. В современных автомобилях появляются проекционные дисплеи. Вы не отвлекаетесь от дороги, вам не нужно глаза опускать вниз, вы видите все, включая навигацию. - А как вам идея метавселенной? - Идея не новая, она постоянно витала. Я считаю, что сейчас инфраструктура не готова для этого. Железо пока не потащит, и качество сенсоров пока тоже не удовлетворяет. За последние годы каких-то значимых прорывов не было в этой сфере. Это больше хайп. Пока нет такого, что все технологии наготове и надо просто их подобрать. Всегда будет идти борьба за пользователя и за время, проведенное им в твоей экосистеме, в твоей метавселенной. Метавселенная сейчас - собирательный образ. Если вы спросите крупнейшие корпорации, что такое метавселенная для них, все ответят по-разному.