Видео из пробирки: как ИИ-стартап NeuraLoom меняет индустрию подвижного контента
До недавнего времени оперировать таким эффективным инструментом могли только те, у кого была возможность или заплатить от нескольких десятков тысяч до миллионов рублей, или освоить видеопродашкн самостоятельно.
Ситуацию может изменить искусственный интеллект — на международном рынке уже работают ИТ-сервисы для синтезирования аватаров, презентаций и видео. Пожалуй, наиболее известны Synthesia, Yepic, Hour One — они позволяют сгенерировать и озвучить «говорящую голову».
Сейчас бета-тестирование проходит еще один американский стартап с российскими и украинскими корнями — NeuraLoom. RB.RU побеседовал с основателями проекта, узнал их историю и разобрался, какое место в производстве видео могут занять нейросети, заменят ли они актеров и тяжело ли «оживить» бороду.
В интервью приняли участие:
Антон Никоноров, CEO и сооснователь NeuraLoom Сергей Григораш, стратегический директор и сооснователь NeuraLoom
Антон Никоноров и Сергей Григораш, основатели NeuraLoom
— В чем фишка NeuraLoom, какой продукт вы предлагаете? Сергей: Наша нейросеть делает под заказ полноценные видео — с голосом, мимикой, жестами и спецэффектами. В этом мы уникальны — предлагаем не прототип цифрового аватара, который клиенту придется настраивать самому, а конечный ролик, для которого не нужны специальные знания или оборудование. Это сокращает траты времени и бюджета на производство роликов в сотни, тысячи раз. — На рынке уже есть сильные игроки, почему вы решили, что справитесь? Антон: Во-первых, рынок видеоконтента огромен, практически каждому уже требуются или понадобятся в ближайшем будущем собственные видео: обучающие, рекламные, новостные. Помимо привычных видеорецензий или влогов это может быть виджет для сайта, чат с виртуальным помощником, озвученные нейросетью презентации и так далее. Во-вторых, как и сказал Сергей, мы стремимся к тому, чтобы весь путь генерации видео был автоматизирован и клиенту не пришлось ничего доделывать — только составить ТЗ. — У проекта трое сооснователей? Почему вы решили строить бизнес вместе? Антон: Да, у нас трое фаундеров. Я занимаю должность CEO, Сергей — наш стратегический директор, а также Владимир Кудрин — COO. Мы начали общаться на почве профессиональных интересов — у нас троих банковский и предпринимательский опыт, много лет увлекаемся технологиями. Я адепт искусственного интеллекта и машинного обучения, Сергей был погружен в вопросы кредитного скоринга, Владимир — профессионал в бизнес-аналитике, работал в «Сбере» и «МТС Банке». — Какими проектами вы занимались до NeuraLoom? Антон: У нас уже была ИТ-компания по заказной разработке ИИ-решений в США, Brains from space Inc. Мы несколько лет успешно работали, но после начала пандемии модель перестала быть привлекательной — упал спрос на масштабные проекты, а простые задачи нас не прельщали. С распространением вируса мы задумались о запуске в Европе необанка для поколения Z — он бы стал пивотом нашего отдельного проекта по криптоэквайрингу и процессингу платежей. Однако к середине 2020 года границы закрылись, и получение лицензий отодвинулось на неопределенный срок. Так что к этой идее мы тоже утратили интерес. — И как появилась идея нейросети для генерации видео? Сергей: Вообще получилось довольно забавно. Мы хотели сделать маскотом необанка говорящую стодолларовую купюру. Начали разбираться в рынке анимации и поняли, насколько огромен его потенциал. К тому же мы проводили R&D в области нейросетей, и их часть легла в основу свежего проекта. Да и идея повернуть бизнес от сервисной к продуктовой модели нам показалась хорошей — при разработке под заказ на каждый проект приходилось выделять отдельную команду разработчиков, соответственно, росли затраты. Так появился NeuraLoom (с англ. loom — «ткацкий станок»). Юрлицо оставили прежним, но проект мы считаем не пивотом, а новым решением. — А почему решили работать из США? У местного рынка есть особенности? Антон: Сказался большой опыт B2B-продаж. В России это было тяжело, долго и больно. А американский рынок, как клиенты, так и инвесторы, больше открыты к инновациям, и законодательство для стартапов приятнее. При этом в России выигрывает банкинг — тут нас до сих пор меня шокируют бумажными чеками. Конечно, без нюансов не обходится: мы не сразу поняли, какие пользовательские интерфейсы заходят, пришлось нанимать местного дизайнера и тестировать. Американцам важно понимать, что ты находишься в одной с ними стране — так сразу больше доверяют. — Итак, в начале осени 2020 вы начали разработку нового продукта. Как дальше разворачивался ход событий? Сергей: К октябрю у нас уже был MVP, и мы пришли с ним в нью-йоркский акселератор Starta Ventures. Трек был очный, и октябрь-ноябрь мы провели там. Потом все собрания и мероприятия запретили из-за распространения инфекции — и часть программы и демо-день пришлось пройти в онлайне. Еще в ноябре наш проект взяли в акселерационную программу NVIDIA, посвященную искусственному интеллекту и глубокому обучению. Там нам дали скидку на аппаратное обеспечение и обучение разработчиков, и мы усовершенствовали наш продукт. — Эти программы помогли привлечь инвестиции? Что это дало? Сергей: К моменту, когда MVP был готов, мы сами вложили в обучение нейронной сети больше $300 тыс. — собственные средства и гранты от Microsoft и Amazon. Мы подтянули базу контактов с прошлых проектов и уже осенью имели первые договоренности о пилотах с американскими корпорациями. По итогам акселерационной программы в нас вложились Starta Ventures. Также мы привлекли инвестиции от сооснователя группы Qiwi Сергея Солонина. На тот момент оценка компании составила $3 млн. Сейчас мы планируем второй раунд, и нас оценивают в $7 млн. Полученные деньги мы направили исключительно на разработку продукта — в маркетинг мы не вкладываемся, а занимаемся прямыми продажами, то есть или сами выходим на клиентов, или они узнают о нас через знакомых. — Кто уже воспользовался вашим решением? Антон: У нас пилоты с примерно 50 американскими, российскими, австралийскими и арабскими компаниями: среди них учебные центры Microsoft, Amazon, SAP, Codecademy, Simpliv, Everytale, Samsung, российские отделения AliExpress и МТС. С большей частью заказчиков или уже проводим пилоты, или провели демонстрации и выходим на большие проекты. Вообще мы ориентированы на крупных корпоративных клиентов из Fortune 500, но в течение полугода-года планируем подтянуть и малый и средний бизнес — Как именно монетизируете продукт? Антон: Сейчас мы получаем предоплату за подготовку аватаров и набор спецэффектов. Через месяц-полтора начнем работать по модели pay-as-you-go: клиенты будут оплачивать по факту каждый прошедший месяц, сумма будет зависеть от того, какую нагрузку на наши сервера дали их заказы. Это очень удобно: например, клиент из рекламного агентства может подключить услугу рассылки персонализированного видео в Киберпонедельник или в Черную пятницу, а потом на несколько недель отключить. — Вы уже прибыльны? Антон: На сегодня этому бизнесу 4 месяца, у нас идет бета-тестирование. Но проект уже прошел точку безубыточности — все наши расходы (ФОТ, аренда серверов) покрываются операционной прибылью. Через пару месяцев будем уже стабильно прибыльны, а к концу года планируем нарастить MRR (регулярный месячный доход) до как минимум $200 тыс. — Какие компании и с каким задачами чаще всего обращаются к вам? Сергей: NeuraLoom полезен в том числе обучающим, рекламным и телекоммуникационным компаниями: для генерации корпоративных внутренних и внешних материалов, персонализации и масштабирования рекламных предложений, чат-ботов с цифровым персонажем. Например, если компания хочет использовать селебрити в разноплановых роликах, ей не нужно подстраиваться под график звезды и оплачивать дорогостоящий штат визажистов, операторов и монтажеров, не говоря уже об аренде студии. Они могут подписать договор и оцифровать образ знаменитости — и вот она уже в почте у каждого клиента рассказывает о преимуществе того товара, который посчитают нужным маркетологи. Немножко отдает «Черным зеркалом», но в реальности экономит кучу ресурсов. Другой популярный сценарий: распределенная по всему миру организация сняла обучающий ролик для новеньких сотрудников, и теперь ей нужно его перевести. Конечно, можно затитровать, но это не даст нужный эффект. Мы можем за пару минут локализовать ролик более чем на 40 языков. Но вообще конкретными отраслями не ограничиваемся — возможности нейросети можно масштабировать практически под любой запрос. К нам даже приходили предложения по адаптации голливудских фильмов к прокату в других странах. Правда, мы пока ограничиваемся переводом видеоконтента для экранов размером поменьше. Возможно, вернемся к кинематографу через год-два. Это очень перспективное направление: если все делать ручками, то придется найти переводчика и актеров озвучки, переклеить монтаж (одна и та же фраза, скажем, на немецком и корейском займет разное время). Тогда как нейросеть не только сделает это быстрее и дешевле — она еще и дорисует мимику и движения губ персонажа так, будто это его родная речь. Что выглядит намного убедительнее. Хороший пример — социальный ролик с участием Бекхэма, который рассказывает об опасности малярии на 9 языках. Не сам, а с помощью ИИ! Пример адаптации видео с помощью ИИ — Виртуальные ассистенты сейчас в моде. Как думаете, почему? Сергей: С виртуальными ассистентами мы работаем по технологии PiP i*PiP — технология, применяемая в телевидении, при которой на экране отображается, как основное изображение какого-либо канала, во весь экран, так и изображение другого канала, в углу основного изображения, которое занимает примерно восьмую часть экрана.. Это не мешает человеку видеть основной контент, наоборот — окошко с говорящим аватаром на сайте увеличивает конверсию на 86%, а добавление речи к презентации улучшает понимание на 80%. А персонализация — например, обращение по имени — вовлекает и помогает лучше запоминать информацию. В сентябре 2020 у ВОЗ появился такой ассистент — Флоренс. Она борется против курения, общается с пользователями и помогает составить план избавления от вредной привычки. Пользователь общается с аватаром так же, как если бы разговаривал с живым человеком по видеосвязи. Кстати, такой стенд мы собираем под заказ к выставке Expo 2021 в Дубае. — А как устроена ваша нейросеть, на чем ее обучали? Сергей: Мы написали программу, которая прошлась по всему YouTube, выбрала открытые и лицензированные видео, где хорошо слышна речь диктора, а лицо показано крупным планом, и отобрала нужные кадры. Больше 2 млн роликов на 10 языках легли в основу обучения NeuraLoom — сейчас датасет весит больше двух Тб. Как результат, нейросеть может создавать лица, которых не существует, или же оцифровывать настоящего человека и делать аватар по его подобию. Она работает по принципу GAN, генеративно-состязательной нейросети. Если кратко, то в нашей сети постоянно соперничают две программы: одна из них постоянно генерирует контент, а вторая критикует его, проверяет картинку на соответствие реальности. И пока первая не победит, обучение не закончится. Поскольку стремиться к совершенству можно практически бесконечно, эта борьба будет длиться годами. Пример цифрового аватара NeuraLoom За образец мы берем натуралистичность и то, насколько визуально нравится результат клиенту. Сейчас нам удалось добиться того, что нарисованный персонаж трудно отличить от записи реального человека. Что касается синтезированного голоса, он пока что звучит немного механически, но мы работаем над этим. При этом у нашего ИИ нет предвзятости, например, по цвету кожи или полу — но вот бородатых он не очень жалует. Поскольку на YouTube подавляющее большинство блогеров и героев выбриты или носят небольшую щетину, то образ «бородатых дровосеков» нашей нейросети пока что дается с трудом. — Не боитесь, что ваша технология станет оружием в руках мошенников? Антон: Чтобы избежать неправомерного использования, мы проверяем контент на предмет соответствия законодательству, заключаем только прямые контракты и фиксируем все авторские права. Иначе пользователь мог бы использовать аватар, например, Илона Маска, чтобы, скажем, призвать людей вложиться в акции его компании. А вообще сфера быстро развивается — например, голоса подделываются уже так хорошо, что американские суды перестали признавать аудиофайлы доказательствами. — И сколько человек поддерживает нейросеть и налаживает контакты с клиентами? Антон: Наша команда состоит из 15 человек, разбросанных по разным местам: три наших сейлза находятся в Калифорнии, топ-менеджмент — в Нью-Йорке, а 8 разработчиков «сидят» в России. Продажников нам подобрали по контактам акселератора, а вот разработчики с нами уже не первый год, мы доверяем друг другу. Поэтому разные часовые пояса не так критичны, хотя, конечно, график выматывает. Большой блок работы берет на себя CTO — эту должность у нас занимает Сергей Малышко, он ученый-практик, автор более 30 научных и 50 научно-популярных публикаций в области комбинаторной оптимизации, проблем размещения объектов, построения систем поддержки программных решений и информационно-аналитических экосистем Общаемся через мессенджеры и LinkedIn, а всю разработку ведем в GitLab. Цифровые аватары NeuroLoom — Если глобально, в чем видите свою миссию? Сергей: Мы бы хотели дать людям возможность с минимальными вложениями и без технических знаний и специального оборудования — только с помощью ноутбука или смартфона — генерить видеоконтент. Для этого мы запускаем мобильное приложение. — Как думаете, к чему придет рынок производства видеоконтента в перспективе нескольких лет? Сергей: Все GAN появились в 2018 году, и сейчас много таких решений задействовано в фэшн-индустрии — для съемки лукбука дешевле не переодевать модель и ловить удачный кадр, а оцифровать ее лицо и тело и дать нейросети задание сформировать сразу несколько образов и выигрышных ракурсов. Хорошо это работает пока что только с изображениям. Что касается видео, только недавно получили широкое распространение маски, которые накладываются поверх лица в кадре и меняют его. Локации и здания уже рисуют правдоподобно, а следующий шаг — генерация натуралистичных видео с аватарами реальных и «нереальных» людей и животных. Мне даже кажется, что через лет 7-10 не будут снимать актеров в большинстве фильмов — вместо этого будут подписывать с ними контракт на использование цифрового образа и штамповать нужные видео. В глобальном смысле все движется к онлайну и автоматизации — так почему бы не освободить человека от рутинной работы вроде монтажа и перевода? При этом не забываем, что нейросеть — это скорее про копирование и компиляцию, а не про чистое творчество. Мнения экспертов Валерий Маковецкий, CEO платформы для онлайн-конференций Everytale Визуализация контента повышает вовлеченность пользователей и создает дополнительный интерактив. Это стало особенно важно с переходом международной аудитории в онлайн-формат после начала пандемии. В нашем случае NeuraLoom решает задачу создания уникальных видеоанонсов и тизеров для проведения онлайн-ивентов и презентации мероприятий. «Цифровые ведущие» значительно снижают издержки и позволяют автоматизировать процесс передачи информации. Так, упрощается администрирование при доставке контента пользователю, а процесс становится более управляемым за счет исключения человеческих факторов. Виртуальные аватары не ошибаются, не устают и привлекают к себе дополнительное внимание. Мы видим очень широкие перспективы для развития данной технологии. Антон Чунаев, продуктовый аналитик ИТ-провайдера Selectel Создание искусственного контента — один из важнейших технологических трендов. Можно сказать, что ИИ-генерируемые персонажи — это продвинутые версии ботов, к которым мы уже привыкли. Боты могут читать новости, проводить онлайн-курсы или тренировки, общаться с клиентами или сниматься в рекламе. Также бот может быть личным менеджером, который решает базовые вопросы при обращении в поддержку. Они создаются для экономии денег — цифровому помощнику не надо платить за круглосуточную работу. Это стало особенно важным в пандемию, когда многие компании перешли в онлайн. Потом, создание ИИ-персонажа — отличный способ для персонализации сервиса. Люди больше доверяют бренду, у которого есть лицо, пусть и виртуальное. Леви Райз, венчурный партнер фонда Digital Horizon На рынке определенно есть сформированный запрос на цифровых аватаров — копии реальных людей. Сценариев их применения масса: от видеоинструкций до блоггинга. Технологии для создания таких двойников существуют достаточно давно, но в последние несколько лет случились значительные прорывы. Хотя до сих пор есть вопросы к качеству синхронизации голоса и движений губ, а также синтезу реалистичной человеческой речи. Главный вызов, который стоит сегодня перед командами, работающими в этом сегменте — собрать платформу, способную в режиме «самообслуживания» генерить в большом объеме качественные видео. Пока что такой продукт предъявляет значительные требования к вычислительным мощностям и cloud-архитектуре. Вторая проблема — автоматизированный дебаггинг: обнаружение и устранение ошибок в готовых видео. Те, кто раньше других решат эти проблемы, получит лидерство и деньги. Смогли ли NeuraLoom приблизится к их решению, будет ли их продукт востребованным, станет понятно только после полноценного запуска платформы. Ирина Ларцева, основатель и генеральный директор коммуникационного агентства PLAN В погоне за улучшением потребительского опыта находятся все компании мира. И в этом плане видео — самый эффективный медиаформат (хорошим примером служит новая опция в Telegram — ставить 10-секундные видео на аватар профиля). Поэтому я считаю, что технология NeuraLoom является концептом новой эпохи коммуникации в цифровой среде. Вскоре коммерческое предложение будет сопровождаться ключевыми тезисами от виртуального аватара, знакомство с новой моделью автомобиля на сайте начнется с короткого видео от лица главного инженера, первый раунд собеседований будет идти по заданному сценарию с цифровым помощником HR-департамента... Так что можно смело говорить о безграничном потенциале технологии для бизнеса. А NeuraLoom, на мой взгляд, предлагает очень удобное платформенное решение, с которым справится и неподкованный человек. Отдельно отмечу, что подобные технологии важно не ставить в один ряд с дипфейками. Слово «deepfake» сейчас означает процесс наложения существующих изображений, видео и озвучек на исходные изображения или видеоролики, где «fake» явно указывает на подделку. Тогда как в случае NeuraLoom создается оригинальный контент. Фото: предоставлены героями