Sora от OpenAI, создателя ChatGPT: как работает нейросеть, способная генерировать новые видео и симулировать миры

06 мая 2024, 23:09

В феврале 2024 года американская компания OpenAI, прославившаяся после создания чат-бота ChatGPT, рассказала о новой нейросети Sora. Она умеет создавать короткие, до одной минуты, Full HD-видео по текстовому описанию пользователя. «Лента.ру» рассказывает, в чем особенности Sora, как ею пользоваться и почему о ней все говорят.

Sora от OpenAI, создателя ChatGPT: как работает нейросеть, способная генерировать новые видео и симулировать миры — © Lenta.ru

Что такое Sora

Sora — это модель искусственного интеллекта, которая генерирует короткие видеоролики в высоком разрешении, основываясь на открытых данных. Впервые компания OpenAl рассказала о новинке 15 февраля 2024 года. При этом сам сервис публике представлен не был, и оформить на нее подписку пока нельзя.

Предыдущие продукты компании

Sora прославилась сразу же после релиза — как минимум потому, что ее создала OpenAI. Детище программиста Сэма Альтмана уже покорило мир своими разработками — ChatGPT и Dall-E 3, поэтому и от нового запуска ждали чего-то невероятного.

Реалистичность

Сама идея создания видеоконтента с помощью нейросетей не нова. Но принципиальное отличие этой нейросети — высокое качество и впечатляющая реалистичность. 15 февраля компания показала несколько роликов, чтобы продемонстрировать возможности Sora. Пользователей отметили мельчайшие детали получившегося контента: например, в сгенерированном Sora видео, в котором женщина идет по улице Токио, на коже лица главной героини видны поры и следы тонального крема, а в ее прическе — отдельные волоски.

Удивителен и тот факт, что Sora умеет в одном кадре собирать очень сложные, многосоставные композиции, каждая из которых имеет свою моторику: в ролике-представлении нейросети, например, показали толпу людей на ярмарке возле кофейни. На крупном плане видно, что каждый из присутствующих чем-то занят и имеет свою цель. Для кинематографа это несложная сцена, но для ИИ это значит, что каждому человеку на видео он прописал собственный сценарий, смоделировал последовательность его движений и скомпановал все объекты в ролике так, чтобы они выглядели органично и не мешали друг другу.

Однако Sora может собирать не только ролики, похожие на снятые людьми, но и анимацию в стиле мультфильмов компании Pixar или игры Minecraft.

Но Sora не всесильна. Вирусным стал клип Air Head («Воздушные головы»), который, как утверждалось, сгенерировали при помощи новой нейросети. OpenAl активно делилась этим видео во всех социальных сетях.

Впоследствии создатели признались, что роль Sora в создании ролика была не так уж и велика: оказалось, что клип прошел мощный постпродакшн при помощи специалистов.

Как пользоваться

Sora создает видео по текстовым запросам. Пользователь может задать нейросети минимальные условия, например, «сделай клип на эту песню» или «собери поздравительное видео для мамы», и Sora, обученная на сотнях реальных видео, сделает ролик на заданную тему.

Сейчас Sora умеет делать видео длительностью до минуты

При этом Sora может не только создавать видео с нуля, но и дорабатывать уже существующее. Например, нейросеть умеет добавлять сцены в ролик, превращать обычное видео в мультфильм.

«Принципиальное отличие Sora от других инструментов — для написания промптов, то есть запросов, пользователю не нужно обладать специальными знаниями, какими-то узкопрофильными компетенциями», — отметил в беседе с «Лентой.ру» основатель и СЕО Mirey Robotics, эксперт по искусственному интеллекту Андрей Наташкин.

Как работает

Глубинно работу нейросети Sora сложно понять, если не знать о том, как работают другие детища OpenAI — ChatGPT и Dall-E 3.

Что такое ChatGPT и Dall-E 3? ChatGPT — универсальный чат-бот, базирующийся на искусственном интеллекте, который может по запросу пользователя генерировать текст, искать ошибки в уже имеющемся, сочинять стихи. Dall-E 3 — нейросеть, которая рисует картинки по запросу пользователя. Ее главная особенность в том, что она может воспринимать не только конкретные запросы в определенных формулировках, но и естественную речь человека. Например, нейросеть понимает и запрос «Нарисуй зеленую собаку», и лаконичное «Зеленый, собака».

Sora активно использует базис Dall-E 3. К каждому видео можно сделать раскадровку, и к каждой из этих картинок нейросеть сама подготовит подробное описание на основе минимального запроса пользователя.

Кроме того, Sora, как и ChatGPT, имеет архитектуру трансформера.

Что такое нейросеть-трансформер? Трансформер — это нейросеть, которая базируется на глубоких нейронных связях. Такие нейросети выстраивают понимание о каждом элементе в пространстве, определяя его разные характеристики. Так, получив описание кошки «живая, рыжая, пушистая, с зелеными глазами, с длиной усов 10 сантиметров, длиной хвоста 20 сантиметров», трансформер, обучаясь на примерах из разных видео, может выстраивать следующие логические характеристики: например, как объект может сочетаться с другими в пространстве (кошку позвали — она встала и побежала); меняться в зависимости от контекста (кошке насыпали еду в миску — она подошла понюхать). Потом, в работе, когда пользователь даст запрос «сделай видео о рыжей кошке», нейросеть-трансформер сможет создать полноценный и реалистичный ролик, в котором будут видны все кошачьи повадки и привычки.

Где скачать

Доступа к нейросети у простых пользователей пока нет. Пока получить доступ смогли тестировщики — художники, дизайнеры и режиссеры. Это сделали, чтобы максимально обучить нейросеть и усовершенствовать ее по всем замечаниям, сказано на официальной странице Sora на сайте OpenAI.

Пока неизвестно, когда обычным пользователям дадут возможность испытать возможности Sora. Компания заявила, что на данный момент нейросеть — «незаконченный продукт», поэтому у него пока еще нет точной даты релиза для широкой аудитории.

Перспективы развития

Развитие универсального ИИ

Новые модели нейросетей появляются не просто так, создатели отталкиваются от задач, которые ставят перед нейросетями люди. После генерации статичных изображений человечество логично перешло к генерации видео, заявил в разговоре с «Лентой.ру» Иван Филиппский, 3D-дженералист, автор и ментор в школе дизайна Contented.

«Все разработки нейросетей ведут к одному — созданию общего искусственного интеллекта (AGI). AGI (Artificial General Intelligence) — это область теоретических исследований ИИ, которая стремится создать программное обеспечение с интеллектом, подобным человеческому, и способностью к самообучению», — поделился мнением Филиппский, уточнив, что с учетом стремительного развития и обучения нейросетей первые результаты стоит ждать в течение пяти лет.

Универсальный ИИ сможет мыслить и действовать, как человек, ему можно будет ставить любые задачи и получать осмысленные ответы в любых сферах — от экономики до 3D-графики Иван Филиппский 3D-дженералист

Развитие Sora

Перспективы работы нейросети Sora, благодаря ее способности генерировать видеоконтент на основе текстовых запросов, особенно впечатляющие, — пояснил «Ленте.ру» руководитель разработки Telegram чат-ботов с использованием нейросетей Magnetto.pro Дмитрий Фомин. По его словам, Sora могут активно использовать профессионалы в следующих направлениях:

Обучение и образование. В образовательных целях Sora может помогать создавать обучающие видеоматериалы, визуализируя абстрактные концепции или сложные процессы в приятной и понятной форме. Реклама и маркетинг. Нейросеть можно использовать для создания рекламных роликов, что позволит брендам экспериментировать с различными концепциями и находить лучший способ привлечь внимание аудитории без больших затрат. Видеоигры и виртуальная реальность. Sora может автоматически создавать видеоконтент для игр и виртуальных миров. Личное творчество. Любителям и художникам Sora позволит легко превращать свои идеи в визуальные истории. Автоматическое генерирование контента. В контексте социальных сетей и блогинга Sora может автоматически генерировать видеоконтент, что может стать новой волной создания цифрового контента на полях TikTok, YouTube и проч.

Новые перспективы для кинематографа

Развитие качественной видеонейросети, например Sora, в ближайшие пять лет может быть прорывом в области генерации видео для кинематографа и видеопродакшна, заявил в разговоре с «Лентой.ру» Евгений Перов, директор продукта в корпоративном мессенджере Compass.

«Во-первых, доля качественного контента сильно вырастет: он станет более доступным без больших затрат на оборудование, постпродакшн. Во-вторых, порог входа в сферу контента высокого качества станет заметно ниже — иметь значение будет только креатив автора, а не его технические или финансовые возможности», — пояснил специалист.

Sora поможет фильмам выходить гораздо быстрее, чем сейчас. Например, вторая часть «Аватара» Джеймса Кэмерона несколько лет находилась на стадии продакшна потому, что художники вручную прорисовывали визуальные эффекты и долго работали над постпродакшном. Нейросеть поможет снизить сроки и затраты на все эти процессы

По мнению Перова, прямо сейчас Sora не сможет заменить работу видеографов. Но нейросети смогут изменить ситуацию в течение нескольких лет — и тогда видеографы станут скорее сценаристами и постановщиками, чем операторами.

«Однако полностью видеографы не исчезнут — останется группа лидеров индустрии, и стоимость их труда кратно вырастет. Остальные будут вынуждены подстроиться под новые условия и сконцентрируются на креативе и постпродакшне», — прогнозирует специалист.

Опасения, которые вызывает Sora

Авторское право

Сразу же после представления нейросети стали возникать вопросы об авторском праве. Нейросеть обучалась на контенте, который был создан людьми, без их согласия. Она так или иначе будет использовать образы, созданные человеком, чтобы, трансформируя их, создавать свои собственные. Можно ли в таком случае использовать ролики от нейросети в коммерческих целях? Анна Планина, директор по цифровым технологиям NMi Group, в интервью AdIndex заявила, что этот вопрос стоит проработать на уровне закона о рекламе. Пока реклама в России еще не использует видео от нейросетей.

Фейки

Несмотря на то что нейросеть только появилась, уже сейчас люди не всегда могут отличить сгенерированные ею видео от реальных, снятых на камеру. Американская компания HarrisX провела эксперимент: восемь разных роликов было показано более чем тысяче участников. Вышло, что в пяти из восьми случаев респонденты оказались неспособны отличить реалистичные и детализированные произведения Sora от снятых и смонтированных человеком. Есть опасение, что разработка OpenAI сможет стать подспорьем для мошенников для создания высококачественных фейков.