Опубликовано 29 ноября 2022, 10:01
3 мин.

Сам себе оператор: как искусственный интеллект создает музыкальные клипы

Поделиться:
Сам себе оператор: как искусственный интеллект создает музыкальные клипы

© DeepMind/unsplash.com

Чем быстрее развиваются современные технологии, тем больше слухов возникает: неужели искусственный интеллект захватит власть над человечеством и все мы окажемся в «Матрице»? Будущее туманно, так что тревожиться зря не стоит: мы призываем обратить внимание на настоящее, где от механического ума можно получить пользу. Как насчет того, чтобы искусственный интеллект сделал для вас уникальный музыкальный клип?

Умельцы разработали новое программное обеспечение, которое управляется искусственным интеллектом — и с помощью него можно создавать музыкальные видеоклипы для любимых песен. Как сообщает Classic Rock, процесс создания видеоклипов невероятно прост. Программа создает визуальный ряд на основе текста песни, генерируя образы в изображения. Порой картинки выглядят как настоящие произведения искусства, а их последовательность создает отдельную вселенную.

Например, можно ввести слова трека Don't Stop Me Now группы Queen вместе с несколькими звуковыми индикаторами (например, «колокол» или «инструментальный бридж»), и программа создаст совершенно новые изображения, из которых легко составить видеоряд. В данном случае клип получился ярким, футуристическим и порой абстрактным, а увидеть смысл в нем очень легко — образы легко читаются.

© Вот песенка...

© А вот и визуализация песенки от ИИ!

Таким образом, создавать клипы может любой желающий — если, конечно, несколько своеобразный подход искусственного интеллекта к выбору изображений устраивает автора.

Еще один эксперимент с искусственным интеллектом провел солист группы Rummstein Тилль Линдеманн. Для создания клипа на трек Ich weiß es nicht музыкант обратился к нейросетям, а именно к программе GAN — генеративно-состязательным сетям, обладающим способностью к машинному обучению. Результатом получилось видео, в котором лица разных людей постоянно меняются, превращаясь из одного в другое — мрачновато, но интересно.

Наблюдая такой прогресс, сложно не задаваться вопросами о будущем: неужели искусственный интеллект все-таким сможет заменить человека даже в такой творческой сфере и как скоро это произойдет? За ответами Звук обратился к Виталию Горбачеву, владельцу продуктов в Управлении экспериментальных систем машинного обучения SberDevices:

Каковы шансы, что к помощи искусственного интеллекта в создании клипов станут прибегать постоянно, а не в качестве развлечения и эксперимента?

— Отличная формулировка вопроса — именно к помощи искусственного интеллекта станут прибегать уже совсем скоро, и уже точно прибегают в других областях; однако на полную замену людей в ближайшее время рассчитывать не стоит. Вероятность этого растет с развитием технологий. Модели нейросетей становятся лучше и эффективнее, уменьшая время на редактуру и подбор правильного результата генерации, а также требования к вычислительным мощностям. Кроме того, стоимость самих вычислительных мощностей уменьшается с каждым годом и то, что когда-то требовало миллионов вычислительного бюджета, становится доступно обычным компаниям.

Стоит понимать, что последние, самые мощные, виды искусственного интеллекта — трансформерные и диффузионные модели — совсем недавно вышли из лаборатории, и требуется некоторое время на их оптимизацию и появление инструментов на их основе.

Виталий Горбачев, R&D Product owner SberDevices

Что потребуется для того, чтобы ИИ снял клип, который будет не набором кадров или меняющихся психоделических изображений, а, например, чем-то с сюжетом и главными героями? Возможно ли это вообще?

— Конечно, это возможно. Проблема в том, что модели плохо держат контекст происходящего; однако уже есть подходы к тому, чтобы улучшить этот аспект генерации. Правда, для того, чтобы с нуля снять клип, понадобится настоящий ансамбль моделей: начиная с генерации текста сценария, заканчивая сведением музыки с видео, и, конечно, самой генерации видеоряда по сценарию.

Я думаю, что state of the art (самые передовые технологии — прим. ред.) уже позволяет использовать генерацию текста для вменяемых коротких сценариев, однако полноценная генерация видео потребует времени. Сейчас, по моей оценке, генерация видео в зачаточном состоянии, но я уверен, что мы увидим прорыв на уровне GPT-3 (самая продвинутая языковая модель в мире — прим. ред.) или DALL-E (нейросеть для генерации изображений по текстовым описаниям — прим. ред.) уже в следующем году. Однако следует понимать, что дорога из лабораторий к бизнес-применениям далеко не короткая.

Читайте по теме