Опубликовано 16 августа 2022, 10:40
2 мин.

Не обмануть лишь Станиславского: что такое дипфейк-аудио и зачем нам оно

Поделиться:
Не обмануть лишь Станиславского: что такое дипфейк-аудио и зачем нам оно

© Kelly Sikkema/unsplash

Дипфейки, реалистичная подмена фото- или видеоматериала с помощью нейросетей, набирают популярность в последние годы, но имеют репутацию неоднозначную. Мы сконцентрируемся на хорошем: кроме распространения ложной информации и откровенно дурацких забав, в чем и обвиняют технологию чаще всего, плюсы имеются. И аудиоразновидность ее это подтвердит.

Самые очевидные из голосовых дипфейков — это «клонирование» и «подделка» голосов. Забудем на время про хулиганство и мошенничество — с помощью такого синтеза речи можно адаптировать голоса актеров при локализации фильмов (наконец-то ценители перестанут беситься от «неправильного» дубляжа), создавать естественную речь для людей, утративших возможность говорить, начитывать аудиокниги для детей голосами родителей, подстраивать речь под определенный акцент и масса других вещей. В системе Real-Time Voice Cloning аудиофайл кодируется в вектор, затем с спектрограмму, а потом снова в аудио. Нам, людям простым, такого объяснения вполне достаточно.

Несколько более авангардный путь использования технологии — генерация видеозаписи с говорящим человеком на основе аудио. Такая система, изобретенная в Германии, получила название Neural Voice Puppetry. Она анализирует речь на записи, строит модель с особенностями произношения говорящего, затем рассчитывает коэффициенты для построения трехмерного лица и, наконец, производит финальное видео. Ученые из Сингапура подхватили изобретение системой, которая может объединить речь одного спикера с видеозаписью другого. Для этого генерируется 3D-модель лица и мимически подстраивается под фонемы аудио. Наконец-то можно будет заставить всех говорить голосом Бенедикта Камбертбэтча!

Если же серьезно, такие дипфейки могут использоваться для создания видеоаватаров голосовых ассистентов. А еще в игровой индустрии можно будет настраивать мимику персонажей — вот уж где нас ждет полное погружение.

Везде, где есть благо, есть и вред (к сожалению, в обратную сторону это реже работает). Вот наиграемся с дипфейками и научимся получать от них пользу. Ученые по крайней мере настроены довольно оптимистично.