Китайцы научили нейросеть превращать речь в пение на основе голосов живых людей
© rawpixel.com/freepik.com
Чтобы обучить нейросеть пению, китайским разработчикам пришлось обратиться к своей предыдущей технологии DuarIAN, которая умеет синтезировать реалистичные видеоролики на основе речи. Заменив несколько блок-схем, куда загружались изображения, научные сотрудники закачали туда полтора часа пения и 28 часов речи.
После обработки усовершенствованный алгоритм научился создавать акустические композиции или монологи. На один аудиофайл машина тратила не более 20 секунд. Эффективность искусственного интеллекта инженеры проверили на 14 добровольцах, которые оценили нейросеть почти на четыре балла из пяти по правдоподобности звучания.