EMO: эмоциональная анимация изображения при помощи аудиодорожкиПока все обсуждают и смакуют демки с Sora, исследователи из Ali

EMO: эмоциональная анимация изображения при помощи аудиодорожки Пока все обсуждают и смакуют демки с Sora, исследователи из Alibaba Group представили интереснейшую wav2lip модель EMO или Emote Portrait Alive. EMO представляет новаторский подход к созданию реалистичных видеороликов, которые могут передавать эмоции на основе звукового ряда. Основной моделью является Stable Diffusion (SD) 1.5, которая используется для преобразования текста в изображения. EMO обходит ограничения традиционных методов, обеспечивая плавные переходы между кадрами и сохраняя индивидуальность персонажа на протяжении всего видео. Метод использует прямой синтез аудио в видео, обходя необходимость промежуточных 3D моделей или точек лица. EMO позволяет генерировать выразительные видеоролики с различными выражениями лица и позами головы, превосходя существующие методы по реализму. Для работы на вход подается изображение, которое будет анимироваться и звуковая дорожка - вокал, речь и т.д. Продолжительность видео зависит от длины аудиодорожки. Код пока не опубликован, системные характеристики неизвестны.
Back to Top