Новости VLOGGER: новый ИИ Google оживляет людей на фотографиях

NewsMaker

I'm just a script
Премиум
9,341
18
8 Ноя 2022
Компания представила систему для мгновенного создания видео с говорящими людьми.


mvyd3ms722h9qq1dkjrpm0pcu3h1c5za.jpg


Google Для просмотра ссылки Войди или Зарегистрируйся ИИ-модель VLOGGER, которая позволяет генерировать видеоролики с говорящими людьми на основе одного изображения человека и аудиофайла.

Новый метод стал возможен благодаря использованию генеративных диффузионных моделей, что отличает VLOGGER от предыдущих разработок. Метод не требует индивидуального обучения для каждого человека и способен работать без обнаружения и обрезки лиц, генерируя полные изображения, включая лицо и туловище, в различных сценариях.


zkfs92nga00alyqh8dbwwnap1ehkgrto.png


Система VLOGGER работает в два этапа:

  • первый этап принимает в качестве входных данных форму аудиосигнала для создания промежуточных элементов управления движением тела, которые отвечают за взгляд, мимику и позу;
  • второй этап представляет собой временную модель преобразования image-to-image, которая предсказывает дальнейшие движения тела для генерации соответствующих кадров. Чтобы привязать процесс к определенной личности, VLOGGER также использует эталонное изображение человека.

5frhg56fbclhqdn667njj1bfghv5clpx.png


Особое внимание уделено разнообразию и реалистичности генерируемых видео. VLOGGER способен создавать видео с интенсивным движением и высоким уровнем детализации, сохраняя при этом идентичность и временную последовательность. Модель была обучена на новом масштабном наборе данных MENTOR, который включает 2200 часов видео и 800000 личностей, что в 10 раз больше, чем предыдущие наборы данных.

VLOGGER находит применение в ряде областей, включая редактирование видео и создание видео с говорящими людьми на основе одного входного изображения и аудио. Модель может использоваться для редактирования существующих видео, изменяя выражение лица субъекта, например, закрывая рот или глаза, а также для адаптации видео под новые аудиодорожки на разных языках, обеспечивая согласованность движения губ и лица с новым аудио.
 
Источник новости
www.securitylab.ru

Похожие темы