Азиатское отделение исследований Microsoft анонсировало новый экспериментальный проект в области искусственного интеллекта VASA-1.
Об этом сообщается на официальном веб-сайте компании.
Этот инновационный инструмент способен в режиме реального времени трансформировать фотографии в реалистичные видеоизображения говорящих людей, используя сочетание фото и аудиофайла. Система VASA-1 обладает возможностью имитации мимики, движений головы и может синхронизировать движение губ с произносимыми фразами или музыкой.
Тем не менее, при детальном просмотре можно заметить некоторую несогласованность движений губ и головы. Исследователи признают потенциальные опасности злоупотребления этой технологией и заявили, что не планируют выпускать продукты для широкой публики или раскрывать технические подробности до тех пор, пока не убедятся в возможности ее безопасного и этичного применения.
Однако они отмечают значительные перспективы использования этой технологии в образовательной сфере, где она может улучшить доступность и коммуникативные возможности людей, испытывающих трудности с общением, а также предложить терапевтическую поддержку через интерактивное общение с AI-аватарами. VASA-1 был обучен на базе данных VoxCeleb2 и демонстрирует отличные результаты на аутентичных и искусственных изображениях лиц.