В Netflix разработали технологию реалистичного удаления объектов из видео
Исследователи из Netflix совместно с INSAIT представили новую модель искусственного интеллекта — VOID, Video Object and Interaction Deletion, предназначенную для удаления объектов из видео с учетом их взаимодействия с окружающей средой.
Существующие решения в области video object removal, как правило, справляются с базовой задачей — «закрашивают» объект и восстанавливают фон. Однако такие модели не учитывают физические взаимодействия. Например, если объект сталкивался с другими или влиял на движение сцены, итоговое видео выглядит нереалистично.
VOID решает эту проблему, моделируя так называемые «контрфактические» сценарии — то есть пересчитывает, как развивалась бы сцена, если бы объекта изначально не существовало. Это позволяет корректно изменять движение других объектов, их траектории и последствия взаимодействий.
В основе подхода лежит комбинация vision-language модели и диффузионной генерации. Сначала система определяет области сцены, которые были затронуты удаляемым объектом. Затем диффузионная модель генерирует новую версию видео, в которой сохраняется физическая согласованность происходящего.
Для обучения разработчики создали специальный датасет с синтетическими и реальными сценами, где удаление объекта требует изменения всей логики взаимодействий. Это позволило модели лучше справляться со сложными сценариями, включая столкновения, падения и изменение движения объектов.
По результатам тестирования VOID демонстрирует более высокую реалистичность по сравнению с предыдущими методами, особенно в сценах с динамическими взаимодействиями.
Разработка может найти применение в киноиндустрии, постпродакшене, рекламе и создании цифрового контента, где требуется точное и реалистичное редактирование видео.
Источник: void-model
