Google представил Gemini Omni: новая модель превращает фотографии, текст и аудио в редактируемое видео

На Google I/O 2026 компания анонсировала Gemini Omni — мультимодальную систему нового поколения. Она объединяет генерацию видео, понимание голоса и пошаговое редактирование через обычный диалог. 

Разбираемся, что именно умеет модель, чем отличается от Veo и как Google решает проблему дипфейков.

Что такое Gemini Omni

Ее суть: одна модель принимает любой тип данных на входе — текст, изображение, аудио или видео — и выдает на выходе видео, которое можно продолжать редактировать в рамках того же диалога.

Первая публичная модель в линейке — Gemini Omni Flash. Доступна с 19 мая для подписчиков Google AI Plus, Pro и Ultra через приложение Gemini и платформу Google Flow. Пользователи YouTube Shorts и YouTube Create App могут попробовать ее бесплатно с этой же недели.

Как это работает

Gemini Omni Flash генерирует видеоролики с синхронизированным аудио из одного мультимодального запроса. При этом можно комбинировать разные типы входных данных: загрузить фотографию, добавить голосовой комментарий, указать настроение сцены текстом — и модель соберет из этого связное видео.

Ключевая особенность — редактирование через разговор conversational editing. Каждая команда строится на предыдущей, без необходимости начинать заново. 

Примеры из демонстрации Google:

— «сделай скрипку невидимой»
— «поменяй угол камеры на вид из-за плеча скрипача»
— «приглуши свет в комнате»
— «измени угол камеры и добавь снег».

При этом персонажи и объекты сохраняют консистентность от кадра к кадру — это одна из главных технических задач в AI-видеогенерации, с которой раньше модели справлялись нестабильно.

Понимание физики и реального мира

Google отдельно подчеркивает, что Omni обучена на понимании физики реального мира: движение, гравитация, поведение жидкостей, освещение, анатомия. 

В тестах модель генерировала физически достоверные сцены — например, катапульту в замедленной съемке с реалистичной траекторией снаряда и расчетом теней.

Помимо физики, модель использует знания об истории, науке и нарративной логике, чтобы генерируемый контент был контекстуально связным, а не просто визуально красивым.

Цифровые аватары

Gemini Omni поддерживает сохранение идентичности персонажей между сценами — внешность и голос остаются консистентными на протяжении всего видео. 

Google называет это character consistency. Это важно для тех, кто создает контент с повторяющимися героями: модель не «забывает» персонажа от кадра к кадру.

Чем Omni отличается от Veo

Google прямо разграничивает два продукта. Veo — это специализированная модель для генерации видео из текста. Omni — мультимодальная среда для создания и редактирования контента внутри всей экосистемы Google.

Veo создает видео с нуля по текстовому описанию. Omni работает с комбинацией входных данных и позволяет итерировать результат через диалог, не пересобирая запрос заново. Google описывает Omni как объединение Veo, Nano Banana и Gemini в одну систему.

Что не запустили

В первой версии Gemini Omni Flash поддерживает только голосовые референсы в качестве аудиовхода. Другие типы аудиовхода, а также генерация изображений и текста как отдельных форматов вывода, появятся позже — Google обозначил это в официальном анонсе как следующий этап развития модели.

Как Google защищает от дипфейков

Каждое видео, созданное через Gemini Omni, автоматически получает цифровой водяной знак SynthID — невидимый для глаза, но машиночитаемый. Отключить его нельзя: нет ни одной настройки, которая позволяла бы убрать водяной знак.

Google также объявил о расширении поддержки C2PA Content Credentials — открытого стандарта верификации происхождения медиафайлов — в рамках общей политики открытости контента. 

Проверить, создано ли видео с помощью Gemini Omni, можно через приложение Gemini, Gemini в Chrome и Google Search — достаточно загрузить ролик.