Google представил Gemini Omni: новая модель превращает фотографии, текст и аудио в редактируемое видео
На Google I/O 2026 компания анонсировала Gemini Omni — мультимодальную систему нового поколения. Она объединяет генерацию видео, понимание голоса и пошаговое редактирование через обычный диалог.
Разбираемся, что именно умеет модель, чем отличается от Veo и как Google решает проблему дипфейков.
Что такое Gemini Omni
Ее суть: одна модель принимает любой тип данных на входе — текст, изображение, аудио или видео — и выдает на выходе видео, которое можно продолжать редактировать в рамках того же диалога.
Первая публичная модель в линейке — Gemini Omni Flash. Доступна с 19 мая для подписчиков Google AI Plus, Pro и Ultra через приложение Gemini и платформу Google Flow. Пользователи YouTube Shorts и YouTube Create App могут попробовать ее бесплатно с этой же недели.
Как это работает
Gemini Omni Flash генерирует видеоролики с синхронизированным аудио из одного мультимодального запроса. При этом можно комбинировать разные типы входных данных: загрузить фотографию, добавить голосовой комментарий, указать настроение сцены текстом — и модель соберет из этого связное видео.
Ключевая особенность — редактирование через разговор conversational editing. Каждая команда строится на предыдущей, без необходимости начинать заново.
Примеры из демонстрации Google:
— «сделай скрипку невидимой»
— «поменяй угол камеры на вид из-за плеча скрипача»
— «приглуши свет в комнате»
— «измени угол камеры и добавь снег».
При этом персонажи и объекты сохраняют консистентность от кадра к кадру — это одна из главных технических задач в AI-видеогенерации, с которой раньше модели справлялись нестабильно.
Понимание физики и реального мира
Google отдельно подчеркивает, что Omni обучена на понимании физики реального мира: движение, гравитация, поведение жидкостей, освещение, анатомия.
В тестах модель генерировала физически достоверные сцены — например, катапульту в замедленной съемке с реалистичной траекторией снаряда и расчетом теней.
Помимо физики, модель использует знания об истории, науке и нарративной логике, чтобы генерируемый контент был контекстуально связным, а не просто визуально красивым.
Цифровые аватары
Gemini Omni поддерживает сохранение идентичности персонажей между сценами — внешность и голос остаются консистентными на протяжении всего видео.
Google называет это character consistency. Это важно для тех, кто создает контент с повторяющимися героями: модель не «забывает» персонажа от кадра к кадру.
Чем Omni отличается от Veo
Google прямо разграничивает два продукта. Veo — это специализированная модель для генерации видео из текста. Omni — мультимодальная среда для создания и редактирования контента внутри всей экосистемы Google.
Veo создает видео с нуля по текстовому описанию. Omni работает с комбинацией входных данных и позволяет итерировать результат через диалог, не пересобирая запрос заново. Google описывает Omni как объединение Veo, Nano Banana и Gemini в одну систему.
Что не запустили
В первой версии Gemini Omni Flash поддерживает только голосовые референсы в качестве аудиовхода. Другие типы аудиовхода, а также генерация изображений и текста как отдельных форматов вывода, появятся позже — Google обозначил это в официальном анонсе как следующий этап развития модели.
Как Google защищает от дипфейков
Каждое видео, созданное через Gemini Omni, автоматически получает цифровой водяной знак SynthID — невидимый для глаза, но машиночитаемый. Отключить его нельзя: нет ни одной настройки, которая позволяла бы убрать водяной знак.
Google также объявил о расширении поддержки C2PA Content Credentials — открытого стандарта верификации происхождения медиафайлов — в рамках общей политики открытости контента.
Проверить, создано ли видео с помощью Gemini Omni, можно через приложение Gemini, Gemini в Chrome и Google Search — достаточно загрузить ролик.
