Команда Google DeepMind выпустила Gemini Omni — новую мультимодальную модель, ориентированную на комплексную генерацию и редактирование видео. Архитектура системы позволяет одновременно обрабатывать визуальные, звуковые и видеореференсы, что дает возможность бесшовно изменять исходный материал через текстовые команды, в результате чего разработчики позиционируют систему как логичное структурное развитие предыдущей архитектуры Veo.
Опубликованная сейчас версия имеет индекс Flash, что определяет ее как первую и относительно легкую модель в новом семействе. В ходе обсуждения архитектуры инженеры сравнивают текущий этап с ранними генеративными пайплайнами, анонсируя скорый выход модели Gemini Omni Pro, которая, по аналогии с развитием инструментов генерации изображений, должна взять на себя роль основного стандарта для сложных задач постпродакшена.
Подобный подход к объединению модальностей указывает на смещение фокуса от прямой генерации пикселей к семантическому пониманию сцены. Модель анализирует таймлайн целиком, учитывая физическую взаимосвязь звука и движения в кадре, что означает снижение зависимости от внешних инструментов композитинга и заметное упрощение процесса внесения локальных правок в готовый материал.
Поделиться:
Документальный сериал Студии Артемия Лебедева о формировании языка дизайна пространства →
Архитектура Claude Code: реверс-инжиниринг AI-агента от Anthropic →