Сооснователь Kettik Group Бакдаулет Бекжанов — о том, как ИИ меняет производство контента
Недавно в нашем Telegram-канале The Tech прошел новый формат эфира, где наш спикер, Бакдаулет Бекжанов, подробно разобрал ИИ-инструмент Flux Kontext, чем отличается от Closed Source решений, и почему именно Open Source модели сегодня задают темп в развитии генеративного ИИ. Запись можно послушать по ссылке.
Бакдаулет Бекжанов, сооснователь Kettik Group, Instagram
О себе
Я занимаюсь созданием контента с использованием искусственного интеллекта. У меня медиабэкграунд — я сооснователь компании Kettik Group, ранее известной как «Давай сходим». Последние три года изучаю генеративный ИИ и применяю его для создания контента. Также делюсь знаниями с коллегами и другими компаниями — рассказываю, как работает ИИ и как эффективно использовать его в производстве контента.
О продукте и технологии
Технологии уже стали частью повседневной жизни — нас окружают ChatGPT, Gemini и другие ИИ-инструменты. Если воспринимать ИИ как еще один разум, с которым можно общаться как с человеком, становится проще и понятнее, как с ним взаимодействовать.
Генеративный ИИ — одна из ключевых инноваций последних лет. Он дал старт волне новых стартапов и решений, активно развивающихся в этой сфере.
О Closed Source
Среди Closed Source технологий присутствуют графические модели. В основном мы будем фокусироваться именно на графических и видеомоделях. Текстовые модели в текущем контексте нас особо не интересуют. В качестве примера графических Closed Source моделей можно привести компанию Midjourney, которая многим знакома. Также существуют видеомодели с закрытым кодом — одна из самых популярных на сегодняшний день — это Sora от компании OpenAI. Все эти решения относятся к Closed Source. Языковые модели, где на вход подается текст и на выходе тоже формируется текст — это отдельный тип, который мы пока не рассматриваем. Аудиомодели также в текущем обсуждении затрагиваться не будут.
О Open Source
Open Source технологии начали стремительно развиваться и, если посмотреть в исторической перспективе, в ряде случаев демонстрировали даже более значительный прогресс, чем решения Closed Source-компаний — таких, как, например, DALL·E 3. Яркий пример — компания Stable Diffusion, совершившая настоящий прорыв и добившаяся высокого уровня контролируемости результатов генерации.
Stable Diffusion, как Open Source проект, доказал эффективность открытого подхода. Позже от нее отделилась команда, запустившая проект под названием Flux, разработанный Black Forest Labs. Широкой аудитории он известен как Flux — модель, обеспечившая крайне реалистичную генерацию изображений. Это был поворотный момент, когда стало сложно отличить созданное ИИ от реального фото.
Когда была представлена версия Flux 1.1 Pro, стало очевидно, что мы вступаем в новую эру визуальных технологий. Совсем недавно компания выпустила новую модель — Flux Kontext. Главное ее отличие — поддержка так называемого «омни-редактирования», когда редактирование изображения осуществляется с помощью текстовых инструкций. Встроенная языковая модель понимает команды и позволяет вносить изменения внутри изображения, обеспечивая высокий уровень интерактивности и гибкости.
Flux Kontext стал серьезным конкурентом для мультимодальных Closed Source решений, таких как GPT-4 от OpenAI, в котором также появилась возможность генерации и редактирования изображений. Однако OpenAI пока не удалось сохранить идентичность объекта между сессиями редактирования — стабильность и постоянство образа терялись. Flux Kontext, напротив, обеспечивает высокую степень консистентности, что особенно важно при создании персонажей, брендов или рекламных визуалов, где недопустимы визуальные расхождения.
К примеру, можно представить, что у нас есть персонаж — чайка в VR-очках. С помощью Flux Kontext мы можем поместить ее в любой контекст. Мы управляем положением объекта, его эмоциями и окружением — это решает одну из ключевых задач генерации — контроль образа и его постоянства в разных сценах.
Если вы хотите опробовать Flux самостоятельно, стоит учитывать, что модель ресурсоемкая. Желательно иметь как минимум видеокарту серии RTX 40, иначе процесс будет слишком долгим. Даже при наличии мощного оборудования, многие предпочитают использовать облачные решения из соображений времени.
Для тех, кто хочет глубже разобраться в Open Source-технологиях, можно воспользоваться интерфейсом ComfyUI. Это система на основе нодов, позволяющая визуально настраивать и объединять генеративные модели, создавать пайплайны для генерации, редактирования и постобработки изображений. ComfyUI позволяет использовать Flux и другие модели в едином рабочем пространстве.
Также доступен сервис Freepik Generate Images, где можно запускать графические модели прямо в браузере. Система использует внутреннюю валюту, эквивалентную расходу облачных ресурсов, и позволяет экспериментировать с разными вариантами генерации. Омни-редактирование также доступно здесь, что дает возможность задавать изменения на русском языке, с поддержкой английского в качестве основной логики обработки.
О применении
Если говорить о профессиях, то любые специалисты, занятые в сфере создания контента, несомненно, найдут применение этим технологиям. Возможности генеративных моделей позволяют создавать впечатляющие визуальные эффекты, персонализированные образы, подбирать стили одежды, а также использовать аватары для озвучивания и визуализации персонажей. Например, я лично создал версию, где выступаю в роли ведущего новостей и рассказываю о своем обучающем курсе. Это лишь один из вариантов использования.
При этом сфера применения таких решений выходит далеко за рамки онлайн-пространства. Инструменты уже активно используются в телевидении, видеопродакшене и киноиндустрии. В моем случае, технология помогает в создании полнометражного фильма на базе ИИ — о проекте пока рано говорить подробно, но это может быть один из первых фильмов, полностью сгенерированных с применением искусственного интеллекта.
Flux Kontext — лишь один из инструментов, который активно применяется в рамках более широкого процесса. В производстве контента важно уметь комбинировать и использовать множество решений: от генерации образов до их обработки и финального монтажа. На Flux Context все не заканчивается — это часть технологического стека.
На рынке уже существует сотни, если не тысячи, моделей генерации изображений. Среди лучших на данный момент можно выделить Imagine 4, Midjourney, Flux, а также генеративные возможности ChatGPT на базе Sora. Эти инструменты находят активное применение у SMM-специалистов, маркетологов, таргетологов, креаторов, видеографов, режиссеров, рекламных агентств и других специалистов, работающих с визуальным контентом.