RL-среды: новый тренд Кремниевой долины и миллиардные инвестиции

Много лет подряд руководители Big Tech рисуют картины будущего, где ИИ-агенты могут самостоятельно пользоваться программами, чтобы выполнять задачи за людей. Но если попробовать современных потребительских агентов — будь то ChatGPT Agent от OpenAI или Comet от Perplexity — становится ясно, что технология пока сильно ограничена. Чтобы сделать агентов более надежными, нужны новые методы обучения, которые индустрия только начинает осваивать.

Один из таких методов — создание симулированных рабочих пространств, где агенты тренируются выполнять многошаговые задачи. Эти системы называются средами обучения с подкреплением — reinforcement learning, RL. Подобно тому, как размеченные датасеты стали основой предыдущей волны ИИ, RL-среды постепенно превращаются в критический элемент развития агентов.

Ведущие ИИ-лаборатории все активнее ищут RL-среды, а стартапов, готовых их поставлять, сейчас в избытке.

Дженнифер Ли, генеральный партнер Andreessen Horowitz
Все крупные ИИ-лабы создают RL-среды внутри компаний. Но, как вы понимаете, создание таких датасетов сложно, поэтому лаборатории также рассматривают сторонних разработчиков, которые могут делать качественные среды и оценки. Все следят за этим направлением.

Рост интереса породил новую волну хорошо финансируемых стартапов, таких как Mechanize и Prime Intellect, которые стремятся стать лидерами сегмента. Между тем крупные компании по разметке данных вроде Mercor и Surge тоже вкладываются в RL-среды, чтобы успеть за сдвигом индустрии от статичных датасетов к интерактивным симуляциям. Anthropic рассматривает возможность потратить более $1 миллиарда на разработку RL-сред в течение следующего года.

Инвесторы и основатели надеются, что одна из этих компаний станет «Scale AI для сред» — аналогом 29-миллиардного гиганта разметки данных, сыгравшего ключевую роль в эпоху чат-ботов.

Что такое RL-среда

Это тренировочная площадка, где агент учится действовать в симуляции реального софта.

Например, среда может симулировать браузер Chrome и ставить задачу агенту — купить носки на Amazon. Агент получает оценку за выполнение и сигнал вознаграждения, если успешно справляется.

Хотя задача звучит просто, ошибок масса: агент может запутаться в выпадающих меню или заказать слишком много носков. Разработчики не могут предсказать все сбои, поэтому сама среда должна быть достаточно гибкой, чтобы фиксировать непредсказуемое поведение и при этом выдавать полезную обратную связь. Это делает их куда более сложными, чем статичные датасеты.

Некоторые среды сложные: позволяют использовать инструменты, интернет или разные приложения. Другие — узкоспециализированные, например для обучения работе с корпоративным софтом.

Методика не нова: еще в 2016 году OpenAI создала RL gyms, а DeepMind тогда же обучала AlphaGo, победившего чемпиона мира в го, именно с помощью RL. Отличие сегодняшнего подхода — в том, что среды теперь используют для тренировки универсальных агентов на базе трансформеров, а не узких специализированных моделей.

Конкуренция на рынке

Компании по разметке данных — Scale AI, Surge и Mercor — стараются встроиться в новый тренд. У них больше ресурсов, чем у большинства стартапов, и налаженные связи с ИИ-лабами.

CEO Surge Эдвин Чен видит «существенный рост спроса» на RL-среды. Surge, заработавшая $1,2 миллиарда в прошлом году на сотрудничестве с OpenAI, Google, Anthropic и Meta, создала новое подразделение, которое занимается исключительно RL-средами.

Рядом с Surge идет Mercor — стартап стоимостью $10 миллиардов, который тоже работает с OpenAI, Meta и Anthropic. Компания позиционирует себя как поставщика RL-сред для специализированных сфер вроде программирования, здравоохранения и права.

Scale AI, ранее доминировавшая в разметке данных, потеряла позиции после того, как Meta вложила $14 миллиарда и переманила ее CEO. Google и OpenAI перестали работать с Scale, но компания тоже делает ставку на среды.

Среди новичков выделяется Mechanize, основанная всего полгода назад с амбициозной целью «автоматизировать все профессии». Пока они сосредоточены на RL-средах для агентов-кодеров, предлагая инженерам зарплаты до $500 000 и уже сотрудничая с Anthropic.

Другой игрок — Prime Intellect, поддержанный Андреем Карпатым и фондами Founders Fund и Menlo Ventures. Компания позиционирует себя как «Hugging Face для RL-сред», создавая открытый хаб и предлагая разработчикам вычислительные мощности.

Перспективы и риски

Обучение агентов в RL-средах гораздо дороже, чем в предыдущих подходах, и дает почву для злоупотреблений. Агенты иногда находят способ «обмануть систему вознаграждений», не выполняя задачу честно.

Некоторые эксперты скептичны:

Росс Тейлор, бывший руководитель исследований Meta, ныне сооснователь General Reasoning
Даже лучшие доступные среды требуют серьезной доработки.

Андрей Карпаты, инвестор Prime Intellect
Я верю в среды и агентные взаимодействия, но скептически отношусь именно к RL.

Вопрос остается открытым: смогут ли RL-среды остать следующим двигателем прогресса ИИ?

Источник: TechCrunch