OpenAI представила Jalapeno — первый чип для запуска ИИ-моделей

openai broadcom jalapeno inference chip image scaled

OpenAI вместе с Broadcom представила Jalapeno — первый собственный чип компании. Это не процессор для обучения моделей, а ускоритель для их запуска. OpenAI впервые спускается на уровень железа: теперь она делает не только ИИ и продукты на его основе, но и кремний под них. Рассмотрим, что это за чип и почему это важно.

Зачем OpenAI собственный чип

У любой ИИ-модели есть две стадии работы. Сначала ее обучают — это дорого и долго, для этого нужны мощные универсальные процессоры. А потом обученную модель запускают, чтобы она отвечала на запросы пользователей — это называется инференс. Именно инференс происходит каждый раз, когда вы пишете что-то в ChatGPT.

Jalapeno сделан именно под вторую задачу — под запуск уже готовых моделей. Это первый Intelligence Processor OpenAI и первый ИИ-ускоритель в вычислительной платформе, которую компания строит вместе с Broadcom сразу на несколько поколений вперед.

OpenAI и так разрабатывает модели и продукты, а теперь берет под контроль и инфраструктуру под ними — архитектуру чипа, память, сети, системы запуска. Когда компания управляет всем стеком целиком, каждый слой можно затачивать под одну цель: делать модели быстрее, надежнее и дешевле.

Что такое Jalapeno

Это чип, спроектированный с нуля под современный инференс LLM, а не переделанный из универсального ускорителя под старые задачи. OpenAI разрабатывала его, опираясь на то, как реально работают ее собственные системы — ChatGPT, Codex, API и будущие агентные продукты. При этом чип сделан с расчетом на работу с любыми языковыми моделями, не только своими.

Сам чип OpenAI спроектировала самостоятельно, а партнеры помогли довести его до производства: Broadcom отвечает за реализацию кремния и сетевые технологии, в том числе сетевые чипы Tomahawk, Celestica — за платы, стойки и системную сборку.

Разработка за девять месяцев

Самое показательное в этой истории — сроки. Путь от первоначального дизайна до tape-out, то есть готовности к производству, занял всего девять месяцев. В OpenAI считают, что это, возможно, самый быстрый цикл разработки ASIC-чипа за всю историю высокопроизводительных полупроводников — где обычно счет идет на годы.

Ускорить разработку помогли сами модели OpenAI. Их использовали на части этапов проектирования и оптимизации. То есть модели, которые компания отдает пользователям, теперь помогают строить инфраструктуру для запуска следующих моделей.

Что уже работает

Инженерные образцы Jalapeno уже выполняют реальные ML-нагрузки в лаборатории — на целевых производственных частоте и мощности. Среди запущенных моделей — GPT-5.3-Codex-Spark.

По ранним тестам чип обеспечит производительность на ватт «существенно выше» текущих передовых решений. Финальную производительность в OpenAI еще измеряют, а подробный технический отчет обещают опубликовать в ближайшие месяцы. 

Технически выигрыш объясняют тем, что архитектура уменьшает объем перемещаемых данных и балансирует вычисления, память и сеть — за счет этого реальная загрузка железа оказывается близка к теоретическому пределу.

Зачем это нужно

Инференс — этап, на котором ИИ непосредственно взаимодействует с пользователями. Поэтому улучшения в стоимости, скорости и надежности на этом уровне отражаются на конечных продуктах: ответ ChatGPT приходит быстрее, задача в Codex выполняет больше шагов с меньшим ожиданием, продукт на базе API дешевле в разработке, а доступ к сервисам остается стабильным в часы пиковой нагрузки.

В OpenAI описывают это как замкнутый цикл: более совершенная инфраструктура повышает эффективность вычислений, эффективность дает более качественное обучение и запуск моделей, сильные модели становятся основой для лучших продуктов, а рост использования и выручки позволяет реинвестировать в следующее поколение инфраструктуры.