Cohere выпустила новую модель распознавания речи — Transcribe
Компания Cohere анонсировала новую модель автоматического распознавания речи — Transcribe, которая уже доступна в открытом доступе. Разработка позиционируется как новое состояние отрасли и ориентирована на использование в корпоративных AI-решениях.
Transcribe обучена «с нуля» с акцентом на снижение уровня ошибок и готовность к практическому применению. В отличие от многих исследовательских моделей, она изначально создавалась как инструмент для повседневных задач — от транскрибации встреч до аналитики речи и работы голосовых ассистентов.
Модель поддерживает 14 языков, включая английский, французский, немецкий, испанский, китайский, японский и арабский. Она построена на архитектуре Conformer с энкодером для обработки звука и облегченным Transformer-декодером для генерации текста.
По данным компании, Transcribe занимает первое место по точности в рейтинге Open ASR Leaderboard на платформе Hugging Face, показывая средний уровень ошибок всего 5,42%. Это выше результатов таких решений, как Whisper Large v3 и других моделей распознавания речи.
Кроме высокой точности, разработка демонстрирует хорошую производительность: она способна быстро обрабатывать аудио при умеренных вычислительных ресурсах, что делает ее пригодной для локального запуска и использования в бизнес-среде.
Transcribe уже доступна для загрузки и может использоваться как локально, так и через API. Также модель интегрируется с платформой North, где в будущем станет частью более широкой системы анализа и обработки речи для корпоративных клиентов.
В Cohere отмечают, что запуск Transcribe — это первый шаг к созданию полноценных решений в области «речевого интеллекта», которые смогут обрабатывать и анализировать голосовые данные в реальном времени.
Источник: cohere
