Common Voice добавил таджикский язык для развития разговорного ИИ

Таджикский язык появился на платформе Common Voice, что стало важным этапом на пути к созданию разговорного искусственного интеллекта. Теперь начинается работа над формированием крупнейшего открытого датасета для таджикской речи.

Этот успех стал возможным благодаря переводу интерфейса платформы на таджикский язык. Первоначально проект начинался как личная инициатива, но позже усилия объединились с участниками сообщества. Прорыв был достигнут после презентации на DevFest GDG Khujand, где идея нашла поддержку.

Следующий этап — сбор предложений на таджикском языке для создания обучающего материала. Волонтеры смогут записывать свои голоса, чтобы обучить алгоритмы распознавания речи.

Важно, что проект полностью волонтерский и нацелен на открытость: собранные данные будут доступны всем, включая исследователей, образовательные учреждения и даже коммерческие проекты. Это решение направлено на устранение проблемы приватности данных научных исследований и ускорит процесс разработки алгоритмов для распознавания таджикской речи и синтеза голоса.

Источник: rational_optimist