IrbisGPT. Қазақ тіліндегі алғашқы нейрондық желі қалай жұмыс істейді

The Tech Telegram арнасындағы тікелей эфирде Армен Атаян қазақ тіліндегі алғашқы нейрондық желі IrbisGPT және болашақтағы жасанды интеллект тәуекелдері туралы айтты. Ең қызықты ойлармен мәтіндік форматта бөлісейік.

Армен Атаян, CEO, Gen2B негізін қалаушы және Irbis.ai жобасының тең негізін қалаушы, @armenlp

Өзім туралы

Мен Gen2B компаниясының негізін қалаушымын. Бұрын командаммен бірге веб-әзірлеме және блокчейнмен айналысып, маркетмейкерлерге арналған қосымшалар мен крипто-сауда платформасын жасадық. Сонымен қатар, мен бизнес-ангел ретінде жеті стартапқа инвестиция жасадым, олардың бесеуі әлі күнге дейін жұмыс істейді. Мен IPO-ға және басқа да биржалық шараларға қатыстым. Қазіргі уақытта Gen2B-ге толықтай назар аударып отырмын.

Irbis AI нейрондық желісі туралы

Бұл негізінен қызықты оқиға. MOST Hub-та Бахыт Ниязов және Павел Коктышевпен бірге жабық контурдағы шешімдердің қажеттілігін талқылап отырғанымыз есімде. Мен тілдік модельдерді қолдану елеулі қауіп төндіретінін айтып, жабық контурға көшу қажеттілігін насихаттадым. Бұл қауіпті және ұлттық қауіпсіздікке қауіп төндіруі мүмкін.

Біреу: «Қазақ тілінде өз ұлттық моделімізді жасай аламыз ба?» — деп сұрады. Менде бірден идеялар мен шешімдер пайда болды, және мен: «Иә, жасай аламыз, бірақ уақыт керек», — деп жауап бердім. Мұны біздің AI бөлімінің басшысымен талқыладым және ол бұл мүмкін екенін, бірақ уақыт алатынын растады.

Осылайша Irbis GPT әзірлемесі басталды. Бізде ресурстар да, деректер де болмады, тек концепция мен тексерілмеген гипотеза болды, ол біздің ойымызша, жұмыс істеуі керек еді. Гипотеза біздің коммерциялық тілдік модельдерді, соның ішінде Kaspi моделін жасау тәжірибемізге негізделді. Мүлдем басқа тілді, әсіресе шектеулі деректермен қазақ тілін үйрету біз үшін нағыз сынақ болды.

Irbis — бұл ашық бастапқы модель және коммерциялық жоба емес. Біздің нейрондық желімізде 7 миллиард параметр бар және ол қазақ тілінде жоғары дәлдікпен тану және жауап беру үшін оқытылған. Біз жауаптардың сапасы мен тілдің танылуын жақсарту үшін әртүрлі әдістерді қолдандық, бұл модельді бірегей және тиімді етеді.

Irbis GPT біздің жол картамызға, roadmap, сәйкес жасалды. Біздің мақсатымыз — қазақ тілінің грамматикасын дұрыс түсінетін және дұрыс сөйлемдер құра алатын модель жасау болды. Бұл негізгі міндет болды, содан кейін біз модельді әртүрлі салаларда оқыттық.

Біз Gemi және LAM, сондай-ақ fine-tune LAM-70 сияқты үлгілерді тестілеу арқылы бірнеше кезеңнен өттік. Біз көптеген итерацияларды жасап, гипотезаларды тексердік, бұл мақсатқа жетуге тиімді жол құруға мүмкіндік берді. Біздің AI бөлімінің басшысы GPT-мен жұмыс істеу тәжірибесінің арқасында үдерісті терең түсініп отырды. Қызықты факт: ол 2020 жылы OpenAI президенті Грег Брокманнан GPT-3-ке тікелей қол жеткізді.

Біз Chinese Lama жасаушыларымен ынтымақтасып, токенайзерді оқыту және модель қабаттарын қайта оқыту әдісін таңдадық. Біз сондай-ақ NVIDIA-дан несие түрінде қолдау алдық.

Біздің мақсатымыз грамматикалық тұрғыдан дұрыс түсіндіруге қол жеткізу болды. Қысқа уақыттағы нәтижелер қанағаттанарлық болды.

Irbis GPT қолданылуы туралы

Irbis GPT-нің қолдану саласы басқа тілдік модельдерден ерекшеленбейді, бірақ оның қазақ тілін түсінуі оны әсіресе пайдалы етеді. Модель орыс және ағылшын тілдерін де түсінеді, бірақ қазақ тілінде грамматикалық тұрғыдан дұрыс жауап береді, бұл оны сезімтал секторлар мен интернетке қолжетімсіз жерде жұмыс істеуге ыңғайлы етеді.

Модель зерттеушілер үшін де қызықты. Шығарылғаннан кейін бірнеше апта ішінде біздің модельдер 35 000-нан астам рет жүктелді, соның ішінде форк және квантизацияланған нұсқалар. Irbis GPT сонымен қатар білім беру платформаларында да қолданылады.

Модельдің негізгі функциясы — кіріс ақпаратты өңдеуді автоматтандыру. Бұл бағытта, әсіресе модельдің контекстпен жұмыс істеуін үйрету бойынша әлі көп жұмыс атқару қажет. Келесі жетілдірілген нұсқада біз осы мүмкіндіктерді жақсартуға назар аударамыз.

Жоспарлар

Біз Irbis GPT-ді дамытып, оның танымдық қабілеттерін жақсартуға, әсіресе бизнес-процестерді автоматтандыру үшін маңызды контекстпен жұмыс істеуге назар аударуды жоспарлап отырмыз. Қазіргі уақытта біз roadmap құрып жатырмыз, ынтымақтастыққа ашықпыз және ірі әлемдік компаниялармен келіссөздер жүргізіп отырмыз. Сондай-ақ, студенттерді жобаға тарту жоспары бар және модель архитектурасы бойынша гипотезаларды тексеруді жалғастырамыз. Біздің болашаққа деген болжамымыз оптимистік.