ШІ з українським акцентом: що створюють Мінцифра та "Київстар" і навіщо це всім нам

09:00 | Економічна правда

В Україні готуються запустити першу національну велику мовну модель (LLM).
Йдеться не про ще один стартап чи академічний експеримент, а про саме національний проєкт, до якого уряд хоче долучити мільйони українських текстів від книжок до правових документів. У Мінцифрі одразу дали зрозуміти: самостійно держава не потягне, тому потрібен потужний партнер.
Хтось із "технічними м’язами", грошима й розумінням, як працює інфраструктура штучного інтелекту (ШІ). У червні стало відомо, що головним партнером держави у створенні LLM стане "Київстар".
Один із найбільших телеком-операторів країни взявся за завдання, яке раніше в Україні не виконував ніхто.
Компанія пообіцяла не лише зібрати команду й підготувати технічну базу, а й повністю профінансувати перший етап розробки. Це викликало подив навіть у частини ШІ-спільноти.
Чому саме "Київстар"? Чи вистачить йому експертизи, і що саме він буде робити? Для чого це самому бізнесу? Без відповідей залишилися й головні питання, які ставить собі будь-хто, хто живе в країні, де триває велика війна та економічна турбулентність: чи на часі така розробка? І що конкретно отримає від неї звичайна людина – не айтівець, не держслужбовець, а користувач, платник податків, громадянин? Що створюватимуть Мінцифра та "Київстар" Перед міністерством та мобільним оператором стоїть складне завдання: з одного боку, реалізувати те, чого ще ніхто в Україні не робив – створити національну LLM, а з іншого – долучити нашу державу до клубу країн, які вже мають власні ШІ-рішення. Елітарність цього клубу визначається перш за все ресурсами, які потрібні для створення власної LLM.
Йдеться не тільки про фінансову частину, а й конкретних спеціалістів та технічну базу.
Потрібні команди лінгвістів, дата-сайентістів (аналітика даних), DevOps-інженерів (інфраструктурні розробники), експертів з етики ШІ та стратегів обробки даних.
Без такої екосистеми модель ризикує залишитися сирою або непрактичною. Частину людських ресурсів можуть забезпечити наукова спільнота та ІТ-сектор, а фінансову – "Київстар".
Найбільшим викликом залишатиметься створення та підтримка інфраструктури для розгортання вітчизняної LLM. Читайте також: Імовірність захоплення людства штучним інтелектом і перспективи еволюції технології.
Інтерв"ю з науковцем Ще у квітні технічний директор новоствореного ШІ-центру при Мінцифрі Дмитро Овчаренко пояснював: для навчання моделі "з нуля" в Україні бракує обчислювальних потужностей.
Тож у відомстві одразу зробили ставку на інший шлях – використання вже наявних open-source моделей (доступних для вільного використання) і їхнє донавчання на українських даних (fine-tuning).
Це значно менш ресурсомісткий і швидший процес. Для розуміння, навчання "з нуля" можна порівняти з процесом, коли дитину вчать читати, писати й мислити, а fine-tune – коли вона здобуває фахову освіту, наприклад, бухгалтерську чи юридичну. Віцепрем"єр-міністр, міністр цифрової трансформації Михайло Федоров та президент "Київстару" Олександр Комаров підписали меморандум про розробку української LLM Telegram FEDOROV Такий підхід широко використовується як у державних ініціативах, так і в приватному секторі.
Наприклад, українська IT-компанія MacPaw нещодавно запустила ШІ-асистента Eney, якого створили на базі LLaMA 3.2 Instruct, донавчивши для власних потреб. Відтак виникає питання: а яку саме відкриту модель оберуть для національної LLM? Найперше важливо розуміти, що у світі всього кілька десятків компаній розробляють LLM.
Лише обмежена кількість моделей є масштабними, високопродуктивними та конкурентоспроможними на глобальному рівні.
При цьому більшість відомих моделей, як-от від OpenAI або Google, не є відкритими.
Вони доступні лише через API – власний інтерфейс без розкриття архітектури чи ваг. Читайте також: Європейська відповідь ChatGPT: як геополітика дала шанс французькому стартапу Тому вибір для навчання моделей, які є у відкритому доступі, насправді не такий великий.
У світі навіть не набереться й двох десятків компаній, що створюють і публікують власні LLM з відкритим кодом.
Але навіть серед них не всі дозволяють використовувати ці моделі в комерційних продуктах: наприклад, Meta забороняє комерційне застосування без окремої ліцензії. "Теоретично процес зрозумілий: є набір даних, інфраструктура і можна починати процес тонкого налаштування.
Але на практиці – це складе завдання, яке в Україні ще ніхто не реалізовував.
Прогнозувати успіх дуже важко, бо немає аналогів, і немає на кого орієнтуватися", – пояснює CEO DevRain Олександр Краковецький. "Наразі триває первинна фаза досліджень і розробки, за результатами якої буде визначено, яку саме open-source архітектуру оберуть для fine-tune.
Рішення ухвалюватиметься на основі технічних та прикладних критеріїв", – пояснює директор з розробки діджитал-продуктів "Київстар" і CPO у Kyivstar.Tech Михайло Нестор, який курує проєкт зі сторони оператора. Одне можна сказати точно: рішення китайських ШІ-компанії як то DeepSeek AI, не будуть розглядатись.
Принаймні так заявляли у Мінцифри. Навіщо Україні власний ШІ Тренд на створення суверенних ШІ-технологій стає дедалі помітнішим у різних країнах світу.
Мова не лише про лідерів світової економіки, які й так інвестують мільярди у штучний інтелект, а й про держави зі схожим до України підходом, які прагнуть мати власну мовну модель, адаптовану до локальних потреб. У результатах дослідження Українського католицького університету (УКУ) зазначається, що уряди країн бачать у національному ШІ потужний поштовх для розвитку освіти, електронного врядування, медицини, економіки й навіть посилення національної безпеки. Наприклад, Болгарія та Греція працюють над власними LLM: BgGPT та Meltemi.
Їх використовують в освітньому процесі, щоб генерувати завдання, відповідати на запитання й пояснювати складні поняття.
Модель BgGPT вже показала результативність на рівні шкільних іспитів, іноді навіть вищу за ChatGPT та LLaMA. У Швеції, де спостерігається дефіцит робочої сили через старіння населення, створюють GPT-SW3.
Модель має автоматизувати роботу з текстами в держсекторі та компенсувати брак працівників. Також одним з найпопулярніших напрямів є інтеграція ШІ в державні сервіси.
В Албанії працює віртуальний асистент, який автоматизує подання заявок на держпослуги.
У планах – створення національної мовної моделі для перекладу юридичних документів у межах підготовки до вступу в ЄС. За словами співрозмовника ЕП у Мінцифрі, держава дивиться в напрямку покращення надання послуг для громадян і пришвидшення роботи всередині уряду.
Це один із пріоритетів самого міністра Михайла Федорова. Нестор з "Київстару" пояснює, що однією з ключових особливостей вітчизняної LLM має бути глибоке розуміння української мови.
Модель враховуватиме діалекти, семантичні нюанси та термінологічну точність.
Це дозволить застосовувати її в галузях, де потрібна мовна чутливість, зокрема в юриспруденції, медицині чи державному управлінні. І нарешті, важливий момент – цифровий розрив.
ШІ вже стає рушієм економічних змін.
Якщо Україна не матиме власної моделі, вона залежатиме від зовнішніх рішень, які часто погано працюють з нашою мовою та контекстом.
Національний ШІ відкриє доступ до інструменту, який справді розуміє Україну і допоможе бізнесу, освіті та державі не відставати у технологічних перегонах. Як зробити ШІ українцем Аби створити по-справжньому українську мовну модель, технічної інфраструктури недостатньо.
Головне "паливо" для ШІ – це дані, а саме українські дані, яких досі ніхто в таких масштабах не збирав і не впорядковував для тренування мовної моделі. Це завдання взяло на себе Мінцифри.
Відомство координує весь процес створення моделі як у технічний, так і в етичний треки.
Для цього формується три ключові структури: координаційний комітет, технічна рада та етична рада. Перший відповідатиме за загальну стратегію й бачення проєкту.
До нього увійдуть представники Мінцифри, зокрема ШІ-центру, інші держустанови, команда "Київстару" та фахівці з обох рад. Етична рада стежитиме за дотриманням законодавства, норм конфіденційності й етичних стандартів.
А технічна – за архітектурою моделі, її навчанням, підготовкою даних і якістю кінцевого продукту. Щодо самих даних, то в Мінцифрі повідомили ЕП, що для тренування використовуватимуть корпус українськомовних текстів із відкритих джерел.
Розглядаються кілька датасетів, зокрема "Малюк" (113 Гб тексту), NER-UK, UA-GEC та інші.
Втім остаточне рішення ще не ухвалено. Читайте також: Штучний інтелект на службі пропаганди: як московія маніпулює світом Паралельно команда міністерства шукає менш очевидні, але цінні джерела.
Це унікальні українські тексти, які формально відкриті, але розпорошені по архівах бібліотек, держустанов, наукових фондів.
Їх планують зібрати разом за участі університетів, національних бібліотек та інтелектуальних центрів. "Наше завдання – зібрати ці дані.
Саме завдяки йому модель буде справді українською, з живим і точним контекстом, якого немає в іноземних аналогах", – пояснюють у Мінцифрі. За їх словами, це дасть змогу моделі краще розуміти українську мову в усій її повноті – з діалектами, термінами, історичними реаліями.
Вона зможе давати змістовні, точні й мовно вивірені відповіді на питання про війну, історію чи культуру. Окремо готується ініціатива, яка дозволить авторам "задонатити" свої тексти на навчання моделі.
Адже LLM – це вже новий спосіб знайти інформацію.
Коли українці ставитимуть їй питання, це можливість для авторів бути присутніми в цьому загальному контексті. Схожу ідею запропонував і Краковецький з DevRain.
У подкасті "Шілософія" він висловив думку, що до збору даних могли б долучитися й українські медіа.
Але при цьому наголосив: прецедентів передачі даних не було, бо не зрозуміло, як розв’язувати проблему авторських прав. Водночас у Мінцифрі наголошують: жодних персональних або чутливих даних у модель не завантажуватимуть.
Дані проходитимуть очищення й анонімізацію, аби гарантувати безпеку та приватність користувачів. Чому "Київстар" У травні міністр Федоров повідомив, що Україна веде перемовини з великою міжнародною компанією щодо створення національної ШІ-інфраструктури.
Він зазначив, що її мають розгорнути повністю всередині країни з урахуванням воєнних і безпекових ризиків. Із самого початку в Мінцифрі наголошували: проєкт української LLM неможливо реалізувати без партнерів.
І хоча в Україні є відповідні фахівці, проте компаній, що системно працюють із ШІ, поки небагато.
Саме тому в експертному середовищі довгий час припускали: до співпраці буде залучено когось із великих західних гравців. Однак на відкритий запит держави несподівано відгукнувся "Київстар".
Це здивувало багатьох.
"Я думав, що це буде консорціум типу Microsoft, держава, якийсь науковий центр, можливо інфраструктурний партнер.
А поки виглядає так, що просто сказали: "Київстар, зроби".
З одного боку, це простіше: одна компанія, одна відповідальність.
З іншого – питання лишаються", – розповідає власник однієї з компаній ІТ-компаній, який працює у сфері ШІ. Втім, партнер визначений, тому тепер важливо зрозуміти його роль.
За словами представників компанії, "Київстар" виступає операційним виконавцем: саме він створює проєктний офіс, добирає команду, відповідає за інфраструктуру й забезпечує обчислювальні потужності для попереднього етапу навчання моделі. Читайте також: Президент "Київстару" Олександр Комаров про тарифи, скорочення абонентів та розширення бізнесу Фінансування також повністю бере на себе оператор.
З огляду на воєнний час і постійний бюджетний дефіцит це виглядає цілком логічно.
Розраховувати на державні кошти у такому проєкті було б нереалістично.
У "Київстарі" оцінюють загальну вартість розробки до 2 млн дол.
У масштабах ШІ-індустрії – це помірна сума. Михайло Федоров та Олександр Комаров Telegram FEDOROV Кошти планують спрямувати насамперед на оренду інфраструктури та оплату праці.
Власну інфраструктуру наразі не розгортатимуть, оскільки це складний і довгий шлях, який не відповідає темпам проєкту. "Наразі в Україні бракує спеціалізованих GPU-чипів, потрібних для тренування подібної моделі.
Тому ми плануємо використовувати потужності дата-центрів хмарних провайдерів.
Паралельно, звісно, в Україні відбуватиметься поступове нарощування GPU-інфраструктури", – пояснює Нестор. Чому це вигідно самому "Київстару"? Офіційно це спосіб здобути експертизу у сфері ШІ та використовувати модель для власних рішень.
Але є й інші, не менш вагомі фактори. Останні кілька місяців компанія активно заявляє про інтерес до українського технологічного ринку – зокрема, до M&A-угод.
Вона формує міжнародні партнерства як-от нещодавня угода з SpaceX і готується до лістингу: невдовзі частина акцій "Київстару" з’явиться на фондовій біржі.
У такому контексті – участь у створенні національної LLM виглядає не просто як громадянська позиція, а як стратегічна інвестиція в репутацію і вплив. Що отримаємо на виході Першу версію української LLM планують створити протягом дев’яти місяців.
На початковому етапі вона працюватиме у форматі бета-тесту.
"Під час цього періоду державні, наукові, громадські та освітні інституції зможуть завантажити модель і випробувати її можливості.
Після завершення тестування модель буде передана державі й викладена у відкритий доступ", – пояснює Нестор з "Київстару". Після запуску модель планують інтегрувати у державні сервіси, зокрема в "Дію".
Один із перших прикладних продуктів – інструмент для перекладу та аналізу європейського законодавства.
Наразі над ним працює WINWIN AI Center of Excellence.
Такий сервіс може суттєво пришвидшити процес євроінтеграції.
Подібних рішень, які допомагатимуть державі в "операційці", в міністерстві обіцяють ще більше. З появою LLM функціональність "Дії" істотно розшириться.
Вона має перетворитися на універсальне вікно взаємодії громадянина з державою, сервіс, де більшість послуг можна буде отримати за принципом one-stop-shop. У Мінцифрі також очікують, що український бізнес почне створювати власні ШІ-продукти.
"У компаній буде реальна можливість запускати власних чат-ботів і ШІ-агентів для мільйонів користувачів.
Ми хочемо, щоб в Україні з’явився свій умовний ChatGPT.
Але це вже більше історія для ринку, а не для держави", – кажуть у міністерстві. У "Київстарі" додають: бізнес отримає змогу долучитися до бета-тестування.
Для цього потрібно буде подати відповідний запит.
Надалі планується запуск комерційних рішень на базі LLM, які будуть доступні як через API, так і з можливістю локального розгортання на серверах клієнтів. Читайте також: Вплив штучного інтелекту: чому "Нобеля" з фізики та хімії дали психологам і математикам Окреме питання: якою буде українська LLM за обсягом.
Оскільки open-source архітектуру ще не визначено, говорити про точні параметри зарано.
Утім, навряд чи варто очікувати на рішення, які здатні конкурувати з найпотужнішими моделями OpenAI. Водночас за словами Овчаренка з ШІ-центру при Мінцифрі, пріоритет – це моделі у діапазоні 1-16 млрд параметрів.
Такий масштаб дозволяє зберігати баланс між продуктивністю й ресурсними витратами: моделі до 7 млрд можна запускати на одній GPU, а 13-16 млрд – на невеликих кластерах (групу об’єднаних комп’ютерів або серверів). Досвід LLaMA, Gemma та Mistral показує, що правильно натреновані середні моделі можуть показувати конкурентну якість у завданнях класифікації, генерації та розуміння мови, зокрема в локалізованому контексті. "Малі та середні моделі легше запускати, тонко налаштовувати до конкретних задач - для цього вони і створені.
Вони потребують менше ресурсів, але можуть показувати кращу ефективність на спеціалізованому наборі даних або у контексті конкретного завдання", – зазначає Краковецький. Втім, як би там не було, повноцінно визначити план того, як виглядатиме і головне – як працюватиме український суверенний ШІ можна буде тільки після його запуску в маси.

Додати коментар

Користувач:
email:





The markets are fickle,
Responding to news and trends,
Investors hold on tight.

- Fin.Org.UA

Новини

16:30 - Як врегулювати додатковий капітал
16:21 - Фінляндія відкрила справу проти підрядника ЗСУ: мільйони за неякісні бронежилети
15:51 - Італія відкриє майже пів мільйона робочих віз через демографічну кризу
15:40 - На півдні України попит на житло зростає, пропозиція падає: які ціни
15:33 - Україна домовилася з Польщею про збільшення газотранспортних потужностей
15:30 - Курси валют, встановлені НБУ на 02.07.2025
15:10 - "Укрнафта" оновила спецтехніку
15:00 - Туреччина підняла тариф на прохід суден через Босфор і Дарданелли
14:54 - У морському порту Південний тестують Єдине морське вікно
14:43 - Щодо процедури легалізації довідки, яка підтверджує, що нерезидент є резидентом країни, з якою укладено міжнародний договір України про уникнення подвійного оподаткування
14:41 - Чи є платником податку на нерухоме майно, відмінне від земельної ділянки, фізична особа, яка має право власності на нежитлове приміщення як ФОП?
14:39 - За якою формою подається заява іноземної компанії про взяття на облік/зняття з обліку як платника податку на прибуток підприємств зі статусом податкового резидента України?
14:38 - Про надання контролюючому органу копій фіскальних чеків під час проведення фактичної перевірки
14:37 - Електронна черга – дистанційний запис до ЦОПів
14:36 - Щодо сплати військового збору ФОПами – платниками єдиного податку першої та другої груп, податкова адреса яких знаходиться на території бойових дій або на тимчасово окупованих російською федерацією територіях України
14:34 - Що таке електронний фіскальний звітний чек, створений ПРРО?
14:33 - До уваги платників!
14:31 - Як на період дії воєнного стану оподатковуються ПДВ операції з постачання товарів оборонного призначення?
14:30 - Трамп почав продавати парфуми
14:29 - Основні поняття та напрями безбар’єрності
14:26 - Релокація бізнесу – зміна місця обліку: діалог про важливе
14:25 - Знання податкового законодавства – безпечна робота бізнесу: на Дніпропетровщині тривають комунікації податківців з платниками
14:23 - Нові правила визначення МПЗ за земельні ділянки, сучасні формати комунікації з платниками податків
14:22 - Системний діалог податківців з платниками області: робоча поїздка до м. Кривий Ріг
14:21 - Податок на елітні авто: бюджет вже отримав понад 95 млн грн
14:20 - Леся Карнаух: ДПС перевиконала план надходжень за перше півріччя на понад 60,8 млрд гривень
14:10 - Депутати хочуть "легалізувати корупцію" в оборонній сфері — ЦПК
14:01 - ВІДДІЛ КОМУНІКАЦІЙ З ГРОМАДСЬКІСТЮ УПРАВЛІННЯ ІНФОРМАЦІЙНОЇ ВЗАЄМОДІЇ ГУ ДПС У ДНІПРОПЕТРОВСЬКІЙ ОБЛАСТІ (ТЕРИТОРІЯ ОБСЛУГОВУВАННЯ - МІСТО ДНІПРО) ІНФОРМУЄ!
13:55 - Посадовця та підрядника підозрюють у привласненні 1,3 мільйона під час ремонту санаторію
13:28 - ВІДДІЛ КОМУНІКАЦІЙ З ГРОМАДСЬКІСТЮ УПРАВЛІННЯ ІНФОРМАЦІЙНОЇ ВЗАЄМОДІЇ ГУ ДПС У ДНІПРОПЕТРОВСЬКІЙ ОБЛАСТІ (ТЕРИТОРІЯ ОБСЛУГОВУВАННЯ - МІСТО ДНІПРО) ІНФОРМУЄ!


Більше новин

ВалютаКурс
Алжирський динар0.32362
Австралійський долар27.5379
Така0.34055
Канадський долар30.7358
Юань Женьміньбі5.839
Чеська крона2.0019
Данська крона6.6228
Гонконгівський долар5.3273
Форинт0.123743
Індійська рупія0.48895
Рупія0.0025811
Новий ізраїльський шекель12.4103
Єна0.29291
Теньге0.080638
Вона0.030902
Ліванський фунт0.000467
Малайзійський ринггіт9.9652
Мексиканське песо2.2388
Молдовський лей2.4752
Новозеландський долар25.564
Норвезька крона4.1715
Саудівський ріял11.1509
Сінгапурський долар32.9051
Донг0.0016003
Ренд2.3777
Шведська крона4.4294
Швейцарський франк53.0363
Бат1.29075
Дирхам ОАЕ11.3855
Туніський динар14.4984
Єгипетський фунт0.8455
Фунт стерлінгів57.5389
Долар США41.8191
Сербський динар0.42174
Азербайджанський манат24.5951
Румунський лей9.7387
Турецька ліра1.0491
СПЗ (спеціальні права запозичення)57.6578
Болгарський лев25.2622
Євро49.4093
Ларі15.3662
Злотий11.6436
Золото140081.86
Срібло1523.65
Платина56694.99
Паладій47075.76

Курси валют, встановлені НБУ на 02.07.2025