ШІ з українським акцентом: що створюють Мінцифра та "Київстар" і навіщо це всім нам
09:00 | Економічна правда
В Україні готуються запустити першу національну велику мовну модель (LLM).
Йдеться не про ще один стартап чи академічний експеримент, а про саме національний проєкт, до якого уряд хоче долучити мільйони українських текстів від книжок до правових документів.
У Мінцифрі одразу дали зрозуміти: самостійно держава не потягне, тому потрібен потужний партнер.
Хтось із "технічними м’язами", грошима й розумінням, як працює інфраструктура штучного інтелекту (ШІ).
У червні стало відомо, що головним партнером держави у створенні LLM стане "Київстар".
Один із найбільших телеком-операторів країни взявся за завдання, яке раніше в Україні не виконував ніхто.
Компанія пообіцяла не лише зібрати команду й підготувати технічну базу, а й повністю профінансувати перший етап розробки.
Це викликало подив навіть у частини ШІ-спільноти.
Чому саме "Київстар"? Чи вистачить йому експертизи, і що саме він буде робити? Для чого це самому бізнесу?
Без відповідей залишилися й головні питання, які ставить собі будь-хто, хто живе в країні, де триває велика війна та економічна турбулентність: чи на часі така розробка? І що конкретно отримає від неї звичайна людина – не айтівець, не держслужбовець, а користувач, платник податків, громадянин?
Що створюватимуть Мінцифра та "Київстар"
Перед міністерством та мобільним оператором стоїть складне завдання: з одного боку, реалізувати те, чого ще ніхто в Україні не робив – створити національну LLM, а з іншого – долучити нашу державу до клубу країн, які вже мають власні ШІ-рішення.
Елітарність цього клубу визначається перш за все ресурсами, які потрібні для створення власної LLM.
Йдеться не тільки про фінансову частину, а й конкретних спеціалістів та технічну базу.
Потрібні команди лінгвістів, дата-сайентістів (аналітика даних), DevOps-інженерів (інфраструктурні розробники), експертів з етики ШІ та стратегів обробки даних.
Без такої екосистеми модель ризикує залишитися сирою або непрактичною.
Частину людських ресурсів можуть забезпечити наукова спільнота та ІТ-сектор, а фінансову – "Київстар".
Найбільшим викликом залишатиметься створення та підтримка інфраструктури для розгортання вітчизняної LLM.
Читайте також:
Імовірність захоплення людства штучним інтелектом і перспективи еволюції технології.
Інтерв"ю з науковцем
Ще у квітні технічний директор новоствореного ШІ-центру при Мінцифрі Дмитро Овчаренко пояснював: для навчання моделі "з нуля" в Україні бракує обчислювальних потужностей.
Тож у відомстві одразу зробили ставку на інший шлях – використання вже наявних open-source моделей (доступних для вільного використання) і їхнє донавчання на українських даних (fine-tuning).
Це значно менш ресурсомісткий і швидший процес.
Для розуміння, навчання "з нуля" можна порівняти з процесом, коли дитину вчать читати, писати й мислити, а fine-tune – коли вона здобуває фахову освіту, наприклад, бухгалтерську чи юридичну.
Віцепрем"єр-міністр, міністр цифрової трансформації Михайло Федоров та президент "Київстару" Олександр Комаров підписали меморандум про розробку української LLM
Telegram FEDOROV
Такий підхід широко використовується як у державних ініціативах, так і в приватному секторі.
Наприклад, українська IT-компанія MacPaw нещодавно запустила ШІ-асистента Eney, якого створили на базі LLaMA 3.2 Instruct, донавчивши для власних потреб.
Відтак виникає питання: а яку саме відкриту модель оберуть для національної LLM? Найперше важливо розуміти, що у світі всього кілька десятків компаній розробляють LLM.
Лише обмежена кількість моделей є масштабними, високопродуктивними та конкурентоспроможними на глобальному рівні.
При цьому більшість відомих моделей, як-от від OpenAI або Google, не є відкритими.
Вони доступні лише через API – власний інтерфейс без розкриття архітектури чи ваг.
Читайте також:
Європейська відповідь ChatGPT: як геополітика дала шанс французькому стартапу
Тому вибір для навчання моделей, які є у відкритому доступі, насправді не такий великий.
У світі навіть не набереться й двох десятків компаній, що створюють і публікують власні LLM з відкритим кодом.
Але навіть серед них не всі дозволяють використовувати ці моделі в комерційних продуктах: наприклад, Meta забороняє комерційне застосування без окремої ліцензії.
"Теоретично процес зрозумілий: є набір даних, інфраструктура і можна починати процес тонкого налаштування.
Але на практиці – це складе завдання, яке в Україні ще ніхто не реалізовував.
Прогнозувати успіх дуже важко, бо немає аналогів, і немає на кого орієнтуватися", – пояснює CEO DevRain Олександр Краковецький.
"Наразі триває первинна фаза досліджень і розробки, за результатами якої буде визначено, яку саме open-source архітектуру оберуть для fine-tune.
Рішення ухвалюватиметься на основі технічних та прикладних критеріїв", – пояснює директор з розробки діджитал-продуктів "Київстар" і CPO у Kyivstar.Tech Михайло Нестор, який курує проєкт зі сторони оператора.
Одне можна сказати точно: рішення китайських ШІ-компанії як то DeepSeek AI, не будуть розглядатись.
Принаймні так заявляли у Мінцифри.
Навіщо Україні власний ШІ
Тренд на створення суверенних ШІ-технологій стає дедалі помітнішим у різних країнах світу.
Мова не лише про лідерів світової економіки, які й так інвестують мільярди у штучний інтелект, а й про держави зі схожим до України підходом, які прагнуть мати власну мовну модель, адаптовану до локальних потреб.
У результатах дослідження Українського католицького університету (УКУ) зазначається, що уряди країн бачать у національному ШІ потужний поштовх для розвитку освіти, електронного врядування, медицини, економіки й навіть посилення національної безпеки.
Наприклад, Болгарія та Греція працюють над власними LLM: BgGPT та Meltemi.
Їх використовують в освітньому процесі, щоб генерувати завдання, відповідати на запитання й пояснювати складні поняття.
Модель BgGPT вже показала результативність на рівні шкільних іспитів, іноді навіть вищу за ChatGPT та LLaMA.
У Швеції, де спостерігається дефіцит робочої сили через старіння населення, створюють GPT-SW3.
Модель має автоматизувати роботу з текстами в держсекторі та компенсувати брак працівників.
Також одним з найпопулярніших напрямів є інтеграція ШІ в державні сервіси.
В Албанії працює віртуальний асистент, який автоматизує подання заявок на держпослуги.
У планах – створення національної мовної моделі для перекладу юридичних документів у межах підготовки до вступу в ЄС.
За словами співрозмовника ЕП у Мінцифрі, держава дивиться в напрямку покращення надання послуг для громадян і пришвидшення роботи всередині уряду.
Це один із пріоритетів самого міністра Михайла Федорова.
Нестор з "Київстару" пояснює, що однією з ключових особливостей вітчизняної LLM має бути глибоке розуміння української мови.
Модель враховуватиме діалекти, семантичні нюанси та термінологічну точність.
Це дозволить застосовувати її в галузях, де потрібна мовна чутливість, зокрема в юриспруденції, медицині чи державному управлінні.
І нарешті, важливий момент – цифровий розрив.
ШІ вже стає рушієм економічних змін.
Якщо Україна не матиме власної моделі, вона залежатиме від зовнішніх рішень, які часто погано працюють з нашою мовою та контекстом.
Національний ШІ відкриє доступ до інструменту, який справді розуміє Україну і допоможе бізнесу, освіті та державі не відставати у технологічних перегонах.
Як зробити ШІ українцем
Аби створити по-справжньому українську мовну модель, технічної інфраструктури недостатньо.
Головне "паливо" для ШІ – це дані, а саме українські дані, яких досі ніхто в таких масштабах не збирав і не впорядковував для тренування мовної моделі.
Це завдання взяло на себе Мінцифри.
Відомство координує весь процес створення моделі як у технічний, так і в етичний треки.
Для цього формується три ключові структури: координаційний комітет, технічна рада та етична рада.
Перший відповідатиме за загальну стратегію й бачення проєкту.
До нього увійдуть представники Мінцифри, зокрема ШІ-центру, інші держустанови, команда "Київстару" та фахівці з обох рад.
Етична рада стежитиме за дотриманням законодавства, норм конфіденційності й етичних стандартів.
А технічна – за архітектурою моделі, її навчанням, підготовкою даних і якістю кінцевого продукту.
Щодо самих даних, то в Мінцифрі повідомили ЕП, що для тренування використовуватимуть корпус українськомовних текстів із відкритих джерел.
Розглядаються кілька датасетів, зокрема "Малюк" (113 Гб тексту), NER-UK, UA-GEC та інші.
Втім остаточне рішення ще не ухвалено.
Читайте також:
Штучний інтелект на службі пропаганди: як московія маніпулює світом
Паралельно команда міністерства шукає менш очевидні, але цінні джерела.
Це унікальні українські тексти, які формально відкриті, але розпорошені по архівах бібліотек, держустанов, наукових фондів.
Їх планують зібрати разом за участі університетів, національних бібліотек та інтелектуальних центрів.
"Наше завдання – зібрати ці дані.
Саме завдяки йому модель буде справді українською, з живим і точним контекстом, якого немає в іноземних аналогах", – пояснюють у Мінцифрі.
За їх словами, це дасть змогу моделі краще розуміти українську мову в усій її повноті – з діалектами, термінами, історичними реаліями.
Вона зможе давати змістовні, точні й мовно вивірені відповіді на питання про війну, історію чи культуру.
Окремо готується ініціатива, яка дозволить авторам "задонатити" свої тексти на навчання моделі.
Адже LLM – це вже новий спосіб знайти інформацію.
Коли українці ставитимуть їй питання, це можливість для авторів бути присутніми в цьому загальному контексті.
Схожу ідею запропонував і Краковецький з DevRain.
У подкасті "Шілософія" він висловив думку, що до збору даних могли б долучитися й українські медіа.
Але при цьому наголосив: прецедентів передачі даних не було, бо не зрозуміло, як розв’язувати проблему авторських прав.
Водночас у Мінцифрі наголошують: жодних персональних або чутливих даних у модель не завантажуватимуть.
Дані проходитимуть очищення й анонімізацію, аби гарантувати безпеку та приватність користувачів.
Чому "Київстар"
У травні міністр Федоров повідомив, що Україна веде перемовини з великою міжнародною компанією щодо створення національної ШІ-інфраструктури.
Він зазначив, що її мають розгорнути повністю всередині країни з урахуванням воєнних і безпекових ризиків.
Із самого початку в Мінцифрі наголошували: проєкт української LLM неможливо реалізувати без партнерів.
І хоча в Україні є відповідні фахівці, проте компаній, що системно працюють із ШІ, поки небагато.
Саме тому в експертному середовищі довгий час припускали: до співпраці буде залучено когось із великих західних гравців.
Однак на відкритий запит держави несподівано відгукнувся "Київстар".
Це здивувало багатьох.
"Я думав, що це буде консорціум типу Microsoft, держава, якийсь науковий центр, можливо інфраструктурний партнер.
А поки виглядає так, що просто сказали: "Київстар, зроби".
З одного боку, це простіше: одна компанія, одна відповідальність.
З іншого – питання лишаються", – розповідає власник однієї з компаній ІТ-компаній, який працює у сфері ШІ.
Втім, партнер визначений, тому тепер важливо зрозуміти його роль.
За словами представників компанії, "Київстар" виступає операційним виконавцем: саме він створює проєктний офіс, добирає команду, відповідає за інфраструктуру й забезпечує обчислювальні потужності для попереднього етапу навчання моделі.
Читайте також:
Президент "Київстару" Олександр Комаров про тарифи, скорочення абонентів та розширення бізнесу
Фінансування також повністю бере на себе оператор.
З огляду на воєнний час і постійний бюджетний дефіцит це виглядає цілком логічно.
Розраховувати на державні кошти у такому проєкті було б нереалістично.
У "Київстарі" оцінюють загальну вартість розробки до 2 млн дол.
У масштабах ШІ-індустрії – це помірна сума.
Михайло Федоров та Олександр Комаров
Telegram FEDOROV
Кошти планують спрямувати насамперед на оренду інфраструктури та оплату праці.
Власну інфраструктуру наразі не розгортатимуть, оскільки це складний і довгий шлях, який не відповідає темпам проєкту.
"Наразі в Україні бракує спеціалізованих GPU-чипів, потрібних для тренування подібної моделі.
Тому ми плануємо використовувати потужності дата-центрів хмарних провайдерів.
Паралельно, звісно, в Україні відбуватиметься поступове нарощування GPU-інфраструктури", – пояснює Нестор.
Чому це вигідно самому "Київстару"? Офіційно це спосіб здобути експертизу у сфері ШІ та використовувати модель для власних рішень.
Але є й інші, не менш вагомі фактори.
Останні кілька місяців компанія активно заявляє про інтерес до українського технологічного ринку – зокрема, до M&A-угод.
Вона формує міжнародні партнерства як-от нещодавня угода з SpaceX і готується до лістингу: невдовзі частина акцій "Київстару" з’явиться на фондовій біржі.
У такому контексті – участь у створенні національної LLM виглядає не просто як громадянська позиція, а як стратегічна інвестиція в репутацію і вплив.
Що отримаємо на виході
Першу версію української LLM планують створити протягом дев’яти місяців.
На початковому етапі вона працюватиме у форматі бета-тесту.
"Під час цього періоду державні, наукові, громадські та освітні інституції зможуть завантажити модель і випробувати її можливості.
Після завершення тестування модель буде передана державі й викладена у відкритий доступ", – пояснює Нестор з "Київстару".
Після запуску модель планують інтегрувати у державні сервіси, зокрема в "Дію".
Один із перших прикладних продуктів – інструмент для перекладу та аналізу європейського законодавства.
Наразі над ним працює WINWIN AI Center of Excellence.
Такий сервіс може суттєво пришвидшити процес євроінтеграції.
Подібних рішень, які допомагатимуть державі в "операційці", в міністерстві обіцяють ще більше.
З появою LLM функціональність "Дії" істотно розшириться.
Вона має перетворитися на універсальне вікно взаємодії громадянина з державою, сервіс, де більшість послуг можна буде отримати за принципом one-stop-shop.
У Мінцифрі також очікують, що український бізнес почне створювати власні ШІ-продукти.
"У компаній буде реальна можливість запускати власних чат-ботів і ШІ-агентів для мільйонів користувачів.
Ми хочемо, щоб в Україні з’явився свій умовний ChatGPT.
Але це вже більше історія для ринку, а не для держави", – кажуть у міністерстві.
У "Київстарі" додають: бізнес отримає змогу долучитися до бета-тестування.
Для цього потрібно буде подати відповідний запит.
Надалі планується запуск комерційних рішень на базі LLM, які будуть доступні як через API, так і з можливістю локального розгортання на серверах клієнтів.
Читайте також:
Вплив штучного інтелекту: чому "Нобеля" з фізики та хімії дали психологам і математикам
Окреме питання: якою буде українська LLM за обсягом.
Оскільки open-source архітектуру ще не визначено, говорити про точні параметри зарано.
Утім, навряд чи варто очікувати на рішення, які здатні конкурувати з найпотужнішими моделями OpenAI.
Водночас за словами Овчаренка з ШІ-центру при Мінцифрі, пріоритет – це моделі у діапазоні 1-16 млрд параметрів.
Такий масштаб дозволяє зберігати баланс між продуктивністю й ресурсними витратами: моделі до 7 млрд можна запускати на одній GPU, а 13-16 млрд – на невеликих кластерах (групу об’єднаних комп’ютерів або серверів).
Досвід LLaMA, Gemma та Mistral показує, що правильно натреновані середні моделі можуть показувати конкурентну якість у завданнях класифікації, генерації та розуміння мови, зокрема в локалізованому контексті.
"Малі та середні моделі легше запускати, тонко налаштовувати до конкретних задач - для цього вони і створені.
Вони потребують менше ресурсів, але можуть показувати кращу ефективність на спеціалізованому наборі даних або у контексті конкретного завдання", – зазначає Краковецький.
Втім, як би там не було, повноцінно визначити план того, як виглядатиме і головне – як працюватиме український суверенний ШІ можна буде тільки після його запуску в маси.