Згідно з моніторингом 1M AI News, компанія Fireworks AI, що займається інфраструктурою для виведення ІІ, випустила попередній перегляд Fireworks Training, розширюючись від суто платформи для виведення до інтегрованої платформи для навчання та розгортання. Fireworks AI була заснована Лінь Цяо, колишнім інженером Meta, який брав участь у створенні PyTorch, і наразі оцінюється в 4 мільярди доларів, обробляючи 15 трильйонів токенів щоденно. Платформа пропонує три рівні: 1. Агент навчання: призначений для продуктових команд без інфраструктури машинного навчання, дозволяючи їм описувати задачі та завантажувати дані, щоб завершити весь процес від навчання до розгортання; наразі підтримує лише LoRA; 2. Кероване навчання: орієнтоване на інженерів машинного навчання, підтримує SFT, DPO та дообучення з підкріпленням, включно з повним навчанням параметрів; 3. API навчання: орієнтоване на дослідницькі команди, дозволяючи налаштовувати функції втрат і цикли навчання, підтримує алгоритми, такі як GRPO та DAPO, з повним масштабом навчання параметрів від одноузлового Qwen3 8B до Kimi K2.5 (трильйона параметрів) на 64 NVIDIA B200. Клієнти Fireworks AI для продакшн-виведення, інструменти програмування ІІ Cursor, Vercel і Genspark завершили передове навчання з підкріпленням на цій платформі. Vercel навчила модель автоматичної корекції помилок для свого продукту генерації коду v0, досягнувши 93% безпомилкової генерації коду, тоді як у Sonnet 3.5 цей показник становив лише 62%, і покращила наскрізну затримку в 40 разів порівняно з раніше використовуваною закритою моделлю. Genspark дообучила відкриту модель трильйона параметрів Kimi K2 з навчанням з підкріпленням для створення глибокого дослідницького агента, збільшивши використання інструмента на 33% і знизивши витрати на 50%. Cursor завершила розподілене навчання з підкріпленням для Composer 2 на 3-4 кластерах по всьому світу (, наразі посідає перше місце на CursorBench), використовуючи той самий пул GPU для навчання та продакшн-виведення. Fireworks AI підкреслює свою ключову технологічну відмінність у числовій узгодженості між навчанням і виведенням. Моделі MoE (Змішана група експертів) чисельно більш крихкі, ніж щільні моделі, де незначні зміни в прихованих станах можуть змінити маршрутизацію експертів і підсилити каскадні ефекти. Fireworks опублікувала значення KL-дивергенції між навчанням і виведенням для всіх підтримуваних моделей — усі вони нижчі за 0.01.

Переглянути оригінал
post-image
post-image
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 1
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
KatyPatyvip
· 4год тому
До Місяця 🌕
Переглянути оригіналвідповісти на0
  • Закріпити