Fireworks AI เปิดตัวเวอร์ชันพรีวิวของแพลตฟอร์มการฝึกอบรม รองรับการฝึกแบบพารามิเตอร์เต็มจำนวนสำหรับโมเดลระดับ 10^12 พารามิเตอร์

BlockBeatNews

จากการติดตามของ 1M AI News บริษัทโครงสร้างพื้นฐานสำหรับการอนุมานของ AI ชื่อ Fireworks AI ได้เปิดตัว Fireworks Training เวอร์ชันตัวอย่าง โดยขยายจากแพลตฟอร์มสำหรับการอนุมานล้วนไปสู่แพลตฟอร์มแบบครบวงจรสำหรับการฝึกและการดีพลอยด์ Fireworks AI ก่อตั้งโดยโจลิน (Lin Qiao) วิศวกรชาวจีนที่เคยมีส่วนร่วมในการสร้าง PyTorch ให้กับ Meta ปัจจุบันบริษัทมีมูลค่า 40 ล้านดอลลาร์สหรัฐ ปริมาณโทเค็นที่ประมวลผลต่อวันอยู่ที่ 15 ล้านล้าน โทเค็น

แพลตฟอร์มมีสามระดับ:

  1. Training Agent: สำหรับทีมผลิตภัณฑ์ที่ไม่มีพื้นฐานโครงสร้างพื้นฐานด้าน ML อธิบายงานและอัปโหลดข้อมูลก็สามารถทำให้ครบกระบวนการทั้งหมดตั้งแต่การฝึกไปจนถึงการดีพลอยด์ได้ ปัจจุบันรองรับเฉพาะ LoRA
  2. Managed Training: สำหรับวิศวกร ML รองรับการปรับแต่ง SFT, DPO และการปรับแต่งด้วยการเรียนรู้แบบเสริมแรง (reinforcement learning) รวมถึงการฝึกแบบพารามิเตอร์เต็ม
  3. Training API: สำหรับทีมวิจัย สามารถกำหนดฟังก์ชันการสูญเสีย (loss function) และลูปการฝึกได้เอง รองรับอัลกอริทึมต่าง ๆ เช่น GRPO, DAPO ฯลฯ

ขนาดการฝึกแบบพารามิเตอร์เต็มมีตั้งแต่ Qwen3 8B บนโหนดเดียว ไปจนถึง Kimi K2.5 (หลายล้านล้านพารามิเตอร์) บนการ์ด NVIDIA B200 จำนวน 64 แผ่น

ลูกค้าระดับการผลิตสำหรับการอนุมานของ Fireworks AI ได้แก่เครื่องมือเขียนโค้ด AI อย่าง Cursor, Vercel และ Genspark ได้ทำการฝึกการเรียนรู้แบบเสริมแรง (reinforcement learning) ขั้นแนวหน้าในแพลตฟอร์มนี้เสร็จแล้ว Vercel ได้ฝึกโมเดลการแก้ไขข้อผิดพลาดอัตโนมัติสำหรับผลิตภัณฑ์สร้างโค้ด v0 ทำให้อัตราการสร้างโค้ดที่ไม่มีข้อผิดพลาดสูงถึง 93% โดย Malte Ubl CTO ของ Vercel ระบุว่าเมื่อเทียบกับ Sonnet 3.5 เพียง 62% และความหน่วงแบบ end-to-end ดีขึ้น 40 เท่าเมื่อเทียบกับโมเดลปิด (closed-source) ที่ใช้อยู่ก่อนหน้า Genspark ได้ทำการฝึกการเรียนรู้แบบเสริมแรงเพื่อปรับแต่งโมเดลโอเพนซอร์สที่มีหลายล้านล้านพารามิเตอร์ Kimi K2 เพื่อสร้างเอเจนต์วิจัยเชิงลึก ส่งผลให้จำนวนการเรียกใช้เครื่องมือเพิ่มขึ้น 33% และต้นทุนลดลง 50% Cursor ได้ทำการฝึกแบบกระจาย (distributed) ของการเรียนรู้แบบเสริมแรงสำหรับ Composer 2 บนคลัสเตอร์ 3 ถึง 4 แห่งทั่วโลก (ขณะนี้อยู่อันดับที่ 1 ใน CursorBench) โดยการฝึกและการอนุมานในสภาพการผลิตใช้พูล GPU ชุดเดียวกัน

ความแตกต่างด้านเทคโนโลยีหลักที่ Fireworks AI เน้นย้ำคือความสอดคล้องเชิงตัวเลขระหว่างการฝึกและการอนุมาน โมเดล MoE (Mixture of Experts: โมเดลผู้เชี่ยวชาญแบบผสม) มีความเปราะบางเชิงตัวเลขมากกว่าโมเดลแบบหนาแน่น (dense model) การเปลี่ยนแปลงเพียงเล็กน้อยใน hidden state อาจพลิกเส้นทางของ expert routing และเกิดการขยายผลแบบต่อเนื่องเป็นลูกโซ่ Fireworks ได้เผยแพร่ค่าความต่างแบบ KL divergence ระหว่างการฝึกและการอนุมานสำหรับโมเดลที่รองรับทั้งหมด โดยค่าทั้งหมดต่ำกว่า 0.01

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น