ทีมวิจัยจากมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ เสนอวิธีฝึก AI แบบใหม่ชื่อ GEPA ซึ่งได้รับการตอบรับจาก ICLR 2026 ให้เป็นบทความ Oral แล้ว โดย GEPA ไม่อัปเดตค่าน้ำหนักโมเดล ไม่ต้องเทรนด้วย GPU ใช้ LLM เพียงตัวเดียวที่ “อ่านบันทึกการฝึก” แล้วค่อย ๆ เขียนใหม่พรอมป์ของระบบ AI ซ้ำไปซ้ำมา ก็สามารถทำให้เฉลี่ยชนะวิธีเสริมการเรียนรู้แบบเสริมแรงกระแสหลัก GRPO ได้ 6% และชนะได้สูงสุด 20% ใน 6 งาน พร้อมลดจำนวนครั้งที่ต้องลองฝึก (rollouts) ลง 35 เท่า งานนี้ถูกสรุปและนำไปอภิปรายในวงการ AI engineering จนเกิดกระแสบนแพลตฟอร์ม X และตอนนี้ได้ถูกรวมเข้าเป็นตัวเพิ่มประสิทธิภาพระดับ “ตัวเลือกแรก” ใน DSPy แล้ว
GEPA ทำอะไรอยู่: ใช้ “บันทึกการฝึก” เป็นบทเรียน ไม่ใช่ดูแค่คะแนน
เวิร์กโฟลว์ของแนวทางการเสริมการเรียนรู้แบบดั้งเดิม (เช่น GRPO) คือ ปล่อยให้ AI รันทำงานหนึ่งครั้ง แล้วให้คะแนนแบบ “+1 หรือ -1” ตามผล จากนั้นใช้คะแนนนี้เพื่อปรับค่าน้ำหนักโมเดลซ้ำ ๆ ปัญหาคือระหว่างที่ AI รันงานหนึ่งครั้ง กระบวนการมักมีขั้นตอนการให้เหตุผล (reasoning) นับพัน token การเรียกใช้เครื่องมือ ข้อความข้อผิดพลาด—รายละเอียดมากมายเหล่านี้ถูกย่อให้เหลือแค่ “คะแนน” เพียงค่าเดียว จึงทำให้ข้อมูลของกระบวนการหายไป ดังนั้น RL จึงต้องรันหลายหมื่นครั้งถึงจะค่อย ๆ เข้าใกล้ค่าที่เหมาะสม
แนวทางของ GEPA ตรงกันข้าม: ทุกครั้งที่ AI รันงานเสร็จ จะนำ “ทั้งกระบวนการ” (reasoning, การเรียกใช้เครื่องมือ, บันทึกข้อผิดพลาด) ส่งให้ “LLM สำหรับการทบทวน” อีกตัวหนึ่งอ่านซ้ำ LLM สำหรับการทบทวนทำหน้าที่เหมือนวิศวกรอาวุโสอ่าน log ของโปรแกรม หาให้เจ่าว่าขั้นตอนไหนผิด เพราะอะไรผิด และควรแก้พรอมป์ของโมดูลใด จากนั้นก็เขียนพรอมป์ของโมดูลนั้นใหม่เลย โดยที่ยังรันงานหนึ่งครั้งเหมือนเดิม แต่ GEPA ดึงสัญญาณข้อมูลได้มากกว่าคะแนนเดี่ยวของ RL อย่างชัดเจน
ทำไมถึงชนะ: เปลี่ยนจาก “การให้คะแนน” เป็น “การอ่านทั้งกระบวนการ”
GEPA ทำได้ดีกว่า GRPO ใน 6 งาน โดยเฉลี่ยชนะ 6% และชนะสูงสุด 20% ขณะที่เมื่อเทียบกับตัวเพิ่มประสิทธิภาพพรอมป์อีกรายอย่าง MIPROv2 ก็ชนะได้มากกว่า 10% (บนเกณฑ์คณิตศาสตร์ AIME-2025 เพิ่มขึ้น 12%) จุดสำคัญที่สุดคือ “ต้นทุนการฝึก”: GEPA ต้องใช้จำนวน rollouts (การรันงานแบบครบหนึ่งครั้ง) เพื่อให้ได้ประสิทธิภาพเท่ากันน้อยกว่า 35 เท่า
อีกชุดข้อมูลคือ หลังจากรวม GEPA เข้ากับ DSPy แล้ว “Full Program Adapter” ทำให้สามารถปรับให้เหมาะกับทั้งโปรแกรมของ DSPy ได้ (รวมถึง signature, โมดูล และ control flow) โดยทำคะแนนได้ 93% ความแม่นยำในเกณฑ์ MATH ซึ่งสูงกว่ารูปแบบ ChainOfThought ที่เขียนโดย DSPy เดิมถึงมาก และได้เพียง 67% เท่านั้น GEPA ยังเด่นเป็นพิเศษในเวิร์กโฟลว์แบบ multi-module (ตัวแทน AI ที่เชื่อมต่อหลายโมดูล) โดยสามารถระบุ “โมดูลที่ทำให้ผิด” แล้วเขียนพรอมป์ของโมดูลนั้นใหม่ได้อย่างแม่นยำ แทนที่จะต้องปรับทั้งระบบ
ใครจะนำไปใช้ก่อน: DSPy คนเป็นพลเมืองชั้นหนึ่ง และ GitHub เปิดซอร์สแล้ว
โค้ดของ GEPA เปิดเผยบน GitHub และถูกรวมเข้าในเฟรมเวิร์ก DSPy ในรูปแบบ dspy.GEPA อีกทั้งยังเผยแพร่แยกต่างหากในฐานะไลบรารีของ Python ทีมวิจัยมาจากหลายสถาบันตั้งแต่ UC Berkeley, Stanford, Notre Dame, ไปจนถึง Anthropic โดยผู้เขียนบทความประกอบด้วย Matei Zaharia (ผู้ร่วมก่อตั้ง Databricks และผู้เขียนหลักของ DSPy) และ Omar Khattab (ผู้เขียนหลักของ DSPy)
สำหรับชุมชนนักพัฒนา GEPA มอบแนวทางใหม่สำหรับ “ทีมที่มี rollout จำนวนมากแต่ไม่รู้จะใช้ให้เกิดประโยชน์อย่างเป็นระบบอย่างไร”—หลายทีมสะสมบันทึกการรันงานของ agent ไปแล้วนับพันถึงหมื่นครั้ง แต่มีเพียงการพลิกดูไม่กี่บรรทัดเมื่อเกิดข้อผิดพลาดเพื่อไล่แก้บั๊ก ไม่ได้มีวิธีเชิงระบบที่จะแปลงบันทึกเหล่านี้ให้กลายเป็นการปรับปรุงโมเดล จุดสังเกตถัดไปคือการนำ GEPA ไปใช้ในเคสจริงของเวิร์กโฟลว์ agent แบบองค์กร (เช่นระบบบริการลูกค้าอัตโนมัติ, การซ่อมแซมโค้ดอัตโนมัติ) ว่าจะเกิดขึ้นอย่างไร และจะมีการทำ GEPA เวอร์ชันที่สอดคล้องกันนอกเหนือจากเฟรมเวิร์ก DSPy หรือไม่
บทความ Berkeley GEPA 解析: ไม่อัปเดตค่าน้ำหนักก็ทำให้ AI เรียนรู้ภารกิจใหม่ได้ พร้อมต้นทุนฝึกที่น้อยลง 35 เท่า เอาชนะ RL และมีการรายงานครั้งแรกใน Chain News ของ ABMedia
btc.bar.articles
กองทัพเรือสหรัฐลงนามสัญญา AI มูลค่าใกล้ 100 ล้านดอลลาร์กับ Domino Data Lab สำหรับการตรวจจับเหมืองในช่องแคบฮอร์มุซ
XAI Grok เปิดให้ปรับ Custom Voices: โคลนเสียงใน 2 นาที, การยืนยันตัวตนแบบ 2 ขั้นตอน
OpenAI Codex เวอร์ชันเดสก์ท็อปเพิ่มฟีเจอร์สัตว์เลี้ยง: มีตัวช่วย 3 สถานะ พร้อมฟักตัวตามภาษาที่ใช้งาน
MoonPay เปิดตัว MoonAgents Card บัตรเสมือน Mastercard สำหรับเอเจนต์ AI ในวันศุกร์
OpenAI เปิดตัว Codex Pets สัตว์เลี้ยงเสมือนจริงที่ขับเคลื่อนด้วย AI พร้อมความสามารถในการสร้างแบบกำหนดเอง