searchresults
2026-04-27
05:17

GPT-5.5 กลับมาล้ำหน้าในการเขียนโค้ด แต่ OpenAI เปลี่ยนเกณฑ์มาตรฐานหลังแพ้ Opus 4.7

ข่าวประจำเกต 27 เมษายน — SemiAnalysis บริษัทวิเคราะห์เซมิคอนดักเตอร์และ AI ได้เผยแพร่มาตรฐานเปรียบเทียบเชิงเปรียบเทียบของผู้ช่วยการเขียนโค้ด รวมถึง GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ผลค้นหาที่สำคัญ: GPT-5.5 แสดงถึงการกลับสู่ขอบล้ำในการพัฒนาโมเดลการเขียนโค้ดของ OpenAI เป็นครั้งแรกในรอบหกเดือน โดยวิศวกรของ SemiAnalysis ตอนนี้สลับไปมาระหว่าง Codex และ Claude Code หลังจากก่อนหน้านี้พึ่งพา Claude เกือบทั้งหมด GPT-5.5 อ้างอิงจากแนวทางการพรีเทรนแบบใหม่ที่มีชื่อรหัสว่า "Spud" และถือเป็นการขยายขนาดการพรีเทรนครั้งแรกของ OpenAI นับตั้งแต่ GPT-4.5. ในการทดสอบเชิงปฏิบัติที่ชัดเจน ได้แยกบทบาทออกมาอย่างชัดเจน Claude จัดการการวางแผนโครงการใหม่และการตั้งค่าเริ่มต้น ในขณะที่ Codex โดดเด่นสำหรับการแก้บั๊กที่ต้องใช้การให้เหตุผลหนักๆ Codex แสดงความเข้าใจโครงสร้างข้อมูลและการให้เหตุผลเชิงตรรกะที่แข็งแกร่งกว่า แต่กลับมีปัญหาในการคาดเดาความตั้งใจของผู้ใช้ที่ไม่ชัดเจน ในงานที่คล้ายกันบนแดชบอร์ดเดียว Claude คัดลอกเค้าโครงหน้าจากตัวอย่างได้โดยอัตโนมัติแต่ได้สร้างข้อมูลจำนวนมากขึ้นมา ในขณะที่ Codex ข้ามเรื่องเค้าโครงแต่ให้ข้อมูลที่แม่นยำกว่ามาก การวิเคราะห์เผยรายละเอียดเกี่ยวกับการปรับแต่งเกณฑ์มาตรฐาน: โพสต์บล็อกของ OpenAI ในเดือนกุมภาพันธ์ได้เรียกร้องให้วงการนำ SWE-bench Pro มาเป็นมาตรฐานใหม่สำหรับการประเมินเกณฑ์การเขียนโค้ด อย่างไรก็ตาม การประกาศของ GPT-5.5 ได้เปลี่ยนไปใช้เกณฑ์มาตรฐานใหม่ที่ชื่อ "Expert-SWE" เหตุผล—ซ่อนอยู่ในส่วนปลีกย่อย—คือ GPT-5.5 ถูก Opus 4.7 แซงบน SWE-bench Pro และทำผลงานได้ต่ำกว่ามากเมื่อเทียบกับ Mythos ที่ยังไม่เผยแพร่ของ Anthropic 77.8%. สำหรับ Opus 4.7 Anthropic เผยแพร่การวิเคราะห์สรุปหลังเหตุการณ์ (postmortem) หนึ่งสัปดาห์หลังการเปิดตัว โดยยอมรับบั๊กสามจุดใน Claude Code ที่ยังคงอยู่ต่อเนื่องเป็นเวลาหลายสัปดาห์ตั้งแต่เดือนมีนาคมถึงเมษายน ส่งผลกระทบต่อผู้ใช้งานเกือบทั้งหมด วิศวกรหลายคนเคยรายงานว่าประสิทธิภาพลดลงในเวอร์ชัน 4.6 มาก่อน แต่ถูกมองว่าเป็นข้อสังเกตเชิงอัตวิสัย นอกจากนี้ โทเคไนเซอร์ใหม่ของ Opus 4.7 เพิ่มการใช้งานโทเคนได้สูงถึง 35% ซึ่ง Anthropic ยอมรับอย่างตรงไปตรงมา—ซึ่งเท่ากับเป็นการขึ้นราคาที่ซ่อนอยู่โดยปริยาย DeepSeek V4 ถูกประเมินว่า "ตามทันความก้าวหน้าในระดับแนวหน้าแต่ไม่ได้เป็นผู้นำ" โดยวางตำแหน่งตัวเองเป็นทางเลือกที่มีต้นทุนต่ำที่สุดในบรรดาโมเดลที่ปิดซอร์ส การวิเคราะห์ยังระบุว่า "Claude ยังคงทำผลงานได้ดีกว่า DeepSeek V4 Pro ในงานเขียนภาษาจีนที่มีความยากสูง" โดยแสดงความคิดเห็นว่า "Claude ชนะโมเดลภาษาจีนในภาษาเดียวกับที่มันใช้" บทความนำเสนอแนวคิดสำคัญว่า ควรประเมินราคาของโมเดลด้วย "ต้นทุนต่อหนึ่งงาน" แทนที่จะเป็น "ต้นทุนต่อหนึ่งโทเคน" ราคาของ GPT-5.5 เป็นสองเท่าของ GPT-5.4 input $5, output per million tokens แต่ทำงานเดียวกันได้โดยใช้โทเคนน้อยกว่า ดังนั้นต้นทุนที่แท้จริงจึงไม่ได้จำเป็นต้องสูงขึ้น ข้อมูลเบื้องต้นจาก SemiAnalysis แสดงว่าอัตราส่วนอินพุตต่อเอาต์พุตของ Codex อยู่ที่ 80:1 ต่ำกว่าของ Claude Code ที่ 100:1.
liveNews.More
04:57

Xiaomi เปิดเผยรายละเอียดการฝึก MiMo-V2-Pro: พารามิเตอร์โมเดล 1T ใช้ GPU หลายพันเครื่อง

ข้อความจาก Gate News วันที่ 24 เมษายน — หัวหน้าทีมโมเดลภาษาขนาดใหญ่ของ Xiaomi อย่าง Luo Fuli เปิดเผยในการให้สัมภาษณ์เชิงลึกว่าโมเดล MiMo-V2-Pro มีพารามิเตอร์รวม 1 ล้านล้านตัว และต้องใช้ GPU หลายพันเครื่องสำหรับการฝึก เธอกล่าวว่าโทนสเกล 1T ถือเป็นเกณฑ์ขั้นต่ำเพื่อให้ได้ประสิทธิภาพที่เข้าใกล้ระดับ Claude Opus 4.6 และรับบัตรผ่านเข้าสู่การแข่งขันสำหรับเฟสถัดไปของ AI agents เพื่อให้ได้
liveNews.More
04:29

V4-Pro ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ในการทดสอบการใช้งานจริงภายใน ใกล้เคียงประสิทธิภาพ Opus 4.5

ข้อความจาก Gate News วันที่ 24 เมษายน — V4 ได้เปิดเผยข้อมูลการใช้งานจริงภายใน (dogfooding) สำหรับโมเดล V4-Pro ต่อสาธารณะแล้ว บริษัทได้รวบรวมงานวิศวกรรมในโลกจริงประมาณ 200 งานจากวิศวกรมากกว่า 50 คน ครอบคลุมการพัฒนาฟีเจอร์ การแก้ไขบั๊ก การปรับโครงสร้างโค้ด (refactoring) และการวินิจฉัย (diagnostics) ข้ามสแตกเทคโนโลยี รวมถึง
liveNews.More
07:51

AWS ขยายเวิร์กโฟลว์ AI แบบหลายเอเจนต์ รองรับ Claude Opus 4.7 บน Bedrock

ข่าว Gate News วันที่ 22 เมษายน — Amazon Web Services ประกาศขยายความริเริ่ม AI เชิงเอเจนต์ผ่านเวิร์กโฟลว์แบบหลายเอเจนต์ โดยรองรับ Anthropic's Claude Opus 4.7 บน Amazon Bedrock เพื่อช่วยให้ลูกค้าก้าวพ้นจากการทดลองนำร่องด้าน generative AI บริษัทกำลังขยายความสัมพันธ์กับพาร์ทเนอร์ ขณะที่ลูกค้าปรับเปลี่ยนจากเครื่องมือ AI เดี่ยวไปสู่ระบบที่เชื่อมต่อเอเจนต์เฉพาะทางหลายตัว ซึ่งลูกค้า
liveNews.More
01:13

แอนทรอปิกส์เปิดตัว Claude Opus 4.7 พร้อมมาตรการคุ้มครองด้านความปลอดภัยทางไซเบอร์

แอนทรอปิกส์ โคลด ออปัส 4.7 ที่ประกาศเมื่อวันที่ 17 เมษายน ช่วยเสริมความปลอดภัยทางไซเบอร์ด้วยมาตรการป้องกันคำขอที่มีความเสี่ยงสูง นอกจากนี้ยังพัฒนาประสิทธิภาพด้านการเขียนโค้ดและการจัดการภาพได้ แต่ยังความสามารถน้อยกว่า Mythos Preview ซึ่งเป็นรุ่นที่ปล่อยให้ทดลองแบบจำกัด ผลตอบรับจากการเปิดตัวครั้งนี้จะใช้เป็นแนวทางสำหรับโมเดลในอนาคต
liveNews.More
09:51
1

มาสก์: Grok ยังตามไม่ทัน Claude Opus 4.6 คาดว่าจะเข้าใกล้ในเดือนพฤษภาคมและแซงหน้าในเดือนมิถุนายน

มาสก์กล่าวบนแพลตฟอร์ม X ว่าโมเดล Grok ของ xAI กำลังไล่ตาม Claude Opus 4.6 ของ Anthropic และคาดว่าจะเข้าใกล้ระดับดังกล่าวในเดือนพฤษภาคม และอาจแซงหน้าได้ในเดือนมิถุนายน เขากล่าวว่าในวงการ AI ช่วงเวลานี้ถือว่ายาวนาน Claude Opus 4.6 เป็นโมเดล AI เรือธงของ Anthropic และเป็นเวอร์ชันที่แข็งแกร่งที่สุดในตระกูล Claude 4
liveNews.More
02:14

มัสก์เปิดเผยจำนวนพารามิเตอร์ของ Grok 4.2 และภายนอกคาดว่า Claude Opus อาจไปถึงมากถึง 50kล้านพารามิเตอร์

มาสก์บนแพลตฟอร์ม X ยืนยันว่าพารามิเตอร์ของ Grok 4.2 อยู่ที่ 5kล้าน การคาดการณ์ชี้ว่า Claude Opus มีพารามิเตอร์ประมาณ 50kล้าน และ Sonnet อยู่ที่ 10kล้าน แม้ว่า Anthropic จะยังไม่เปิดเผยจำนวนพารามิเตอร์ของโมเดลเหล่านี้ ตัวเลขดังกล่าวมาจากคำกล่าวของมาสก์ ในขณะเดียวกัน SpaceX AI ของ Colossus 2 ซูเปอร์คอมพิวเตอร์กำลังฝึกโมเดลที่มีขนาดพารามิเตอร์สูงสุด 100kล้าน ซึ่งจะกลายเป็นปัจจัยสำคัญในการแข่งขัน
liveNews.More
01:39

VVV(Venice)24 ชั่วโมง pump 19.99%

ข่าว Gate ข้อความ วันที่ 10 เมษายน จากข้อมูลของ Gate ด้านราคา แสดงว่า ณ เวลาที่เผยแพร่ VVV (Venice) อยู่ที่ 8.03 ดอลลาร์สหรัฐ ราคาภายใน 24 ชั่วโมงเพิ่มขึ้น 19.99% ทำระดับสูงสุดที่ 8.00 ดอลลาร์สหรัฐ และทำระดับต่ำสุดที่ 6.64 ดอลลาร์สหรัฐ โดยปริมาณการซื้อขายในรอบ 24 ชั่วโมงอยู่ที่ 830,000 ดอลลาร์สหรัฐ มูลค่าปัจจุบันอยู่ที่ประมาณ 364 ล้านดอลลาร์สหรัฐ Venice คือแพลตฟอร์มปัญญาประดิษฐ์ที่เน้นความเป็นส่วนตัว มีบริการอย่างการสร้างบทสนทนาและการสร้างภาพ แต่ไม่บันทึกข้อมูลผู้ใช้ ผู้ใช้สามารถเข้าถึงได้อย่างเป็นส่วนตัวหรือแบบไม่ระบุตัวตน รวมถึงโมเดล AI ชั้นนำของอุตสาหกรรม เช่น Claude Opus, GPT-5.2, Flux 2 และอื่น ๆ พร้อมรับการปกป้องข้อมูลแบบส่วนตัวอย่างสมบูรณ์—พรอมป์ต์ AI ทั้งหมดยังคงอยู่บนอุปกรณ์ของผู้ใช้ ไม่ถูกจัดเก็บไว้บนเซิร์ฟเวอร์ นอกจากนี้ Venice มีเป้าหมายเพื่อขจัดปัญหาเกี่ยวกับ
liveNews.More
VVV-2.22%
RENDER-3.44%
IOTA-2.99%
12:36

Zhipu ได้ประกาศอย่างเป็นทางการว่า GLM-5.1 เปิดให้ใช้งานแล้ว โดยความสามารถในการเขียนโค้ดเหนือกว่ารุ่นก่อนอย่างมาก และเปิดให้ผู้ใช้ทั้งหมดของแผน GLM Coding Plan

智谱发布了GLM-5.1,使所有GLM Coding Plan用户可用。 ในด้านการทดสอบความสามารถในการเขียนโค้ด GLM-5.1 ได้คะแนน 45.3 ซึ่งดีกว่ารุ่นก่อนหน้าที่ได้ 35.4 อย่างมีนัยสำคัญ และใกล้เคียงกับ Claude Opus 4.6 แสดงให้เห็นถึงความก้าวหน้าที่ชัดเจน。
liveNews.More
11:51

นอกจากการจำกัดความเร็ว ยังมีปัญหาอื่นด้วย: ในสองสัปดาห์ที่ผ่านมา Claude ประสบปัญหาการหยุดให้บริการรวม 25 ครั้ง และมีสายผลิตภัณฑ์ 3 สายเกิดการล่มครั้งใหญ่ ขณะที่ Opus 4.6 เป็นพื้นที่ที่ได้รับผลกระทบหนักที่สุด

เมื่อเร็วๆ นี้ บริการ Claude ของ Anthropic ประสบปัญหาหยุดทำงานอย่างรุนแรง โดยมีผลกระทบต่อสามสายผลิตภัณฑ์หลัก รายงานระบุว่า ระหว่างวันที่ 13 ถึง 27 มีการเกิดความล้มเหลวประมาณ 25 ครั้ง โดยมีอัตราความผิดพลาดสูงสุดจากปัญหาระบบล็อกอินเกิดขึ้นบ่อยครั้ง แม้ว่าระดับการทำงานปกติจะคงอยู่ที่ประมาณ 99% แต่ความต้องการบริการและแรงกดดันจากความจุเพิ่มขึ้นอย่างเห็นได้ชัด
liveNews.More