Grok 4.2 щойно досяг 60% на бенчмарку ARC AGI 2. Досить солідний результат. Здається, ми спостерігаємо за новим моментом передового досвіду у можливостях ШІ. Прогрес у цих стандартизованих бенчмарках продовжує розширювати межі того, що можуть обробляти ці моделі.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • Репост
  • Поділіться
Прокоментувати
0/400
CountdownToBrokevip
· 16год тому
60% ця цифра виглядає комфортно, але чесно кажучи, AGI-базовий показник... справді може щось пояснити? В будь-якому випадку, доведеться чекати ще півроку, щоб побачити, чи з'являться нові фішки.
Переглянути оригіналвідповісти на0
LiquidationHuntervip
· 01-02 04:16
60%? Це ще деякий час, потрібно продовжувати наполегливо працювати
Переглянути оригіналвідповісти на0
SnapshotLaborervip
· 01-01 18:51
60% — ця цифра виглядає непогано, але й не надто неймовірно... В будь-якому разі ці бенчмарки нічого не доводять, справді важливо, як це працює на практиці
Переглянути оригіналвідповісти на0
ForkInTheRoadvip
· 01-01 18:49
60%? Відчуття, що не так вже й вибухово, як уявляв... думав, що прорве 70.
Переглянути оригіналвідповісти на0
MEV_Whisperervip
· 01-01 18:43
ngl arc benchmark знову оновлено, але чи справді ці 60% щось означають? Відчувається, що ці рейтинги все ще далекі від реального застосування...
Переглянути оригіналвідповісти на0
NeonCollectorvip
· 01-01 18:42
60%? Наскільки ж великий цей "водяний" показник у цьому бенчмарку... справжній AGI ще дуже далеко
Переглянути оригіналвідповісти на0
  • Закріпити