Гемма від Google вже веде себе як Gemini — хтось змусив її думати так само, як і Claude Opus

Якщо ви слідкуєте за місцевою сценою штучного інтелекту, ви, ймовірно, знаєте про Qwopus — відкриту модель, яка намагалася зменшити логіку Claude Opus 4.6 у Alibaba Qwen, щоб ви могли безкоштовно запускати щось, схоже на Opus на власному обладнанні. Вона працювала дивовижно добре. Очевидна проблема: Qwen — китайська модель, і не всі з цим комфортно. Джекронг, той самий псевдонімний розробник, що стоїть за цим проектом, почув відгуки. Його відповідь — Gemopus — нова сімейство тонких налаштувань у стилі Claude Opus, побудоване цілком на відкритому коді Google Gemma 4. Американська ДНК, та сама ідея: передовий рівень логіки, що працює локально на обладнанні, яке у вас вже є. Ця сімейство має два варіанти. Gemopus-4-26B-A4B — більш важкий варіант — модель Мікс експертів з 26 мільярдами параметрів, але активує приблизно 4 мільярди під час виведення, що означає, що вона демонструє високі результати на обмеженому обладнанні.

Параметри — це те, що визначає здатність ШІ вчитися, логічно мислити та зберігати інформацію. Маючи 26 мільярдів параметрів, модель має величезний обсяг знань. Але, активуючи лише 4 мільярди параметрів, релевантних вашому конкретному запиту, вона дає результати високої якості, характерні для великого ШІ, залишаючись при цьому легкою для роботи на звичайному обладнанні. Інший варіант — Gemopus-4-E4B, модель з 4 мільярдами параметрів, розроблена для комфортної роботи на сучасному iPhone або тонкому MacBook — без необхідності GPU.  Вибір базової моделі важливий тут. Google Gemma 4, випущена 2 квітня, побудована безпосередньо на тих самих дослідженнях і технологіях, що й Gemini 3 — компанія це явно заявила при запуску. Це означає, що Gemopus має щось, чого не може стверджувати жодна тонка настройка на базі Qwen: ДНК власної передової закритої моделі Google під капотом, обгорнута у стиль мислення Anthropic. Найкраще з обох світів, більш-менш.

Що робить Gemopus відмінним від хвилі інших тонких налаштувань Gemma, що зараз заповнюють Hugging Face, — це філософія за ним. Джекронг навмисне вирішив не примушувати ланцюги мислення Claude у ваги Gemma — короткий шлях, який зазвичай використовують конкуренти. Його аргумент, підтверджений недавніми дослідженнями, полягає в тому, що заповнення студентської моделі поверхневим reasoning текстом учителя фактично не передає справжню здатність до логіки. Це навчає імітації, а не логіці. «Немає потреби у надмірній уяві або забобонному відтворенні ланцюга думок у стилі Claude», — йдеться у картці моделі. Замість цього він зосередився на якості відповідей, структурній ясності та природності розмови — виправляючи жорсткий тон Gemma у стилі Вікіпедії та його схильність до лекцій про те, чого ви не запитували. Інженер AI-інфраструктури Кайл Гесслінг провів незалежні бенчмарки і опублікував результати безпосередньо у картці моделі. Його вердикт щодо варіанту 26B був досить позитивним. «Радий був протестувати цю модель досить серйозно, і вона є відмінною тонкою настройкою вже й так виняткової моделі», — написав він у X. «Вона чудово працює з одноразовими запитами у довгих контекстах і працює неймовірно швидко завдяки архітектурі MOE (міксу експертів)».

Gemopus-4-26B-A4B від Джекронга — В ПОЛІ!

Радий був протестувати цю модель досить серйозно (дивіться мої бенчмарки у картці моделі) і вона є відмінною тонкою настройкою вже й так виняткової моделі! Мій друг Джекронг завжди готує щось найкраще!

Вона чудово працює з одноразовими запитами у довгих…

— Кайл Гесслінг (@KyleHessling1) 10 квітня 2026

Менший варіант E4B пройшов усі 14 основних тестів компетентності — виконання інструкцій, кодування, математика, багатоступенева логіка, переклад, безпека, кешування — і успішно подолав усі 12 тестів на довгий контекст при 30K і 60K токенах. На пошук голки у стозі він пройшов 13 з 13 проб, включаючи тест на мільйон токенів із масштабуванням YaRN 8× RoPE.

26B нативно розширюється до 131K контексту і до 524K за допомогою YaRN, що Гесслінг також перевірив на напруження: «Він також зламав мої прості тести пошуку голки у стозі аж до розширеного контексту 524k!» На периферійному обладнанні E4B дійсно швидкий. Джекронг повідомляє про 45–60 токенів за секунду на iPhone 17 Pro Max і 90–120 токенів за секунду на MacBook Air M3/M4 через MLX. Архітектура MoE для 26B означає, що вона плавно розподіляє навантаження на системи з об’єднаною пам’яттю або GPU з менше ніж 10 ГБ VRAM. Гесслінг рекомендує її як щоденний варіант для систем із обмеженим VRAM.

Обидві моделі доступні у форматі GGUF, що дозволяє вставляти їх безпосередньо у LM Studio або llama.cpp без налаштувань. Повний код тренування та покроковий гід з тонкої настройки є на GitHub Джекронга — той самий пайплайн, який він використовував для Qwopus, той самий налаштування Unsloth і LoRA, що можна відтворити на Colab. Gemopus не позбавлений недоліків. Виклики інструментів залишаються несправними у всій серії Gemma 4 у llama.cpp і LM Studio — збої викликів, невідповідність форматів, цикли — тому, якщо ваш робочий процес залежить від агентів із зовнішніми інструментами, це ще не ваш модель. Сам Джекронг називає її «інженерним дослідженням, а не повністю готовим до виробництва рішенням», і рекомендує свою серію Qwopus 3.5 для тих, хто потребує більш стабільної роботи. І оскільки Джекронг навмисне уникнув агресивної дистиляції ланцюга думок у стилі Claude, не очікуйте, що вона буде так глибоко Opus-інтелектуальною, як Qwopus — це свідомий компроміс заради стабільності, а не недогляд.

Так, філософія цього проекту — стабільність перш за все, мені відомо, що моделі Gemma мають тенденцію ставати нестабільними, якщо примусово вставляти багато ланцюгів думок у стилі Claude, це видно при тестуванні багатьох інших Opus gemma тонких налаштувань на hugging face.

Джекронг спробував…

— Кайл Гесслінг (@KyleHessling1) 10 квітня 2026

Для тих, хто хоче глибше зануритися у тонке налаштування Gemma для логіки, є окремий проект спільноти — Ornstein від псевдонімного розробника DJLougen, який використовує ту саму базу Gemma 4 з 26B і зосереджений саме на покращенні ланцюгів логіки без залежності від логіки або стилю будь-якої конкретної третьої сторони. Одна чесна застереження: динаміка тренування Gemma більш хаотична, ніж у Qwen, для тих, хто займається тонкою настройкою — ширші коливання втрат, більша чутливість до гіперпараметрів. Сам Джекронг це підтверджує. Якщо вам потрібна більш перевірена модель для виробничих процесів, його серія Qwopus 3.5 залишається більш стабільною. Але якщо ви шукаєте американську модель у стилі Opus з поліруванням, Gemopus наразі — найкращий доступний варіант. В pipeline також планується більш щільна версія Gemopus 31B, яку Гесслінг називає «обов’язково крутою». Якщо хочете спробувати запускати локальні моделі на власному обладнанні, ознайомтеся з нашим посібником, як почати роботу з локальним AI.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити