Исследовательская группа из Калифорнийского университета в Беркли представила новый подход к обучению ИИ — GEPA. Он уже принят ICLR 2026 как доклад Oral. GEPA не обновляет веса модели, не требует GPU-обучения: достаточно одного LLM, который многократно переписывает подсказки для AI-системы, используя «чтение обучающих записей». В итоге на 6 задачах в среднем результат лучше, чем у основных методов обучения с подкреплением GRPO, на 6%, с максимальным превосходством 20%, а число необходимых обучающих попыток (rollouts) меньше в 35 раз. После того как исследование AI-инженерное сообщество распространило и обсудило в X, сейчас GEPA уже интегрирован в DSPy как оптимизатор первого класса.
Что делает GEPA: рассматривает обучающие записи как учебный материал, а не только как оценку
Традиционный процесс обучения с подкреплением (например, GRPO) выглядит так: ИИ один раз выполняет задачу, по результату получает «+1 или -1», после чего эта оценка снова и снова используется для корректировки весов модели. Проблема в том, что выполнение задачи обычно включает тысячи токенов рассуждений, вызовы инструментов и сообщения об ошибках — все эти богатые детали сжимаются до одного числа, а информация о ходе процесса теряется. Поэтому RL приходится запускать десятки тысяч раз, чтобы добиться сходимости.
GEPA поступает наоборот: после того как ИИ завершает задачу, всю последовательность действий (reasoning, вызовы инструментов, записи ошибок) целиком передают другому «LLM для рефлексии», который читает процесс. LLM для рефлексии — как опытный инженер, который читает log с запусков: он находит, на каком шаге произошла ошибка, почему она произошла, и как нужно изменить подсказку, после чего напрямую переписывает подсказку для соответствующего модуля. По сути, при том же одном запуске задачи GEPA извлекает из него существенно больше сигнала, чем RL извлекает из единственной оценки.
Почему это работает: вместо «оценки» — «чтение всего процесса»
GEPA на 6 задачах в среднем обходит GRPO на 6%, а максимум — на 20%; также он опережает другой популярный оптимизатор подсказок MIPROv2 более чем на 10% (на математическом бенчмарке AIME-2025 рост на 12%). Самое важное — стоимость обучения: чтобы достичь сопоставимой производительности, GEPA нужен rollouts (один полный запуск задачи) в 35 раз меньше.
Еще один показатель: после интеграции GEPA с DSPy «Full Program Adapter» позволяет оптимизировать всю программу в DSPy (включая signature, модули и управляющий поток). На математическом бенчмарке MATH точность достигает 93%, что намного выше исходного способа ChainOfThought в DSPy (67%). GEPA также особенно хорошо проявляет себя в multi-module рабочих процессах (AI-агенты с несколькими модулями, соединенными последовательно): он позволяет точно локализовать конкретный модуль, в котором произошла ошибка, и переписать подсказку именно для него, вместо того чтобы настраивать весь систему целиком.
Кто первым начнёт использовать: DSPy — гражданин первого класса, GitHub уже открыто
Код GEPA опубликован на GitHub; он интегрирован в DSPy в виде dspy.GEPA и также отдельно выпущен как Python-библиотека. В исследовательской группе задействованы организации уровня UC Berkeley, Stanford, Notre Dame, Anthropic и др.; среди авторов статьи: Matei Zaharia (сооснователь Databricks, один из ключевых авторов DSPy) и Omar Khattab (главный автор DSPy).
Для разработческого сообщества GEPA предлагает новое решение для ситуации «у нас много rollout, но мы не знаем, как их использовать»: многие команды уже накопили тысячи и тысячи записей о запуске задач агентами, но кроме ручной проверки пары эпизодов при баге, у них нет системного способа превращать эти записи в улучшение модели. Следующий вопрос — как GEPA проявит себя в реальных внедрениях корпоративных agentic рабочих процессов (например, автоматизация клиентской поддержки, автоматическое исправление кода), и появятся ли совместимые реализации GEPA вне фреймворка DSPy.
Эта статья «Berkeley GEPA разбор»: «не обновляя веса, можно научить ИИ новым задачам — с 35-кратным сокращением расходов на обучение, победив RL» впервые появилась в ленте новостей ABMedia.
Связанные статьи
Particle Network публикует дорожную карту универсальных аккаунтов, запускает Universal Deposit SDK и аккаунты AI Agent
Выручка Riot Platforms в 1 квартале 2026 года растёт до 167,2 млн долларов на фоне запуска дата-центра
Roblox запускает ПО на базе ИИ, чтобы бросить вызов Unity и Epic Games
ВМС США заключают контракт с Domino Data Lab почти на 100 миллионов долларов на использование ИИ для обнаружения мин в проливе Ормуз
XAI Grok представляет Custom Voices: клонирование за 2 минуты, двухэтапная проверка личности
Настольная версия OpenAI Codex получает функцию с «питомцем»: 3 подсказки статуса, вывод по языку использования