DEEPTECH

Цена DEEPEXI TECH 01384.HK

DEEPTECH
₽0
+₽0(0,00 %)
Нет данных

*Данные последний раз обновлены: 2026-04-14 22:19 (UTC+8)

На 2026-04-14 22:19 цена DEEPEXI TECH 01384.HK (DEEPTECH) составляет ₽0, сумма рыночной капитализации — --, коэффициент P/E — 0,00, дивидентная доходность — 0,00 %. Сегодня цена акции колебалась в диапазоне от ₽0 до ₽0. Текущая цена на 0,00 % выше дневного минимума и на 0,00 % ниже дневного максимума, при торговом объеме --. За последние 52 недели торгли DEEPTECH шли в диапазоне от ₽0 до ₽0, а текущая цена находится в 0,00 % от максимума за 52 недели.

Основные показатели DEEPTECH

Соотношение P/E0,00
Дивидендная доходность (TTM)0,00 %
Акции в обращении0,00

Часто задаваемые вопросы о DEEPEXI TECH 01384.HK (DEEPTECH)

Какова цена акции DEEPEXI TECH 01384.HK (DEEPTECH) сегодня?

x
DEEPEXI TECH 01384.HK (DEEPTECH) сейчас торгуется по цене ₽0, 24ч Изм. составляет 0,00 %. Диапазон торгов за 52 недели: от ₽0 до ₽0.

Какие максимальная и минимальная цены за 52 недели по DEEPEXI TECH 01384.HK (DEEPTECH)?

x

Каково значение коэффициента цена/прибыль (P/E) для DEEPEXI TECH 01384.HK (DEEPTECH)? Что он показывает?

x

Какова рыночная капитализация DEEPEXI TECH 01384.HK (DEEPTECH)?

x

Какова самая свежая квартальная прибыль на акцию (EPS) за DEEPEXI TECH 01384.HK (DEEPTECH)?

x

Стоит ли сейчас покупать или продавать DEEPEXI TECH 01384.HK (DEEPTECH)?

x

Какие факторы могут повлиять на цену акции DEEPEXI TECH 01384.HK (DEEPTECH)?

x

Как купить акции DEEPEXI TECH 01384.HK (DEEPTECH)?

x

Предупреждение о рисках

Рынок акций связан с высоким уровнем риска и волатильностью цен. Стоимость ваших инвестиций может увеличиться или уменьшиться, и вы можете не вернуть всю вложенную сумму. Прошлые результаты не гарантируют будущих показателей. Перед принятием инвестиционных решений внимательно оцените свой опыт инвестирования, финансовое положение, цели инвестирования и склонность к риску, а также проведите собственное исследование. При необходимости обратитесь к независимому финансовому консультанту.

Дисклеймер

Содержимое этой страницы предоставлено исключительно в информационных целях и не является инвестиционной рекомендацией, финансовым советом или торговым предложением. Gate не несет ответственности за любые потери или ущерб, возникшие в результате подобных финансовых решений. Кроме того, обратите внимание: Gate может не предоставлять полный сервис на отдельных рынках и в некоторых юрисдикциях, включая, но не ограничиваясь, Соединенными Штатами Америки, Канадой, Ираном и Кубой. Более подробную информацию о странах с ограниченным доступом смотрите в Пользовательском соглашении.

Другие торговые рынки

Горячие посты о DEEPEXI TECH 01384.HK (DEEPTECH)

LightningPacketLoss

LightningPacketLoss

04-07 17:06
По сообщению China Securities Journal China Securities Network (репортёр: Сунь Сяочэн), в последнее время компания Mianbi Intelligent завершила новый раунд финансирования на сумму в несколько сотен миллионов юаней. Раунд возглавили Shenzhen Innovation Investment Group (Shenchuangtou) и Huichuan Industrial Investment, а также в качестве ведущих инвесторов участвует Dohe Long-Term Investment. В качестве последующих инвесторов также подключились Guotai Junan Innovation Investment, WuYueFeng и другие. В начале этого года Mianbi Intelligent уже завершила раунд финансирования с China Telecom в качестве ведущего инвестора; по итогам первого квартала совокупный объём привлечённого финансирования, как ожидается, превысил 1B юаней. В течение последнего года Mianbi Intelligent последовательно завершила три раунда финансирования, что привлекло множество известных инвестиционных организаций, включая Beijing Guorui, фонд Moutai, Longxin Venture Capital, а также CICC Porsche и др., которые один за другим сделали ставки на компанию.
0
0
0
0
WuSaidBlockchainW

WuSaidBlockchainW

04-06 23:51
Автор | Stablecoin Insider / McKinsey×Artemis Перевод | TechFlow Ссылка на оригинал: Вступление: совместный отчет McKinsey и Artemis сделал в отрасли то, что немногие решаются сделать: разобрал данные о торговых объемах стейблкоинов по составляющим. Вывод таков: из примерно 35 трлн долларов годового объема on-chain-транзакций лишь около 390 млрд долларов (примерно 1%) являются реальными платежными действиями; при этом 58% — это финансовые операции между компаниями, а годовой рост составляет 733%. Использование стейблкоинов со стороны потребителей практически незаметно, и это не случай — — статья выделяет пять структурных причин, объясняющих, почему разрыв между институтами и частными лицами — это не просто временное расхождение. Полный текст ниже: В индустрии стейблкоинов есть проблема на уровне заголовков. С одной стороны, исходные данные on-chain показывают, что ежегодно в сети движутся десятки и сотни триллионов долларов, и это число породило бесконечные сравнения с Visa и Mastercard, а также прогнозы о том, что SWIFT вот-вот будет заменен. С другой стороны, опубликованный в феврале 2026 года совместный отчет McKinsey и Artemis Analytics отделил все эти наросты и задал более прямой вопрос: сколько из этого на самом деле является реальными платежами? Ответ примерно 1%. Из годового объема оборота стейблкоинов на уровне около 35 трлн долларов лишь около 390 млрд долларов отражают реальные платежи конечных пользователей, например: счета поставщиков, трансграничные переводы, выплата зарплат и оплата покупок картой. Остальное — это торговая активность, перемещение внутренних средств, арбитражные действия и циклы автоматизированных умных контрактов. В отчете сказано, что преувеличенные цифры на уровне заголовков — это «точка отсчета для анализа, а не прокси-показатель для оценки принятия платежей». Но внутри этих реальных базовых 390 млрд долларов есть история, заслуживающая пристального изучения — и она почти полностью вращается вокруг корпоративных финансов, а не кошельков потребителей. B2B доминирует: что на самом деле показывают данные Согласно анализу McKinsey/Artemis (в качестве базы — данные активности за декабрь 2025 года), транзакции между компаниями составляют 226 млрд долларов, то есть около 58% от всего объема реальных платежей стейблкоинами. Эта цифра означает рост на 733% год к году и в основном обусловлена платежами в цепочках поставок, расчетами с трансграничными поставщиками и управлением финансовой ликвидностью. Азия лидирует по географической активности, но принятие ускоряется и в Латинской Америке, и в Европе. Остальная часть реальных платежей распределяется между выплатами зарплат и ремиттансами (90 млрд долларов), расчетами в капиталовладельческих/капитальных рынках (8 млрд долларов) и оплатой картой в связанной экосистеме (4,5 млрд долларов). По данным McKinsey, сумма покупок по картам, связанным со стейблкоинами, выросла на поразительные 673% год к году, но в абсолютных величинах это все еще лишь небольшая доля B2B-потока. Для ориентира: общий объем в 390 млрд долларов — это лишь 0,02% от оценочного McKinsey общего ежегодного объема платежей в мире, превышающего 20 квадриллионов долларов. В частности, B2B-стейблкоин-поток составляет около 0,01% от глобального рынка B2B-платежей на уровне 160 млрд долларов триллионов. Эти цифры кажутся большими в контексте стейблкоинов, но в масштабе глобальной финансовой системы все равно микроскопичны. Данные о скорости оборота в месяц нагляднее показывают, где именно находится импульс. По данным BVNK со ссылкой на отчет McKinsey/Artemis: в январе 2024 года месячный объем платежей стейблкоинами составлял лишь 5 млрд долларов; к началу 2026 года эта цифра превысила 30 млрд долларов — — то есть за менее чем два года рост увеличился в шесть раз; самая резкая ускоряющая динамика пришлась на вторую половину 2025 года. В годовом выражении эта скорость оборота уже превышает 390 млрд долларов. «Реальные платежи стейблкоинами намного ниже, чем обычные оценки; это не снижает долгосрочный потенциал стейблкоинов как платежного рельса — — оно лишь формирует более четкую базовую линию для оценки того, где находится рынок». — — McKinsey/Artemis Analytics, февраль 2026 года Почему существует разрыв: пять структурных сил, исключающих розницу Расхождение между взрывным внедрением B2B и почти пренебрежимо малым использованием со стороны потребителей — это не случайность, а продукт структурной асимметрии, которая системно благоприятствует корпоративным сценариям, а не розничным. Ниже — пять сил, которые движут институциональный разрыв: 1) Финансовая эффективность побеждает удобство для потребителей Финансовые директора движимы конкретными, поддающимися количественной оценке болями: цепочка посредников прокси-агентов SWIFT, на расчеты по которой нужно от одного до пяти рабочих дней; «окно» обмена валюты, в котором застревают денежные средства; и комиссии посредников, накладывающиеся на каждом этапе сделки. Стейблкоины одновременно решают все три проблемы. Для компании, которая платит поставщикам из пятнадцати стран, экономический расчет очевиден; для потребителя, который покупает кофе, — нет. Мотивация к переключению на корпоративной стороне в разы выше, чем у индивидуальных пользователей. 2) Программируемость в рознице не имеет равнозначной ценности Взрыв B2B — частично история программируемого платежа. Смарт-контракты реализуют условную логику — — триггеры по счетам-фактурам, подтверждения поставки, высвобождение из эскроу — — позволяющие автоматически масштабировать весь процесс кредиторской задолженности. Это естественно подходит для корпоративных финансовых операций, потому что высокоценные, структурированные и повторяющиеся платежные процессы получают огромную выгоду от автоматизации. Розничные платежи на любом масштабе не имеют похожих сценариев применения с триггерами. Потребителям, чтобы покупать продукты, не нужны программируемые условия — им нужно нечто простое, «как оплата картой». Сложность восприятия нативных для блокчейна платежей остается барьером для розницы и не дает программируемости никакой поддержки. 3) Регуляторная архитектура смещена в пользу институтов После «GENIUS Act» операторы получили возможность завершить адаптацию комплаенс-архитектур — противодействие отмыванию денег/финансированию терроризма, правила поездок, требования к лицензиям — — и выстроили правовую инфраструктуру, на которой можно уверенно работать. В корпоративных финансовых командах есть специализированная функция комплаенса, способная «впитать» трение на входе; у индивидуальных потребителей такого нет. В результате в большинстве юрисдикций каналы пополнения стейблкоинов для розничных пользователей все еще остаются операционно сложными, а разрыв в том, что касается приема со стороны торговцев, сохраняется по всему миру. Каждый бесфрикционный B2B-платеж сегодня — это точка данных, которую институты используют, чтобы обосновывать дальнейшие инвестиции; а для потребителей экосистема ждет комплаенс-входа и гладкого пользовательского опыта, которые пока не появились массово. 4) Преимущество закрытого цикла B2B-платежи стейблкоинами оказались успешными как раз потому, что они являются закрытым циклом: компания отправляет деньги компании, у обеих сторон есть кошельки, есть базовая комплаенс-инфраструктура и обеим сторонам не нужен универсальный торговый сетевой охват. Потребительские платежи упираются в классическую проблему «курица и яйцо»: пока у потребителя нет потребности, торговец не инвестирует в создание инфраструктуры приема стейблкоинов; пока потребителям нельзя широко потреблять, они не станут включать кошельки. Институциональный мир полностью обходит эту проблему, работая в двусторонних или партнерских (альянсных) средах без необходимости в какой-либо открытой сети торговцев. 5) Институциональные стимулы направлены на «вверх по цепочке» Финансовые директора компаний, владеющих стейблкоинами, могут получать доходность, снижать валютный риск (валютный разрыв) и улучшать управление ликвидностью — — эти преимущества накапливаются внутри, а передача вниз по цепочке вносит сложность или повышает уязвимость конкуренции. Чтобы распространить использование стейблкоинов до «поставщиков поставщика», сотрудников или конечных потребителей, нужно построить сеть, из которой пользу получают те, кто находится ниже по цепочке; но это не обязательно совпадает с выгодой финансовой команды инициатора. При отсутствии четкого ROI, который бы подталкивал сеть к расширению вовне, компании рационально выбирают укреплять внутреннюю выгоду. Контекст рынка Собственные данные BVNK по инфраструктуре подтверждают доминирование B2B с точки зрения операторов. В 2025 году компания обработала годовой объем платежей стейблкоинами 30 млрд долларов с ростом в 2,3 раза; при этом треть объема пришлась на рынок США. Ее список клиентов (Worldpay、Deel、Flywire、Rapyd、Thunes) — это лидеры в инфраструктуре трансграничного B2B и в инфраструктуре для выплат зарплат, а не в потребительских приложениях. Как BVNK отметила в своем итоговом обзоре за 2025 год: «Существовавшее предположение, что рост будут вести переводы и потребительские переводы, не стало основным драйвером; роль вместо этого взял B2B». Когда розница догонит — — если вообще догонит Базовая линия McKinsey/Artemis делает текущую картину ясной и различимой. На что она не отвечает, так это на вопрос: будет ли институциональный разрыв сужаться, расширяться или навсегда закрепится. Ниже — три возможных сценария на ближайшие 18 месяцев: Ближайший 2026 год — — разрыв будет расширяться дальше У B2B нет признаков замедления. Месячная скорость оборота свыше 30 млрд долларов продолжит траекторию по мере того, как все больше компаний будет использовать рельсы стейблкоинов для трансграничных счетов к оплате и финансовых операций. Потребительские оплаты картой с использованием стейблкоинов немного вырастут, но в абсолютном выражении все еще будут ничтожно малы по сравнению с B2B-потоком. Даже если принятие розницей будет медленно продвигаться в процентах, разрыв в абсолютных долларовых величинах будет увеличиваться. Конец 2026 года — 2027 — — точка перелома начинает проявляться Несколько катализаторов могут начать сглаживать разрыв: много валютные стейблкоины, выпускаемые банками, снижают трение при пополнении розницы; программируемые функции через AI Agent могут быть делегированы в потребительские приложения; заработная плата в гиг-экономике, выплачиваемая в стейблкоинах, создаст остатки для потребления у сотрудников внизу по цепочке. Министр финансов США Scott Bessent прогнозирует, что объем предложения стейблкоинов к 2030 году может достичь 3 трлн долларов; эта траектория означает, что в итоге появятся потребительские сетевые эффекты. Обратная точка зрения — — розница может никогда не «догнать», и, возможно, в этом как раз ключ Самое честное прочтение данных McKinsey заключается в том, что стейблкоины, похоже, эволюционируют в то, о чем отчет лишь косвенно намекает: слой программируемых расчетов в интернете, обращенный к машинам, финансовым отделам и институциям; при этом принятие потребителями будет косвенным, встроенным получением выгоды, а не основным вариантом использования. Если такая рамка верна, то институциональный разрыв — это не «провал внедрения», а характеристика естественной технической архитектуры. Корпоративные зарплаты, выплачиваемые стейблкоинами, в итоге могут создавать спрос и потребительские траты внизу, но путь от базовой B2B-инфраструктуры до розничного кошелька будет длинным и извилистым, и будет зависеть от прорыва в пользовательском опыте, который пока еще не появился в массовом масштабе. Честная базовая линия Отчет McKinsey/Artemis сделал больше ценного, чем просто зафиксировать рост стейблкоинов: он установил честную базовую линию, которой отрасли все это время явно не хватало. Отделив шум транзакций, внутренние перемещения и циклы автоматизированных умных контрактов, он выявил платежный рынок, который реально растет — — реальный объем платежей удвоился с 2024 по 2025 год — — но при этом он сконцентрирован на институциональной стороне структурным, а не случайным образом. Рост B2B на 733% — это не история отложенных потребителей, а история процесса, который уже «созревает» в финансовом смысле. Компании, которые строят на рельсах стейблкоинов сегодня, решают реальные операционные проблемы — — трансграничное трение, неэффективность банковских посредников, задержки оборотного капитала — — и эти проблемы никак не связаны с тем, держит ли потребитель кошелек со стейблкоинами. Так или иначе, они будут продолжать строить.
2
0
0
0
MaticHoleFiller

MaticHoleFiller

04-05 22:45
>   Покупать акции нужно по отчетам аналитиков Golden Qilin — это авторитетно, профессионально, своевременно и всеобъемлюще, поможет вам раскрыть потенциальные темы и возможности! (Источник:DeepTech深科技) Напишите функцию — ИИ почти непобедим; но почему, поддерживая систему, ИИ начинает рушиться? Сейчас искусственный интеллект уже вошел в «вторую половину». По мере того как растут способности ИИ к программированию, такие продукты, как OpenClaw, постепенно появляются и усиливаются — «CLI everything» становится реальностью: ИИ не нужно управлять компьютером, а вместо этого все интерфейсы преобразуются в интерфейсы командной строки (CLI), и одна за другой его «навыки» превращаются в функции программного обеспечения. Теперь агент — это уже не просто диалоговый инструмент для выполнения разовой задачи, а система, которая развивается в сторону долгосрочной эксплуатации, взаимодействия с реальным миром и выполнения сложных задач. Однако появляется новый вопрос: в процессе непрерывной эволюции ИИ сможет постоянно адаптироваться к новой среде и сохранять стабильность своих возможностей разработки? Главный AI-ученый в «офисе CEO/президента» Tencent Яо Шуньюй в блоге под названием «The Second Half» отмечал, что реальные задачи программирования имеют непрерывную зависимость, а не независимы и не выполняются параллельно, но в академической среде на сегодняшний день нет таких бенчмарков для оценки того, какие именно способности ИИ требуется в этом сценарии, более того, не хватает смелости нарушить широко принятую гипотезу независимости задач — очень давно используемую для упрощения проблем. Недавно совместная команда из Университета Южной Калифорнии, Университета Калифорнии в Риверсайде, Стэнфордского университета, Принстонского университета, OpenHands и др. опубликовала новый оценочный бенчмарк EvoClaw, предложив решение указанной проблемы. Исследовательская команда извлекла историю высококачественной эволюции кода из открытых проектов, чтобы агент в одной и той же кодовой базе последовательно выполнял десятки итераций функциональных изменений, взаимозависимых друг от друга. Результаты показывают: топовый ИИ демонстрирует отличные показатели в независимых оценочных задачах (80%+), но при входе в реальный сценарий длительного цикла даже у суммарно лидирующего Claude Opus 4.6 итоговый результат лишь 38.03%. Это означает, что ИИ при выполнении задач с большей свободой легко отклоняется от траектории, и все еще существует заметный разрыв до того, чтобы он действительно мог обрабатывать длительную, непрерывную программную эволюцию. (Источник:arXiv) Это исследование раскрывает, что в долгосрочной эволюции ИИ крайне легко впадает в технологический долг по принципу «снежного кома». Хотя он может продолжать добавлять новые функции, он не способен контролировать возврат и накопление ошибок, что в итоге приводит к потере контроля над системой. Это также означает, что программирование ИИ меняется: оно переходит от написания кода к управлению системой. Соответствующая статья называется «EvoClaw: Evaluating AI Agents on Continuous Software Evolution»(EvoClaw: Evaluating AI Agents on Continuous Software Evolution) и в последнее время опубликована на сайте препринтов arXiv[1]. Рисунок丨 Соответствующая статья (Источник:arXiv) Существующие оценки программирования ИИ не совпадают с реальным опытом — где проблема? Почему топовые модели получают высокие баллы в независимых тестах, но в EvoClaw терпят коллективную неудачу? Корень проблемы в том, что изменился подход к оцениванию. В прежних исследованиях основной акцент в бенчмарках программирования (benchmark) в большинстве случаев делался на независимые задачи: задается тема (issue) или pull request (PR, Pull Request), модель на статическом снимке кода завершает исправление, а проверка пройдена — и на этом оценивание заканчивается. Но между результатами прошлых бенчмарков и реальными возможностями разработки существует разрыв, который нельзя игнорировать: статическая среда — это относительно идеальное состояние, а реальная — более сложная и динамичная. С течением времени даже небольшая ошибка месячной давности после обновлений и итераций может разрастаться как снежный ком и в конечном итоге приводить к краху системы. (Источник:arXiv) Первый автор статьи, студент PhD Южно-Калифорнийского университета Дэн Ганъда, рассказал DeepTech: «Текущая гранулярность commit и release либо слишком мелкая, либо слишком грубая. Поэтому эти истории разработки не отражают процесс эволюции ПО». Рисунок丨 Дэн Ганъда (Источник:опрошенный) Исследовательская команда впервые ввела временное измерение в оценку возможностей программирования ИИ, применив новую иерархию — вехи (Milestone), чтобы реконструировать историю эволюции ПО. Это позволяет получать функциональные единицы, которые одновременно сохраняют семантическую целостность и способность сохранять зависимости эволюции. Ей требуется, чтобы ИИ на одной и той же кодовой базе последовательно, в порядке очередности, завершал множество функциональных единиц: так сохраняется выход на каждом шаге и он становится точкой отсчета для следующего шага. (Источник:arXiv) Чтобы поддержать извлечение высококачественной истории эволюции ПО из большого числа репозиториев с открытым кодом, исследователи, опираясь на сильные возможности топового ИИ, предложили набор агент-ориентированного автоматизированного конвейера DeepCommit, впервые реализовав реконструкцию шумных Git-записей в верифицируемый, функционально связный граф зависимостей задач-вех (Milestone DAG), а также построение оценочной среды для каждой вехи. Он включает три этапа: предварительная обработка Git-истории, построение DAG под управлением Agent и настройка среды вех и верификация. На самом деле реконструировать агентную историю эволюции с помощью Milestone непросто, потому что нужно не только сконструировать статический, чисто наблюдаемый DAG, но и выстроить целую цепочку исполнимых оценочных сред; при этом требуется обеспечивать корректность при изменении зависимостей эволюции. Это означает, что при перемешивании общего порядка commit и их повторной кластеризации могут возникнуть ситуации, когда commit нельзя применить, интерфейсы не совпадают и возникают масштабные ошибки компиляции. Для решения этой проблемы исследователи разработали итерационный цикл исправлений: Agent сам анализирует логи ошибок, динамически модифицирует Dockerfile, чтобы гарантировать исполнимость. Ключевое же в том, что он дополнительно включает пропущенные неявные зависимости, опираясь на исходный DAG: за счет корректировки отношений ограничений «веха-до/после» проблемы конфликта интерфейсов удается должным образом устранить. После многократных итераций в итоге получилось корректно собрать 87.1% исходных тестовых случаев. «По сравнению со сценарием одиночной задачи программирования, стабильное, надежное и эффективное долгосрочное автономное программирование — это более передовой фокус исследований. Например, Anthropic и OpenAI прямо указывают, что они сместили центр тяжести на тренировку моделей долгосрочным навыкам программирования». — сказал Дэн Ганъда. Рисунок丨 Схема архитектуры конвейера DeepCommit (Источник:arXiv) Исследователи сравнили эволюционный граф, автоматически сгенерированный DeepCommit, с ручными аннотациями человеческих экспертов. Их удивило то, что две стороны используют разные логики организации и при этом дополняют друг друга. В частности, вехи человеческих экспертов обычно располагаются в локальном временном окне: сначала фиксируется тема, затем собираются commit — это семантическое разбиение сверху вниз. DeepCommit, чтобы обеспечить абсолютную точность, исходит из зависимостей между коммитами, и реконструирует эволюцию ПО снизу вверх, при этом сильнее делает акцент на топологической структуре и ограничениях на исполнение. Для оценивания это как раз означает, что ключевой момент DeepCommit в том, что из истории разработки кода он извлекает исполнимую и верифицируемую структуру вех. По результатам видно, что DeepCommit способен отбирать вехи высокого качества, пригодные для оценки, и обеспечивает их исполнимость и верифицируемость в реальной среде, тем самым гарантируя надежность оценивания. Почему как только модель попадает в реальную разработку, результаты «проваливаются вдвое» коллективно? EvoClaw охватывает пять распространенных языков: Python, Java, Go, Rust и TypeScript. Выбранные проекты имеют максимальный реальный цикл разработки до 750 дней. Что касается оценочных метрик, исследовательская команда не использовала простую метрику прохождения, а ввела два более ключевых измерения — F1 с весовой интеграцией Recall (полнота) и Precision (точность) — в качестве оценки каждой Milestone. При этом recall используется для измерения полноты реализации функций, а precision фиксирует, насколько сильно модель при добавлении новых функций разрушает существующий код. Исследовательская команда тестировала множество комбинаций фреймворков и моделей, включая Claude Code, OpenHands и др. Результаты показывают: в независимых оценках баллы в большинстве случаев у топовых моделей находятся в диапазоне 80%-90%, но после проведения бенчмарк-тестов EvoClaw они резко и коллективно падают. Даже у Claude Opus 4.6, набравшего самый высокий результат, итог лишь 38.03%. Рисунок丨 Основные результаты экспериментов EvoClaw (Источник:arXiv) GPT 5.3 Codex с комплексным баллом 28.88% идет сразу после Opus4.6, занимая второе место. По разбиению на репозитории: GPT 5.3 Codex слабее всего показал себя в двух Rust-проектах (Nushell、ripgrep), а в остальных репозиториях способен быть близко к Opus4.6 или даже превосходить его. В полной решаемости (полностью решенные случаи) у лидера Gemini 3 Pro всего 13.37%, и подавляющее большинство правильно реализованных задач — это те, у которых нет предварительных зависимостей. По имеющимся сведениям, исследователи держали общие расходы в разумных пределах: например, для Claude Opus 4.5 стоимость полного прогона оценки составляет около 500 долларов; Kimi K2.5 и Gemini 3 Flash — в пределах 50 долларов; расходы малых моделей будут ниже. (Источник:arXiv) Тогда если дать моделям более длинное окно разработки, смогут ли они в итоге на 100% довести проект до готовности? Исследование дает отрицательный ответ: независимо от того, насколько длинным будет окно разработки, в конечном итоге все модели упрутся в «потолок». Чем позже выполняется порядок задач и чем глубже уровень в DAG, тем ниже будут баллы и коэффициент решения. Результаты экстраполяции за пределы функции насыщения доказывают, что даже у оптимального Opus 4.6 накопленный балл будет «зажат» примерно на 45% по асимптотической линии. «Хотя Opus 4.6 на сайте Anthropic упоминает, что он лучше 4.5 в задачах долгого цикла, но там не приводятся подробные оценочные показатели. EvoClaw можно считать проверкой их утверждения с другого ракурса». — сказал Дэн Ганъда. Кроме того, в экспериментах также видны заметные различия между семействами моделей. В частности, у Claude и GPT в сценариях непрерывной эволюции показатели стабильно улучшаются с обновлениями версий. Причем Opus 4.6 в программировании долгого цикла демонстрирует, что его способности к обслуживанию системы лучшие; GPT 5.3 снижает баллы из-за слабых результатов на Rust-датасете и занимает второе место. (Источник:arXiv) Особенно неожиданно, что у семейства Gemini наблюдается полностью иной тренд: от 3 Flash к 3 Pro и далее к 3.1 Pro — каждая новая генерация быстрее стартует на ранних стадиях и демонстрирует более сильное начало, но ее дальнобойные результаты почти не улучшаются. Дэн Ганъда объяснил: «Явный спад качества работы Gemini в долгосрочных запусках означает, что ухудшается не только соблюдение инструкций, но и все больше игнорируются требования спецификаций программного обеспечения (SRS), а также проявляется недостаток обслуживания построенной программной системы». Когда исследователи разложили общий балл дальше на recall и precision, появилось еще более интересное явление: recall почти постоянно растет, близко к линейному увеличению. Это означает, что даже если кодовая база становится все более хаотичной и хрупкой, агент все еще хорошо справляется с реализацией текущих новых целевых функций. Настоящий узкий момент — precision: агенту трудно поддерживать существующую систему, а скорость накопления регрессионных ошибок превышает его способность исправлять эти проблемы. Именно это и является фундаментальной причиной того, что долгосрочная разработка в итоге останавливается. Рисунок丨 Слева: схема цепочки ошибок; справа: распределение цепочки ошибок (Источник:arXiv) Чтобы глубже понять коренную причину того, почему модель выходит из-под контроля в итерациях, исследовательская команда предложила аналитическую рамку «цепочки ошибок» (Error Chains). Они отслеживали каждый тест, начиная с первого возникновения ошибки, и наблюдали, наследуется ли ошибка в последующих Milestone, распространяется, пропускается или исправляется. Результаты показали: скорость появления новых проблем не ускоряется; модель даже может существенно пассивно исправлять часть ошибок из прошлой истории, но скорость накопления «передних» ошибок намного превышает скорость исправлений. В итоге система попадает в «банкротство технологического долга». Для отладки AI Harness — универсальное оценивание В последнее время очень популярна концепция «Harness Engineering»: надеется настроить весь процесс разработки ПО так, чтобы среда подходила для участия Agent. Бенчмарк EvoClaw предоставляет такую универсальную песочницу, которая подходит для отладки AI Harness и оценки долгосрочной эволюции кода. Например, в провальных кейсах, упомянутых в этом исследовании, если Agent внезапно начинает проявлять чрезмерную активность в итерациях или бесконечно редактирует и снова и снова проверяет, вероятно, Agent столкнулся с трудностями. В таком случае можно заранее обнаружить проблему и вовремя вмешаться вручную, выстроив ограждения (guards) в соответствующих местах — так повышается эффективность. Раз уж архитектура модели наделяет Agent общим свойством, при котором он «сильнее реализует новые функции, чем поддерживает старые долгосрочные», то может ли в будущем это привести к появлению новых форм программного обеспечения и новых моделей разработки? Например, ПО будет сильнее подчеркивать гибкость и совместимость; а также более надежно — за счет крупных перестроек и реорганизаций. Либо оно станет более одноразовым: конкретная бизнес-логика генерируется в реальном времени и не требует обслуживания; акцент будет сделан на усилении повторно используемых компонентов и инфраструктуры. Исследовательская команда считает: при разработке можно несколько ослабить требования к качеству ПО, чтобы сократить число вмешательств человека, взамен увеличить пропускную способность и в итоге ускорить итерации ПО. Дэн Ганъда отметил: «Это исследование доказывает, что мы идем по правильному пути: долгосрочная способность ИИ к программированию еще не уперлась в узкое место, и она может стабильно расти со временем. Есть потенциал, что в один прекрасный день количественное изменение в рейтинговых баллах перейдет в качественное изменение, меняющее мир». С развитием технологий будущее для ИИ может выглядеть так: от постепенного сокращения участия человека в разработке ПО, к тому, что ИИ самостоятельно выдвигает новые требования для эволюции кодовой базы, и затем к тому, что ИИ полностью превосходит человека, отказывается от человека и в конечном итоге реализует непрерывную самопроцессию. Список литературы: 1. Соответствующая статья: 2. Домашняя страница проекта: 3. Верстка: Лю Якун Огромный поток новостей и точная интерпретация — все в Sina Finance APP
1
0
0
0