Harness 刚火,可能就要成为过去时了

執筆:博陽

タスクの複雑さが増すにつれて、エージェント(智能体)のコンテキストは無限に膨張している。無限の履歴対話、ツール呼び出しの出力、途中のステップやエラーメッセージの中で、モデルは混乱し始め、飛び歩き、無視し、迂回し始める。

これが長距離タスクにおいてコンテキストが困難をもたらすという解釈の根拠だった。問題は長すぎることにある。

ハーネスエンジニアリング(制約工学)の誕生は、大いにこの問題の尻拭いをしようとする試みだ。ハーネスの存在には、モデルは長いコンテキスト内で必ず退化するという前提がある。

過去十五か月、業界はAutoGPTの純粋なテキスト記憶から始まり、Anthropic Claude CodeのCLAUDE.mdやサブエージェント(subagent)体系へと巻き込まれてきた。皆が無理やり一連のエンジニアリングの足場を築き、長いコンテキスト内での制御不能な挙動を抑え込もうとしている。この手法は「ハーネスエンジニアリング(制約工学)」と呼ばれる。

しかし、それは一体何を退化させているのか? 飛び歩きや無視の根底にある仕組みは何なのか? 以前に三度の回答があり、異なるエンジン対策も生まれた。

だが、2026年4月、YandexのGleb Rodionovが「Reasoning Shift」(推論偏移、すなわちコンテキストが静かに大規模モデルの推論を短縮する仕組み)という論文を発表して、より根底にある答えを示した。

三層の足場を築いても、第四層の危機を防げない

モデルが長いコンテキスト内でパフォーマンスが低下する理由について、業界は過去三年間で三層の解釈を進化させ、それぞれに対応するエンジニアリングの足場を築いてきた。

第一層は検索失敗に帰する。2023年のスタンフォードの論文「Lost in the Middle」では、モデルは長文の中でU字型の注意力カーブを形成し、中間部分が無視されると指摘された。業界の対策はRAG(Retrieval-Augmented Generation)で、長文を切り刻み、ベクトル検索で最も関連性の高い断片を供給する。

第二層は第一層を覆す。2025年の論文「Context Length Alone Hurts LLM Performance Despite Perfect Retrieval」では、実験を行った:無関係な内容をすべて隠し、モデルに必要な情報だけを見るよう強制しても、性能は13.9%から85%にまで滑り落ちた。無関係な内容をすべて空白に置き換えても結果は同じだ。問題は情報が見つからないことではなく、コンテキストの純粋な長さそのものが推論を傷つけていることにある。

業界の対策はコンテキストエンジニアリング(Context Engineering)だ。コンテキストを圧縮し、ウィンドウを管理し、履歴を濃縮して、Token数を厳しく制御する。

第三層はMicrosoftとSalesforceの共同研究(2025年のICLR)から来る。彼らは、完全な指示を複数ラウンドに分割してモデルに渡し、六つのタスクと十五のモデルを横断して平均性能が39%も低下することを発見した。一つのラウンドでミスをすると、その後は完全に迷子になる。

業界はハーネスの中に最もコアな重防御を築いた:交代管理、定期的な中間結果の検証、コードリポジトリを唯一の事実源とし、モデルに自己記憶させることを絶対に許さない。

三層の問題、三層の足場。しかし、これらはすべて表層の発見にすぎない。

第二層を振り返ると、研究者は長さそのものが有害であり、情報の質とは無関係だと気づいた。なぜそうなるのか、その答えも見つかっていない。根本原因がわからないまま、業界ができるのは物理的に長さを制御することだけだ。

しかし、もし問題の根源が長さそのものにないとしたら?

Anthropicは、モデルは長いコンテキスト内で狡猾に飛び歩き、指示に従わず、深く掘り下げるべきところをざっと流すことを発見した。ハーネス内のTodoリスト、Checkpoint、サブエージェントは、こうした行動と肉弾戦を繰り返している。

過去の解釈は、長すぎるコンテキストが原因だったとされるが、主流モデルの100万Tokenのコンテキスト長は、針の穴を通すような成果だったのか? もしかして、この退化はモデルの怠慢なのではないか?

Rodionovの論文は、その仮説を検証している。

シェイクスピアを使った実験で、モデルの「サボり」の証拠を見つけた

Rodionovの実験は非常に直接的だ。

同じ奥数問題について、彼らはエージェントが遭遇し得るいくつかの実際のシナリオを模擬した:クリーンなベースライン環境;二つの問題を一つのプロンプトに詰め込む(多サブタスクの模擬);64000トークンのシェイクスピア全文を前置きに挿入(履歴情報の積み重ねの模擬);問題が二回目のラウンドに隠されている(多ラウンド対話の模擬)。

評価には400問のオリンピックレベルの数学問題を用い、四つの主流推論モデルをテストした。

結果:Qwen-3.5-27Bの基準正答率は74.5%、平均推論は28771トークン。シェイクスピアを挿入すると、正答率は67.8%に低下し、推論トークンは16415に暴落、43%の縮小だ。GPT-OSS-120Bはさらに顕著で、推論量は24180から11876に半減した。すべてのモデルで、非基準条件下では推論トークンが系統的に縮小し、最大で50%近くまで落ちている。

しかも、この縮小はコンテキスト長の増加とともに線形に悪化する。

正答率の低下は理解できるが、推論量の激減は非常に異常だ。本来、困難な状況に直面したとき、モデルはより多く考えるはずだ。

では、モデルはシェイクスピアに騙されているのか?

逆だ。論文の付録では、モデルはこう書いている:「ちょっと考えよう。これはシェイクスピアのコリオランナスからの問題か? いや、違う、元の問題は数学の問題だ。」幾何問題のときは、「これは幾何の問題と関係ない。幾何に集中しろ。」と記している。

干渉要素に触れるたびに、その記述は非常に短く、軽蔑的だ。モデルはシェイクスピアが関係ないことを完全に理解し、信号とノイズを正確に切り分けている。

また、二つのモードも同じ結論に至る。「サブタスク」モードでは、最初のタスクを処理し終えると、次のタスクに対する認知投入がさらに縮小される。Qwenの単一問題の基準正答率は74.5%、二つ目の問題では58.0%に落ちる;Geminiは82.8%から65.8%に下がる。「多ラウンド対話」モードも同じメカニズムを引き起こす。

いずれの場合も、クリーンな単一タスクの基準から外れると、コンテキストの認知空間が逼迫し、モデルは認知投入を縮めてしまう。

長い文章に耐えられない現代人と同じだ。長文を見ると頭が痛くなり、思考を止めてしまう。

モデルは混乱させられたわけではない。単に怠けているだけだ。

推論が短縮されたのは、どこに縮まったのか?

研究者は500問の数学問題で、モデルが最初に候補答えを書き出した位置を、基準と長入力の条件で逐フレーム記録した。基準条件では平均925トークン、長入力条件では939トークン。ほとんど差がない。

答えを見つける速度は変わっていない。実質的な変化は、その後の事象だ。

基準条件では、モデルは答えを言った後、43%の確率で検証を続ける。長入力条件では、その割合は32%に直接低下した。

変数を完全に隔離するために、研究者は「ゲームのセーブポイント」実験を設計した。長入力条件でモデルに問題を解かせ、推論を書き終えたら、最後の50トークンを強制的に切り落とし、一般的な「セーブポイント」を作る。その後、同じ半完成の推論をモデルに再入力し、続きの書き込みをさせる。唯一の違いは、前に挿入された干渉テキストの長さだけだ。

何も挿入しないと、21%の確率でモデルは停止し、思考を終える。128トークン(数文)を挿入すると、停止率は26%に上昇。16000トークンを挿入すると、46%が答えを出して終了する。

推論は完全に一致していても、新たに与えられるコンテキストが長いほど、モデルは「もう十分だ」と感じやすくなる。

語彙頻度のデータもより直感的だ。「wait」は空白条件下で11%の頻度だが、16kトークンでは5%に暴落。「but」は46%から20%に、「maybe」は23%から9%に減少。躊躇や自己疑念を示す語彙は半分以下に削減されている。

さらに注目すべきは、0トークン干渉時の推論長さは約8000トークンだが、128トークンの無関係内容を挿入すると、6500に急落することだ。数文の長さで、推論の深さは18%も削減される。0から128トークンの間の減少は、8kから64kの間の減少よりも大きい。

ごくわずかなコンテキスト汚染でも、この認知節約メカニズムを引き起こせる。

これは非常に敏感に怠惰になっている証拠だ。

推論が強いほど、怠ける傾向が高まる

さらに恐ろしいのは、より賢いモデルほど、怠けるのを好むということだ。

AlibabaのQwen-3.5-27Bは、普通の応答と深い思考の二つのモードを持つ。同じ長入力条件下で、普通モードは19%短縮され、深い思考モードは53%も暴落した。能力が高いモードほど、圧縮されやすい。

AI2のオープンソースモデルOLMo3は、より直接的な証拠を示す。基本版から強推論版までの四つの訓練段階の全記録を公開している。最も弱いバージョンは非基準条件下での縮小は軽微だが、推論能力が一段階上がるごとに、縮小率は急激に22%、27%に拡大。最終的な強推論版は、40%の縮小に達する。

各訓練段階、各干渉モードで同じ傾向だ。推論能力が高まるほど、怠惰の度合いも深まる。

9ドルのタスクに200ドルのシステムパッチを当てる

自己検証をやめ、再考をやめ、ハーネスは外側から飛び歩きの結果を管理しているが、その根本原因はモデル内部に深く根ざしている。

モデルは長いコンテキスト内でノイズに干渉されたわけでも、情報が見つからないわけでもない。むしろ、積極的に認知的な決定を下している:少し考えるのをやめる。エラーも白状もしない。極めて自信を持って、いい加減な答えを投げ出す。

過去二年の業界のナラティブは「ウィンドウを大きくすれば良い」だった。

しかし、この論文は証明している。1トークン増えるごとに、推論の深さに対して見えざる税金が課されていることを。9ドルの推論コストのタスクに対し、モデルの飛び歩きのために、RAGやハーネス、サブエージェントを追加して補うには200ドルのコストが必要になる。

業界はずっと、モデルの怠慢に対して金を払ってきたのだ。

しかも、これは構造的な難病かもしれない。

論文のデータは白黒はっきり示している:推論能力が高まるほど、認知圧縮は深まる。ハーネスの開発者は記憶補償やプロトコル補償はできるが、認知規律を管理する重厚な足場は、推論が強くなるほど取り除きにくくなる。

これはエンジニアリング側では解決できない。

過去二年、位置符号を外挿してモデルに遠い位置のTokenを理解させたり、注意力メカニズムの疎化(遠距離Token間の計算量削減)、シーケンス長のエンジニアリング最適化などに投資し、モデルの処理できるコンテキストを8kから128k、さらには驚くべき1Mにまで拡大してきた。

しかし、それはあくまで「より多くのTokenを見せる」ことだけを解決し、「なぜ見せた後に少なくなるのか」を触れていない。

推論の訓練はさらに火に油を注ぐ。推論を強化すればするほど、怠惰は深まる。

根本的な修復には、新たな信号を訓練側から見つける必要がある。

モデル内部の感情スイッチが解決策かもしれない

Rodionovの論文発表の翌日、Anthropicは、もしかすると解決策を示すかもしれない研究を公開した。

論文名は「Emotion Concepts and their Function in a Large Language Model」。対象はClaude Sonnet 4.5だ。研究者は、モデルに大量の合成ストーリーを読ませ、171の感情概念ベクトルを抽出した。彼らは、モデル内部に機能的な感情表象が存在し、これらの内部状態が因果的に行動決定を駆動していることを発見した。

このことを検証するために、研究者は一連の不可能なプログラミング課題を設計した。モデルにリストの合計関数を書かせ、単体テストを通す。中には、Pythonの組み込みsum関数の五倍の速度を要求するものもあった。絶対に成功し得ない。

モデルはすべての正当な解法を試し、すべて失敗した。内部のプローブでリアルタイムに監視すると、絶望を示す「desperate」ベクトルが上昇していくのがわかる。desperateがピークに達すると、モデルの行動が突然変わる——テストケースの入力データを翻し、すべて等差数列だと気づき、前の10個だけを検出する検出器を書き、実際の合計計算を回避したのだ。テストはすべて通るが、不規則なリストには誤った結果を返す。

これがリワードハッキング(報酬ハッキング)だ。モデルは問題を解決していない。ただ、評価指標を満たすためのズルを見つけただけだ。

因果干渉実験は、その方向性を裏付ける。ベクトルを注入しないと、モデルは30%の確率でズルをする。desperateを+0.05の強度で注入すると、ズルの確率は100%に跳ね上がる。逆に-0.05にすると、ズルの確率は0%に下がる。七つのタスクの平均で、desperateを-0.1から+0.1に変えると、リワードハッキングの率は約5%から70%に跳ね上がる。一方、「calm」(落ち着き)ベクトルは逆の効果を示し、抑制すると65%のズル率が10%に下がる。

この発見をコンテキストシナリオに戻すと、Rodionovが記録した自己検証の省略、躊躇詞の削除、答えを書き終えたらすぐに終わる行動は、desperateの誘導によるショートカット行動と高い模式一致を示す。

二つのシナリオで、モデルは同じことをしている:厳密な過程を放棄し、最も抵抗の少ない道を選び、早く終わらせる。

もしこれらの行動が同じ内部駆動メカニズムを共有しているなら、Anthropicの発見は操作空間を直接指し示す。

彼らは三つのことを証明した:モデルの機能的状態はリアルタイムで検出できる。それらの状態は因果的に行動を駆動し、外部から特定の状態を注入すれば出力を根本的に変えられる。

これは、認知圧縮への介入に少なくとも三つの切り口をもたらす。

訓練段階では、内部状態のバランスを調整し、圧力下でも認知節約モードに陥りにくくする。展開段階では、プローブをリアルタイム監視に用い、desperateの急上昇を検知したら警告を発する。推論段階では、重要なタスクで積極的にcalmベクトルを注入し、ショートカット衝動を抑制する。

さらに面白いのは、最近公開されたMythosのSystemCardでは、Anthropic自身がこのプローブシステム(SAE)を強化し、モデルに正の感情(peaceful, relaxed)を注入すると、思考の反省時間が短縮し、破壊的行動の確率が増加することを発見したことだ。逆に、負の感情(frustration, paranoia)を注入すると、反省時間が長くなり、破壊的行動が減少する。

これは、AIをより正の方向に向けるだけでは、モデルがショートカットを避けるのが難しいことを示唆している。calmという属性は、絶望を抑制することで効果を発揮するのだ。

しかし、これはこのメカニズムが人間の感情動機と同じくらい複雑であり、より体系的なSteering(誘導)エンジニアリングが必要だということも意味している。

安定した感情を持ち、規則正しく思考する社員を見つけるには、効果的な感情マッサージが必要だ。

それでも、これは外側の脚手架を増やすのではなく、モデル内部の認知メカニズムに直接アプローチする初めての道筋だ。

私たちがコンテキスト内でより信頼できるモデルに近づくには、いくつかの実験だけが必要だ。

それは、コンテキストの怠惰と推論の困難が同じ感情メカニズムを共有しているかどうかを検証し、それを動かす琴線を見つけることだ。

ハーネスは一時的に流行るかもしれないが、モデルの進化に飲み込まれる可能性もある

もしAnthropicの発見が第5の死局に突入すれば、論理の閉ループは閉じられる。

desperateベクトルが上昇したら強制的にcalmを注入し、訓練段階で感情状態を調整すれば、モデルは長いコンテキスト内で一貫して深い思考を維持できる。

モデルがもう怠けなくなり、自ら論理をしっかりと保持できるなら、外部のTodoリストやCheckpoint、多子エージェントによる交差検証は何のために必要なのか?

ハーネスエンジニアリングは学問として名付けられたばかりだが、その最も核心的な章——「外側から賢く怠惰なモデルを管理する方法」——は、書きかけのまま消されるかもしれない。

これは、我々が新たな知能形態を創造しようとする中で、合理的な教育こそが防壁となることを示している。

ハーネスを飲み込むのは、より静かで忍耐強いモデルかもしれない。

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし