Claude Opus 4.5は、実際のソフトウェアエンジニアリングタスクをテストするベンチマークであるSWE-bench Verifiedで80.9%のスコアを獲得しました。これは、OpenAIのGPT-5.1-Codex-Maxの77.9%やGoogleのGemini 3 Proの76.2%を上回っています。Anthropicは、Opusが内部のパフォーマンスエンジニアリング試験で、すべての人間候補者を上回ったと述べています。この試験は、プレッシャーの下での判断力を評価するために設計された2時間の評価です。
SonnetやGPT-5と同様に、Claude Opus 4.5はAnthropicが「ハイブリッド推論」アーキテクチャと呼ぶものを使用しています—直接推論と思考の連鎖処理の両方のために訓練された単一のモデルです。それは200,000トークンのコンテキストウィンドウをサポートし、最大64,000トークンを出力できます。このモデルの知識のカットオフは2025年3月で、Sonnetの1月の日付よりも少し早いです。
Anthropic、Claude Opus 4.5でAIモデルアップグレードを完了し、価格を大幅に引き下げる
デクリプトのアート、ファッション、エンターテインメントハブ。
SCENEを見る
Anthropicは月曜日にClaude Opus 4.5をリリースし、3モデルのファミリーを完成させ、わずか2ヶ月で同社の3回目の大規模なローンチを記録しました。この新しいフラッグシップモデルは、コーディングベンチマークでトップの座を主張し、価格を劇的に引き下げています。
リリースは、9月下旬にClaude Sonnet 4.5で始まり、10月にClaude Haiku 4.5で続いた迅速な展開の最終段階を迎えます。今や兄弟たちと共にOpusが加わり、Anthropicは開発者に完全なツールキットを提供します: 複雑な制作作業にはOpus、日常的なタスクにはSonnet、シンプルなロジックを必要とするスピードと効率に関連するタスクにはHaikuが使用されます。
Claude Opus 4.5は、実際のソフトウェアエンジニアリングタスクをテストするベンチマークであるSWE-bench Verifiedで80.9%のスコアを獲得しました。これは、OpenAIのGPT-5.1-Codex-Maxの77.9%やGoogleのGemini 3 Proの76.2%を上回っています。Anthropicは、Opusが内部のパフォーマンスエンジニアリング試験で、すべての人間候補者を上回ったと述べています。この試験は、プレッシャーの下での判断力を評価するために設計された2時間の評価です。
AIの巨人たちの間で、年末にリーダーボードのトップに立つための競争が繰り広げられています。Googleは11月18日にGemini 3 Proを発表し、これをマルチモーダル推論のブレークスルーとして位置付けました。OpenAIは翌日にGPT-5.1-Codex-Maxで対抗しました。
<br>
AnthropicのOpusへの回答は数日後に届きましたが、フックがありました:入力トークン1百万あたり$5 、出力トークン1百万あたり$25 という価格設定で、これは以前のOpusモデルから67%の削減を示しています。
アリババのQwenモデルは競争に新たな次元を加えています。会社は1月下旬にQwen2.5-Maxをリリースし、20兆以上のトレーニングトークンを用いて、DeepSeek-V3の主要なベンチマークを上回ると主張しています。9月に発売されたQwen3-Maxは、1兆以上のパラメータを持ち、LMArenaで世界的に3位にランクインし、深い研究やマルチモーダル推論、東洋言語でのワークフローなどのさまざまなタスクに優れています。Qwenモデルは西洋市場では比較的無名ですが、米国のチップ輸出制限の中で中国のAI自立への推進を象徴しています。
その価格設定は、OpenAIの最新のGPT-5.1 ($1.25/$10)とAnthropicの古いOpus 4.1 ($15/$75)の間に位置していますが、Gemini 3 Proの$2/$12よりも依然として高価です。この削減は、市場の圧力を示しており、主要なAIラボが能力だけでなく、フロンティアインテリジェンスをスケール展開のために経済的に実現可能にすることを競っています。
クロードの最新の提供は、多くのアジアの競合他社よりも依然として高価ですが、少し能力が向上しています。したがって、ユーザーはコスト効率と純粋な技術的能力の間で選択することができるようになりました。
ソネット4.5は9月30日にリリースされ、最新のコーディングとエージェント機能を手頃なコストで提供し、特定のタスクにおいてすでにオーパス4.1より優れていました。よりシンプルな俳句4.5は10月15日に発表されました。オーパス4.5は現在、最も難しい推論と長時間のタスクを処理し、トップに君臨しています。
SonnetやGPT-5と同様に、Claude Opus 4.5はAnthropicが「ハイブリッド推論」アーキテクチャと呼ぶものを使用しています—直接推論と思考の連鎖処理の両方のために訓練された単一のモデルです。それは200,000トークンのコンテキストウィンドウをサポートし、最大64,000トークンを出力できます。このモデルの知識のカットオフは2025年3月で、Sonnetの1月の日付よりも少し早いです。
開発者のサイモン・ウィリソンは、週末にOpus 4.5を広範囲にテストし、彼のプロジェクトの一つをリファクタリングするために使用しました。このモデルは39ファイルにわたる20のコミットを処理し、2,022行を追加し、1,173行を削除しました。"明らかに優れた新しいモデルです"とウィリソンは書いていますが、その後Sonnet 4.5に戻ることで彼の生産性が劇的に低下することはなかったと指摘しました。
“新しいモデルがSonnet 4.5よりも改善されていないとは言っていませんが、私がそれに対して提示した課題が両者の能力の間に意味のある違いを特定できたとは自信を持って言えません。” と彼は書きました。
開発者、YouTuber、AIプラットフォームT3 ChatのCEOであるセオ・ブラウンは、Claude Opus 4.5を「クレイジー」と呼び、ビデオレビューで「間違いなく今まで作られた最高のコーディングモデルだ」と付け加えました。
競争環境はますます混雑してきています。GoogleのGemini 3 Proは先週の見出しを独占し、LMArenaで1501を記録し、SalesforceのCEOマーク・ベニオフから称賛を受けました。彼はChatGPTをGoogleのモデルに切り替えると言っています。この発表はAlphabetの株価を6%以上押し上げ、報じられるところによるとOpenAIのCEOサム・アルトマンを動揺させ、同僚にGeminiが「一時的な経済的逆風」を生むだろうと語った。
マイクロソフトとNvidiaは先週、Anthropicに数十億ドルの投資を発表し、スタートアップの評価額を約$350 億ドルに引き上げました。取引には、Azureの統合の拡大と、Claudeモデルのトレーニングと展開のためのNvidiaのインフラが含まれています。
Opus 4.5 は、Anthropic の API、AWS Bedrock、Google Vertex AI、Claude のウェブアプリとデスクトップアプリを通じてすぐに利用できます。