フランク、PANewsで
もしあなたが10000ドルを持っていたら、どの人工知能を信じて取引を任せますか?
これまで、PANewsはnof1.aiのAI取引コンペティションについての振り返りを行った(関連記事:六大AI「トレーダー」十日間の対決:トレンド、規律、貪欲に関する公開講座)。しかし、nof1.aiの競技は特定の市場状況に対して行われており、各AI大モデルの最終的な取引能力は特定の取引サイクルの下では完全には発揮されないようです。さらに、人々は異なる条件下でのAIモデルの実際の予測能力についても明確な答えを求めています。最近、各AI企業が最新の大モデルを発表したこともあり、モデルの能力ランキングも再編成の段階にあります。
この謎を解くために、PANewsは「AIトレーダー選手権」を企画しました。さまざまなシーンにおいて、AI大モデルの市場判断能力と取引計画能力を理解します。たとえば、どの時間枠の市場分析が得意であるか、また指標を補助条件として使用する場合、AIの予測成功率が向上するかどうかを検証します。
私たちはタイムラインを2017年から現在まで延長し、BinanceのBTCの歴史データから100の実際の市場スライスをランダムに抽出し、「4時間裸K」、「15分短期取引」、「4時間全指標」という3つの地獄級テストシナリオを構築しました。6人の参加者は、今日の中米の算力の頂点である:Gemini-3-pro、Doubao-1.6-vision、DeepSeek V3.2、Grok 4.1、GPT-5.1、Qwen3-max。
今回のテストでは、バイナンスのBTC現物取引ペアの2017年8月から現在までの15分足データと2021年から現在までの4時間足データを収集しました。各周期でランダムに生成された100本の足の期間を持つ50枚の画像が作成されました。4時間周期は2種類に分かれています。一つはK線と取引量だけの画像、もう一つはEMA、SMA、ボリンジャーバンド、MACD、RSIなどの指標情報を含むK線図です。15分足のK線図はすべて裸のK線図(取引量を含む)です。また、AIには現在のK線図に対応する具体的な価格データ値または指標データ値を同期しています。すべてのAI出力結果はここで確認できます。
!
インジケーター付きの4時間の概略図
4時間の純粋なローソク足の概略図
テストの過程で、各大規模モデルが取得するデータ情報とコマンドは完全に同じです。別の視点から見ると、これはこれらの大規模モデルのマルチモーダル能力を考査することにもなります(DeepSeekはテキストの大規模モデルしか持っておらず、最終的に受信するのはデータ情報のみで、画像は転送されません)。
Gemini 3は現在最もホットなAI大モデルで、11月18日の発表以降のメディアコメントやテストによれば、現在の総合能力が最も強いAIマルチモーダル大モデルと言えます。しかし、今回の取引予測テストにおいて、Gemini 3の結果は必ずしも最良とは言えず、普通の範囲に収まっています。3つのシナリオ(4時間裸K、4時間インジケーター付き、15分裸K)の中で、Gemini 3が最も良いパフォーマンスを示したのは4時間裸Kシナリオで、勝率は39.58%に達しました。次に良いのは15分裸Kシナリオで34.04%ですが、インジケーター付きの場合(同じ時間枠)4時間周期の正確性は逆に31%に低下し、3つのシナリオの中で最も悪い結果となりました。
この点から見ると、Gemini 3は純粋なローソク足パターンの状態においてより優れているようで、インジケーターを重ねると逆に干渉を受けやすくなります。具体的な操作プロセスにおいて、インジケーターなしの場合、Gemini 3はより積極的にポジションを開くようで、純粋なローソク足の場合、95%のマーケットがエントリーを選択しますが、インジケーターを追加するとこの割合は71%に減少します。特筆すべきは、Gemini 3が4時間の純粋なローソク足の状況で唯一の利益を上げたモデルであるということです。
15分間のシナリオでは、Gemini 3の全体的な利益状況が最も良好で、総ポジションの利益は15.34%であり、指標を含むシナリオでは21.18%の損失を出しました。ただし、この利益は短期的な幸運の一種であり、各回の利益と損失の比率データを考慮すると、Gemini 3の利益期待値(勝率*利益と損失の比率)はすべて1未満であり、つまり長期的には損失が出る状態を意味しています。
DeepSeekは、6つのモデルの中で勝率の総合的なパフォーマンスが最も良いモデルであり、相対的に最も安定しています。3つのシナリオ(4時間裸K、4時間指標付き、15分裸K)での勝率はそれぞれ40%、41.38%、42.86%です。この点から見ると、DeepSeekの予測能力は異なる周期や指標の有無にかかわらず比較的安定しています。
ただし、DeepSeekの最終的な利益状況は芳しくなく、損益比が非常に低いため、平均値は1.25に過ぎません。この利益を確保するための損益比は、DeepSeekが取引中に利益を伸ばす能力が欠けていることを示しています。そのため、総合的に見ると、利益の期待値はほぼ0.5程度であり、長期的にも利益の可能性が乏しいです。さらに、DeepSeekはポジションを取る決断においても比較的保守的であり、全体のポジション比率はわずか58%です。
このテストマッチでは、Doubao1.6-visionの総合結果が最も優れています。4時間の指標シナリオでは、Doubao1.6-visionの勝率はテスト中最高のデータに達し、50%に達しました。最終的な利益は22.2%です。同時に15分の短期サイクルでも、全体で8.2%の利益レベルを獲得しました。これは、2つの異なる次元(短期と4時間指標)で安定した利益を上げる唯一のモデルです。
そして、Doubao1.6-visionのこの結果は、相対的に保守的なスタイルの下で実現されたものではなく、平均開設比率が92%以上で達成されたということです。つまり、Doubao1.6-visionは、大多数のシナリオでポジションを取ることを選択しました。ただし、相対的に見ると、Doubao1.6-visionの能力は指標信号に依存しており、指標がない場合の総利益は38%も異なります。さらに、利益と損失の比率データから見ると、Doubao1.6-visionは正の利益が出た2つの期間において、平損比が高いことも、全体的な優れたパフォーマンスの理由となっています。
Grok 4.1の全体的なスタイルは大胆ですが、四半期の依存指標を持ちながら、より大きな利益を追求することをいとわないものです。三つのシナリオの中で、指標を持つ4時間の週内では、Grok 4.1は34.69%の勝率を得ましたが、残りの二つのシナリオでは勝率が非常に低いです。4時間純K線の場合、勝率は14.58%、15分周期内では26.53%です。しかし、平均的な開設比率は98%に達し、ほぼすべてのK線シナリオで開設を希望しています。この観点から見ると、Grok 4.1のスタイルは手が止まらないギャンブラーのようです。
ただし、Grok 4.1の損益比はしばしば高く、平均値は2に達しており、すべてのモデルの中で最高です。しかし、総合的に見ると、資金をGrok 4.1に任せるのは賢明な選択ではありません。
GPT 5.1の開発スタイルはGrok 4.1とは完全に正反対です。GPT 5.1は慎重さの点で極限に達しており、ほとんどのケースで彼は様子を見ることを選びました。最終的に150回のテストの中で、彼は52回しかポジションを開かず、平均の開設比はわずか0.34%でした。
しかし、このような慎重さであっても、GPT 5.1にはより良い勝率のパフォーマンスをもたらすことはできませんでした。最良のシナリオでも、勝率は35%に過ぎませんでした。また、4時間および15分後の後期と比較して、GPT 5.1は明らかに長期のポジションオープンが得意ではなく、技術指標を加えても4時間の勝率は27%にとどまりました。15分周期では、比較的高いリスクリワード比(2.02)のおかげで、正の収益フィードバックを得て、最終結果は9.9%となりました。
さらに、GPT 5.1の特徴の一つは明らかな悲観主義であり、ショートポジションを取ることに非常に熱心です。70%以上の注文がショートポジションです。
Qwen 3は明らかに最も慎重な大規模モデルであり、すべてのテストで合計44回しかポジションを開いておらず、ポジション開設率はわずか29%です。しかし、GPTと同様に、この徹底した慎重さはより高い勝率をもたらすことはできませんでした。彼の勝率の平均は34%であり、最も良いシナリオは4時間の指標付きのシナリオです。
さらに、Qwen 3のリスク利益比も高く、1.96に達しています。リスクを嫌うプレーヤーに属しているようで、ポジションの回数を減らすことが得意ですが、利益を伸ばすことに注力しています。また、4時間のバンド指標のシナリオにおいて、Qwen 3の利益期待値も最も利益に近く、0.95に達しており、すべてのモデルの中で最高です。
データ集約
総合的に見ると、私たちはこれらのAIのシミュレーショントレーディングプロセスから以下の点を得たかもしれません。
第一に、ほとんどのモデルにとって、指標がある方が純粋なK線チャートよりも信頼性が高いです。指標がある場合、これら6つのモデルの平均勝率は38%に達し、指標がない場合の勝率は30%しかありません。
第二に、AIは短期取引においてより得意であり、長期取引ではない可能性があります。15分の純Kラインのシナリオでは、6つの大モデルの平均勝率は34%に達し、4時間の周期の30%を上回っています。6つのモデルのうち3つが利益を上げており、(Gemini、GPT、Doubao)、平均的な利益と損失の比率は一般的に良好です。
第三、ポジションを完全にAIに委ねることは推奨できません。このテストの過程で、すべてのAIモデルの利益期待値は1未満であり、これは長期的に見てこのような勝率とリスクリワード比で彼らの最終結果はすべて損失となることを意味します。ただし、損失の速さの違いに過ぎません(ここではAIモデルに特別な調整を行っておらず、使用されている指標も比較的単純な一般的な指標に過ぎません)。したがって、AIに自分の代わりに取引をさせたい場合は、より複雑な調整プロセスとより多くのバックテストデータが必要になる可能性があります。
この計算力の対決が幕を下ろすとき、口座残高の最終的な数字を見て、私たちが得る最も重要な示唆は「どのモデルが最強か」ではなく、「AI取引の限界はどこにあるか」ということかもしれません。最終的な結論は、今日のAIは優れたファンドマネージャーを直接代替することはまだできないかもしれませんが、すでに片面では相対的に成熟した取引アシスタントに進化しています。中にはチャートを見るのが得意なもの、リスク管理が得意なもの、安定した勝率を実現するデータ分析が得意なものもいます。そして、人々のAIに対する期待が高まる中で、AIに人間を代替させて取引を行わせることは依然として複雑な命題です。
51.41K 人気度
15.05K 人気度
49.33K 人気度
92.83K 人気度
29.66K 人気度
量化の視点から見るAI評価:全員の利益期待値が1未満、人工知能はトレーダーを置き換えるまでどれくらいの距離があるのか?
フランク、PANewsで
もしあなたが10000ドルを持っていたら、どの人工知能を信じて取引を任せますか?
これまで、PANewsはnof1.aiのAI取引コンペティションについての振り返りを行った(関連記事:六大AI「トレーダー」十日間の対決:トレンド、規律、貪欲に関する公開講座)。しかし、nof1.aiの競技は特定の市場状況に対して行われており、各AI大モデルの最終的な取引能力は特定の取引サイクルの下では完全には発揮されないようです。さらに、人々は異なる条件下でのAIモデルの実際の予測能力についても明確な答えを求めています。最近、各AI企業が最新の大モデルを発表したこともあり、モデルの能力ランキングも再編成の段階にあります。
この謎を解くために、PANewsは「AIトレーダー選手権」を企画しました。さまざまなシーンにおいて、AI大モデルの市場判断能力と取引計画能力を理解します。たとえば、どの時間枠の市場分析が得意であるか、また指標を補助条件として使用する場合、AIの予測成功率が向上するかどうかを検証します。
私たちはタイムラインを2017年から現在まで延長し、BinanceのBTCの歴史データから100の実際の市場スライスをランダムに抽出し、「4時間裸K」、「15分短期取引」、「4時間全指標」という3つの地獄級テストシナリオを構築しました。6人の参加者は、今日の中米の算力の頂点である:Gemini-3-pro、Doubao-1.6-vision、DeepSeek V3.2、Grok 4.1、GPT-5.1、Qwen3-max。
今回のテストでは、バイナンスのBTC現物取引ペアの2017年8月から現在までの15分足データと2021年から現在までの4時間足データを収集しました。各周期でランダムに生成された100本の足の期間を持つ50枚の画像が作成されました。4時間周期は2種類に分かれています。一つはK線と取引量だけの画像、もう一つはEMA、SMA、ボリンジャーバンド、MACD、RSIなどの指標情報を含むK線図です。15分足のK線図はすべて裸のK線図(取引量を含む)です。また、AIには現在のK線図に対応する具体的な価格データ値または指標データ値を同期しています。すべてのAI出力結果はここで確認できます。
!
インジケーター付きの4時間の概略図
!
4時間の純粋なローソク足の概略図
テストの過程で、各大規模モデルが取得するデータ情報とコマンドは完全に同じです。別の視点から見ると、これはこれらの大規模モデルのマルチモーダル能力を考査することにもなります(DeepSeekはテキストの大規模モデルしか持っておらず、最終的に受信するのはデータ情報のみで、画像は転送されません)。
ジェミニ 3 :「指標」に封印された裸の K の王
Gemini 3は現在最もホットなAI大モデルで、11月18日の発表以降のメディアコメントやテストによれば、現在の総合能力が最も強いAIマルチモーダル大モデルと言えます。しかし、今回の取引予測テストにおいて、Gemini 3の結果は必ずしも最良とは言えず、普通の範囲に収まっています。3つのシナリオ(4時間裸K、4時間インジケーター付き、15分裸K)の中で、Gemini 3が最も良いパフォーマンスを示したのは4時間裸Kシナリオで、勝率は39.58%に達しました。次に良いのは15分裸Kシナリオで34.04%ですが、インジケーター付きの場合(同じ時間枠)4時間周期の正確性は逆に31%に低下し、3つのシナリオの中で最も悪い結果となりました。
この点から見ると、Gemini 3は純粋なローソク足パターンの状態においてより優れているようで、インジケーターを重ねると逆に干渉を受けやすくなります。具体的な操作プロセスにおいて、インジケーターなしの場合、Gemini 3はより積極的にポジションを開くようで、純粋なローソク足の場合、95%のマーケットがエントリーを選択しますが、インジケーターを追加するとこの割合は71%に減少します。特筆すべきは、Gemini 3が4時間の純粋なローソク足の状況で唯一の利益を上げたモデルであるということです。
15分間のシナリオでは、Gemini 3の全体的な利益状況が最も良好で、総ポジションの利益は15.34%であり、指標を含むシナリオでは21.18%の損失を出しました。ただし、この利益は短期的な幸運の一種であり、各回の利益と損失の比率データを考慮すると、Gemini 3の利益期待値(勝率*利益と損失の比率)はすべて1未満であり、つまり長期的には損失が出る状態を意味しています。
DeepSeek V3.2:老犬の「超短期注文機」のように安定
DeepSeekは、6つのモデルの中で勝率の総合的なパフォーマンスが最も良いモデルであり、相対的に最も安定しています。3つのシナリオ(4時間裸K、4時間指標付き、15分裸K)での勝率はそれぞれ40%、41.38%、42.86%です。この点から見ると、DeepSeekの予測能力は異なる周期や指標の有無にかかわらず比較的安定しています。
ただし、DeepSeekの最終的な利益状況は芳しくなく、損益比が非常に低いため、平均値は1.25に過ぎません。この利益を確保するための損益比は、DeepSeekが取引中に利益を伸ばす能力が欠けていることを示しています。そのため、総合的に見ると、利益の期待値はほぼ0.5程度であり、長期的にも利益の可能性が乏しいです。さらに、DeepSeekはポジションを取る決断においても比較的保守的であり、全体のポジション比率はわずか58%です。
Doubao ( Bean Bao ):このコンペティションの「オールラウンドMVP」
このテストマッチでは、Doubao1.6-visionの総合結果が最も優れています。4時間の指標シナリオでは、Doubao1.6-visionの勝率はテスト中最高のデータに達し、50%に達しました。最終的な利益は22.2%です。同時に15分の短期サイクルでも、全体で8.2%の利益レベルを獲得しました。これは、2つの異なる次元(短期と4時間指標)で安定した利益を上げる唯一のモデルです。
そして、Doubao1.6-visionのこの結果は、相対的に保守的なスタイルの下で実現されたものではなく、平均開設比率が92%以上で達成されたということです。つまり、Doubao1.6-visionは、大多数のシナリオでポジションを取ることを選択しました。ただし、相対的に見ると、Doubao1.6-visionの能力は指標信号に依存しており、指標がない場合の総利益は38%も異なります。さらに、利益と損失の比率データから見ると、Doubao1.6-visionは正の利益が出た2つの期間において、平損比が高いことも、全体的な優れたパフォーマンスの理由となっています。
Grok 4.1:xAIの「過激なギャンブラー」
Grok 4.1の全体的なスタイルは大胆ですが、四半期の依存指標を持ちながら、より大きな利益を追求することをいとわないものです。三つのシナリオの中で、指標を持つ4時間の週内では、Grok 4.1は34.69%の勝率を得ましたが、残りの二つのシナリオでは勝率が非常に低いです。4時間純K線の場合、勝率は14.58%、15分周期内では26.53%です。しかし、平均的な開設比率は98%に達し、ほぼすべてのK線シナリオで開設を希望しています。この観点から見ると、Grok 4.1のスタイルは手が止まらないギャンブラーのようです。
ただし、Grok 4.1の損益比はしばしば高く、平均値は2に達しており、すべてのモデルの中で最高です。しかし、総合的に見ると、資金をGrok 4.1に任せるのは賢明な選択ではありません。
GPT 5.1: 非常に慎重な「死んだクマ」の悲観論者
GPT 5.1の開発スタイルはGrok 4.1とは完全に正反対です。GPT 5.1は慎重さの点で極限に達しており、ほとんどのケースで彼は様子を見ることを選びました。最終的に150回のテストの中で、彼は52回しかポジションを開かず、平均の開設比はわずか0.34%でした。
しかし、このような慎重さであっても、GPT 5.1にはより良い勝率のパフォーマンスをもたらすことはできませんでした。最良のシナリオでも、勝率は35%に過ぎませんでした。また、4時間および15分後の後期と比較して、GPT 5.1は明らかに長期のポジションオープンが得意ではなく、技術指標を加えても4時間の勝率は27%にとどまりました。15分周期では、比較的高いリスクリワード比(2.02)のおかげで、正の収益フィードバックを得て、最終結果は9.9%となりました。
さらに、GPT 5.1の特徴の一つは明らかな悲観主義であり、ショートポジションを取ることに非常に熱心です。70%以上の注文がショートポジションです。
Qwen 3:言葉を大切にする「リスク回避者」
Qwen 3は明らかに最も慎重な大規模モデルであり、すべてのテストで合計44回しかポジションを開いておらず、ポジション開設率はわずか29%です。しかし、GPTと同様に、この徹底した慎重さはより高い勝率をもたらすことはできませんでした。彼の勝率の平均は34%であり、最も良いシナリオは4時間の指標付きのシナリオです。
さらに、Qwen 3のリスク利益比も高く、1.96に達しています。リスクを嫌うプレーヤーに属しているようで、ポジションの回数を減らすことが得意ですが、利益を伸ばすことに注力しています。また、4時間のバンド指標のシナリオにおいて、Qwen 3の利益期待値も最も利益に近く、0.95に達しており、すべてのモデルの中で最高です。
!
データ集約
まとめ:
総合的に見ると、私たちはこれらのAIのシミュレーショントレーディングプロセスから以下の点を得たかもしれません。
第一に、ほとんどのモデルにとって、指標がある方が純粋なK線チャートよりも信頼性が高いです。指標がある場合、これら6つのモデルの平均勝率は38%に達し、指標がない場合の勝率は30%しかありません。
第二に、AIは短期取引においてより得意であり、長期取引ではない可能性があります。15分の純Kラインのシナリオでは、6つの大モデルの平均勝率は34%に達し、4時間の周期の30%を上回っています。6つのモデルのうち3つが利益を上げており、(Gemini、GPT、Doubao)、平均的な利益と損失の比率は一般的に良好です。
第三、ポジションを完全にAIに委ねることは推奨できません。このテストの過程で、すべてのAIモデルの利益期待値は1未満であり、これは長期的に見てこのような勝率とリスクリワード比で彼らの最終結果はすべて損失となることを意味します。ただし、損失の速さの違いに過ぎません(ここではAIモデルに特別な調整を行っておらず、使用されている指標も比較的単純な一般的な指標に過ぎません)。したがって、AIに自分の代わりに取引をさせたい場合は、より複雑な調整プロセスとより多くのバックテストデータが必要になる可能性があります。
この計算力の対決が幕を下ろすとき、口座残高の最終的な数字を見て、私たちが得る最も重要な示唆は「どのモデルが最強か」ではなく、「AI取引の限界はどこにあるか」ということかもしれません。最終的な結論は、今日のAIは優れたファンドマネージャーを直接代替することはまだできないかもしれませんが、すでに片面では相対的に成熟した取引アシスタントに進化しています。中にはチャートを見るのが得意なもの、リスク管理が得意なもの、安定した勝率を実現するデータ分析が得意なものもいます。そして、人々のAIに対する期待が高まる中で、AIに人間を代替させて取引を行わせることは依然として複雑な命題です。