A fixação de preços do Polymarket está errada? 200 agentes de IA simulam crise e dão respostas inesperadas

Question

Título original: how I run 200 AI agents on the hormuz crisis with Mirofish, and compare it to polymarket

Autor original: The Smart Ape

Tradução por: Peggy, BlockBeats

Prefácio: Quando a IA começa a simular um espaço de opinião pública e a prever eventos, essas mudanças estão a acontecer silenciosamente.

Este artigo relata um experimento sobre a situação no Estreito de Ormuz: o autor utilizou o MiroFish para criar um sistema de simulação com 200 agentes, envolvendo governos, mídia, empresas de energia, traders e cidadãos comuns, todos vivendo num ambiente social simulado. Através de interações contínuas, debates e disseminação de informações, formam-se opiniões, e os resultados desse grupo são comparados com os preços de mercado do Polymarket.

Os resultados não coincidem. O grupo tende a ser mais otimista na discussão geral, enquanto o mercado mostra uma visão mais pessimista; na liberdade de expressão, alguns pessimistas estão mais próximos do preço real; e, em entrevistas, quase todos os agentes convergem para uma expressão mais moderada e cooperativa.

Essa divisão não é nova. Na realidade, declarações públicas tendem a ser mais estáveis e otimistas, enquanto a avaliação real de risco está escondida em ações e expressões informais. Em outras palavras, o que as pessoas dizem, o que pensam e como apostam com dinheiro muitas vezes representam sistemas diferentes.

Nessa estrutura, os sinais mais valiosos geralmente não vêm do consenso, mas de vozes que se destacam na confusão, que parecem fora de lugar.

A seguir, o texto original:

Eu usei o MiroFish para simular a situação no Estreito de Ormuz nas próximas semanas. Essa ferramenta é excelente para lidar com esse tipo de problema, pois permite realizar cenários altamente complexos: introduz múltiplos participantes, diferentes papéis e incentivos, e faz esses agentes interagirem, debaterem, formando gradualmente uma espécie de consenso.

A seguir, descrevo os passos específicos dessa simulação e os resultados finais. Qualquer pessoa pode reproduzi-la, basta seguir os passos corretos.

Primeiro, o MiroFish é um projeto de código aberto de uma equipe de pesquisa chinesa. Você fornece um conjunto de documentos, e ele constrói um grafo de conhecimento, gera perfis de agentes com base nesse grafo, e insere esses agentes em um ambiente simulado de Twitter. Nesse ambiente, eles postam, retweetam, comentam, dão likes e discutem. Após a simulação, você pode entrevistar cada agente individualmente para entender suas posições e raciocínios.

Você fornece um cenário de crise, e o sistema gera um debate em torno do evento; a partir dele, é possível extrair uma previsão.

No meu caso, foquei numa questão de mercado do Polymarket: até o final de abril de 2026, o transporte marítimo no Estreito de Ormuz voltará ao normal?

Então, alimentei todas essas informações no MiroFish, criando 200 agentes — incluindo governos, mídia, militares, empresas de energia, traders e cidadãos comuns — e deixei-os debater durante 7 dias simulados. Por fim, comparei os resultados com os preços de mercado.

Configuração geral:

·Modelo: GPT-4o mini, que oferece o melhor equilíbrio entre custo e desempenho para 200 agentes

·Sistema de memória: Zep Cloud, para armazenar memórias dos agentes e o grafo de conhecimento

·Motor de simulação: OASIS (ambiente similar ao Twitter fornecido pela Camel-AI)

·Hardware: Mac mini M4 Pro, com 24GB de RAM

·Duração: cerca de 49 minutos, para completar 100 rodadas de simulação

·Custo: aproximadamente US$3 a US$5 em chamadas à API

·Material de base: briefing de 5800 caracteres, compilado de Wikipedia, CNBC, Al Jazeera, Forbes, Reuters, incluindo linha do tempo militar, estado do bloqueio, preços do petróleo, perdas econômicas, esforços diplomáticos e fatores relacionados ao investimento de US$3,2 trilhões do GCC. Ou seja, as informações essenciais para que os agentes formem suas opiniões estão incluídas.

Como reproduzir esse processo (passo a passo)

Se você deseja fazer sua própria simulação, aqui estão os passos completos que segui. Todo o processo leva cerca de 2 horas para configurar, com custo de API entre US$3 e US$5; aumentando o número de rodadas ou agentes, o custo sobe.

O que você precisa preparar

·Python 3.12 (não use 3.14, pois o tiktoken dá erro nessa versão)

·Node.js 22 ou superior

·Uma chave de API da OpenAI (GPT-4o mini é barato e adequado para esse cenário)

·Uma conta Zep Cloud (a versão gratuita é suficiente para simulações pequenas)

·Um computador com boa memória. Usei um Mac mini M4 Pro, com 24GB, mas 16GB também serve.

Primeiro passo: instalar o MiroFish

Depois, configure seu arquivo .env:

OPENAI_API_KEY=sk-sua-chave

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=sua-chave-zep

Segundo passo: criar o projeto e fazer upload do seu documento inicial

O documento inicial é a parte mais importante do processo, pois determina o que os agentes sabem sobre a situação atual. Preparei uma briefing de cerca de 5800 caracteres, com informações de Wikipedia, CNBC, Al Jazeera, Forbes e Reuters, incluindo linha do tempo militar, estado do bloqueio, preços do petróleo, perdas econômicas, esforços diplomáticos e impacto do investimento do GCC.

Terceiro passo: gerar a ontologia

Essa etapa informa ao MiroFish quais tipos de entidades ele deve reconhecer e quais relações podem existir entre elas.

No meu caso, gerei 10 categorias de entidades: países, militares, diplomatas, entidades comerciais, mídia, economia, organizações, indivíduos, infraestrutura, mercados de previsão; além de 6 tipos de relações. Se o resultado automático não se encaixar bem no seu cenário, você pode ajustar manualmente.

Quarto passo: construir o grafo de conhecimento

Aqui entra o Zep Cloud. O MiroFish envia o documento inicial e a ontologia ao Zep, que extrai entidades e constrói o grafo.

Esse processo leva cerca de 1 a 2 minutos. No meu caso, ficou um grafo com 65 nós e 85 arestas, conectando países, pessoas, organizações e commodities.

Quinto passo: gerar os agentes

Com base no grafo, o MiroFish cria perfis completos para cada entidade, incluindo MBTI, idade, país, estilo de postagem, gatilhos emocionais, tópicos tabu e memória institucional.

Inicialmente, gerei 43 agentes principais. Depois, o sistema pode expandir esses perfis até o número desejado. No meu caso, configurei para 200 agentes, incluindo traders de criptomoedas, pilotos, professores, estudantes e ativistas sociais.

Sexto passo: preparar o ambiente de simulação

Essa etapa gera toda a configuração da simulação, incluindo agenda de ações, posts iniciais e parâmetros de tempo. O MiroFish escolhe configurações padrão razoáveis, como horários de pico de atividade, períodos de sono e frequência de postagem por tipo de agente.

No meu caso, simulei 168 horas (7 dias), com 100 rodadas (cada uma representando 1 hora), usando apenas o configuração de Twitter, com horários de atividade diferentes para cada agente.

Sétimo passo: iniciar a simulação

Agora, é só esperar. Usei GPT-4o mini para rodar 200 agentes, 100 rodadas, em cerca de 49 minutos. Você pode monitorar pelo API ou pelos logs.

Durante toda a simulação, os agentes operam de forma autônoma: observam a linha do tempo, decidem se postam, retweetam, comentam, dão likes ou apenas navegam. Não há intervenção manual.

Oitavo passo (opcional): entrevistar os agentes

Ao final, o sistema entra em modo de comando. Você pode entrevistar um agente individualmente ou todos de uma vez:

[imagem de interface de entrevista]

Análise

O MiroFish primeiro lê o documento inicial, gera a estrutura da ontologia (10 categorias de entidades e 6 de relações), e extrai um grafo de conhecimento com 65 nós e 85 arestas. Depois, constrói perfis completos para cada entidade, incluindo MBTI, idade, país, estilo de postagem, gatilhos emocionais e memória institucional.

No final, criou 43 agentes principais, que foram expandidos para 200, incluindo uma variedade de cidadãos comuns para aumentar a diversidade e realismo da simulação.

A composição final inclui:

·140 agentes civis: traders de criptomoedas, pilotos, gerentes de cadeia de suprimentos, estudantes, ativistas, professores, etc.

·16 agentes diplomáticos/governamentais: ministros de Irã, Arábia Saudita, Omã, Bahrein, China, UE, ONU, etc.

·15 meios de comunicação: Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal, etc.

·10 entidades de energia e transporte: OPEC, Platts, QatarEnergy, Aramco, Maersk, etc.

·7 instituições financeiras: Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA, etc.

·2 atores militares/políticos: Trump, comandante da Guarda Revolucionária do Irã.

Durante os 7 dias (100 rodadas), foram gerados:

·1.888 posts

·6.661 trajetórias de comportamento (todas as ações)

·1.611 citações e retweets (respostas entre agentes)

·4.051 visualizações (navegação na timeline)

·311 momentos de inação (esperando)

·208 likes, 207 retweets

·70 opiniões originais (novas posições ou julgamentos)

No geral, o sistema não gera apenas informações, mas sim uma simulação de comportamento social: na maior parte do tempo, os agentes observam, assimilam informações e interagem, sem produzir conteúdo constantemente. Essa estrutura reflete mais fielmente a distribuição de comportamento na opinião pública real — poucos conteúdos originais, muitas reinterpretações, negociações e feedback emocional.

A maior parte do tempo, os agentes lêem e citam opiniões de outros, ao invés de criar conteúdo novo.

O grupo tende a mostrar uma inclinação emocional: opiniões otimistas são mais amplificadas e retuitadas, enquanto avaliações pessimistas, mesmo mais próximas da realidade, tendem a se espalhar menos e a ter menor impacto.

Curiosamente, 19 agentes espontaneamente forneceram uma probabilidade de previsão, sem que fosse solicitado, apenas na discussão natural.

A média dessas probabilidades espontâneas foi de 47,9%, enquanto o mercado do Polymarket indicou 31%, uma diferença de 16,9 pontos percentuais.

Durante a simulação, alguns agentes mudaram de opinião ao longo das 100 rodadas.

Ao final, usei a função de entrevista do MiroFish para perguntar a 43 agentes principais: qual a probabilidade de, até o final de abril de 2026, o transporte no Estreito de Ormuz voltar ao normal (0–100%)?

O resultado: 31 agentes deram um valor numérico, 12 preferiram não responder. Os mais cautelosos tendem a se autocensurar, não a dar uma previsão definitiva — o que também reflete o comportamento real dessas instituições.

A média por categoria ficou acima de 60%: forças armadas 75%, mídia 69%, energia 66%, finanças 65%, diplomacia 61%. O mercado, por sua vez, indicou 31,5%.

O resultado natural (organic) e o resultado da entrevista (interview) apresentam duas perspectivas bastante distintas.

Essa é a descoberta mais importante.

As respostas das entrevistas tendem a ser mais otimistas. Quando os agentes postam livremente, os pessimistas (shorts) parecem mais audíveis e específicos; mas, na entrevista individual, por preferência à cooperação, quase todos dão uma previsão entre 60% e 70%.

Já os resultados naturais (sem intervenção) são mais confiáveis. Um consultor financeiro, ao discutir, postou que estimava 65%, uma avaliação que surgiu na interação; enquanto, na entrevista, a resposta é uma mera correspondência de padrão.

Os pessimistas na expressão espontânea, na verdade, são os melhores preditores. Entre os agentes que deram ≤30% na previsão, a média foi de 22%, uma diferença de menos de 10 pontos percentuais em relação ao mercado. Conhecimento especializado + expressão natural = previsão mais próxima do mercado.

Mais importante: isso não é apenas uma questão de IA, mas também de comportamento humano no mundo real.

Se você entrevistar qualquer líder de país sobre uma crise, eles dirão que buscam paz, que estão otimistas na resolução. É um discurso padrão, obrigatório na frente das câmeras. Mas, na prática, suas ações — mobilizações militares, sanções, congelamento de ativos, retirada de investimentos — contam uma história completamente diferente.

O príncipe herdeiro da Arábia Saudita dirá que confia na diplomacia, enquanto seu fundo soberano avalia US$3,2 trilhões em ativos nos EUA. O presidente do Irã falará em paz, mas a Guarda Revolucionária coloca minas no estreito. Trump dirá “veremos”, recusando qualquer cessar-fogo.

Esse experimento reproduz, de forma não intencional, uma divisão estrutural semelhante: quando os especialistas postam, discutem, respondem e disseminam informações, eles tendem a convergir em uma visão mais pessimista, de 20% a 30%, mais próxima da realidade; mas, ao serem chamados para uma reunião formal e perguntados sobre suas previsões, mudam para uma postura mais otimista, de 65% a 70%.

Postar espontaneamente é mais como comportamento privado e diálogo não público; as entrevistas parecem mais uma coletiva de imprensa. Se você quer realmente entender o que uma pessoa pensa, não pergunte diretamente — observe seu comportamento quando ninguém estiver avaliando.

Próximos passos

Esta foi apenas uma fase inicial de testes. O objetivo não é fornecer uma previsão definitiva, mas entender quais sinais são úteis na simulação de grupos, onde há distorções, e o que pode ser melhorado.

Já temos respostas: discussões naturais geram sinais confiáveis, entrevistas não; os pessimistas são a fonte de sinais; e o uso de GPT-4o mini, com sua preferência por cooperação, é um fator a ser considerado.

Na próxima rodada, faremos algumas melhorias.

Primeiro, um conjunto maior de dados iniciais. Não apenas uma briefing de 5800 caracteres, mas uma análise de mais de 20 anos de eventos históricos: incidentes no Estreito, escalada de conflitos entre Irã e EUA, crises petrolíferas, mudanças diplomáticas no GCC — uma análise de um verdadeiro analista de geopolítica.

Segundo, um modelo mais avançado. O GPT-4o mini, com custo de US$3, já é suficiente para validação, mas um modelo mais potente pode fazer os agentes pensarem mais como seus papéis reais, ao invés de recuar na expressão otimista padrão em momentos críticos.

Terceiro, mais agentes. 200 já é um bom número, mas podemos expandir ainda mais: incluir mais cidadãos comuns, vozes regionais, casos marginais. Quanto mais participantes, mais rica será a discussão, e mais valiosos serão os sinais gerados.

A fixação de preços do Polymarket está errada? 200 agentes de IA simulam crise e dão respostas inesperadas

Como reproduzir esse processo (passo a passo)

O que você precisa preparar

Análise

Próximos passos

Tópicos em destaque

Gate13thAnniversaryGlobalCelebration

GateAIGateClawOfficiallyLaunches

IsraelStrikesIranBTCPlunges

SECAndCFTCNewGuidelines

FedRateDecision

Gate Fun tendência

-

K

BDS

北帝山

GIAOT

Giaot

BTCS6

BTCS6

山寨产品

山寨产品

Fixar