O cofundador da Ethereum, Vitalik Buterin, afastou-se completamente dos serviços de cloud de IA e detalhou, num artigo de blogue publicado esta semana, a sua configuração de inteligência artificial (IA) totalmente local, isolada num ambiente de sandbox.
Principais conclusões:
Buterin descreveu o sistema como “auto-soberano / local / privado / seguro” e disse que foi construído em resposta direta ao que ele considera falhas graves de segurança e privacidade a espalharem-se no espaço dos agentes de IA. Ele apontou para investigação que mostra que cerca de 15% das competências dos agentes, ou ferramentas de plug-in, contêm instruções maliciosas. A empresa de segurança Hiddenlayer demonstrou que analisar uma única página web maliciosa podia comprometer totalmente uma instância Openclaw, permitindo que descarregasse e executasse scripts de shell sem o conhecimento do utilizador.
“Eu venho de uma mentalidade de estar profundamente assustado de que, tal como finalmente demos um passo em frente na privacidade com a adoção generalizada da encriptação ponta-a-ponta e com cada vez mais software ‘local-first’, estamos à beira de dar dez passos atrás,” escreveu Buterin.
O hardware de eleição é um portátil com uma GPU Nvidia 5090 e 24 GB de memória de vídeo. Ao executar o modelo de código aberto Qwen3.5:35B da Alibaba através do llama-server, a configuração atinge 90 tokens por segundo, que Buterin considera o alvo para um uso diário confortável. Ele testou o AMD Ryzen AI Max Pro com 128 GB de memória unificada, que chegou a 51 tokens por segundo, e o DGX Spark, que atingiu 60 tokens por segundo.
Ele disse que o DGX Spark, comercializado como um supercomputador de IA para desktop, foi pouco impressionante tendo em conta o custo e a menor capacidade de processamento (throughput) em comparação com uma boa GPU de portátil. Para o seu sistema operativo, Buterin mudou de Arch Linux para NixOS, que permite aos utilizadores definir toda a configuração do sistema num único ficheiro declarativo. Ele utiliza o llama-server como um daemon em segundo plano que disponibiliza uma porta local a qualquer aplicação que possa ligar-se.
Claude Code, observou, pode ser apontado para uma instância local do llama-server em vez dos servidores da Anthropic. O isolamento (sandboxing) é central no seu modelo de segurança. Ele usa bubblewrap para criar ambientes isolados a partir de qualquer diretório com um único comando. Os processos a correr dentro desses sandboxes só podem aceder a ficheiros explicitamente permitidos e a portas de rede controladas. Buterin disponibilizou em código aberto um daemon de mensagens em github.com/vbuterin/messaging-daemon que envolve signal-cli e email.
Ele referiu que o daemon pode ler mensagens livremente e enviar mensagens para si próprio sem confirmação. Qualquer mensagem de saída para um terceiro exige aprovação humana explícita. Ele chamou a isto o modelo “humano + LLM 2-de-2” e disse que a mesma lógica se aplica a carteiras Ethereum. Aconselhou as equipas que constroem ferramentas de carteiras ligadas a IA a limitar transações autónomas a $100 por dia e a exigir confirmação humana para qualquer coisa acima disso ou para qualquer transação que transporte calldata que possa exfiltrar dados.
Para tarefas de investigação, Buterin comparou a ferramenta local Local Deep Research com a sua própria configuração usando o framework de agentes pi, em conjunto com SearXNG, um motor de meta-pesquisa auto-hospedado com foco em privacidade. Disse que pi mais SearXNG produziram respostas de melhor qualidade. Ele guarda uma cópia local de Wikipedia com aproximadamente 1 terabyte, juntamente com documentação técnica, para reduzir a sua dependência de consultas de pesquisa externas, que ele trata como uma fuga de privacidade.
Ele também publicou um daemon local de transcrição de áudio em github.com/vbuterin/stt-daemon. A ferramenta corre sem GPU para uso básico e alimenta a saída ao LLM para correção e sumarização. Na integração com Ethereum, Buterin disse que os agentes de IA nunca devem manter acesso irrestrito à carteira. Recomendou tratar o humano e o LLM como dois fatores de confirmação distintos, que captam cada um modos de falha diferentes.
Nos casos em que os modelos locais ficam aquém, Buterin descreveu uma abordagem que preserva a privacidade para inferência remota. Apontou para a sua própria proposta ZK-API com a investigadora Davide, o projeto Openanonymity, e o uso de mixnets para impedir que os servidores associem pedidos sucessivos por endereço IP. Também citou ambientes de execução confiáveis como forma de reduzir a fuga de dados da inferência remota no curto prazo, ao mesmo tempo que salienta que a encriptação totalmente homomórfica para inferência em cloud privada continua demasiado lenta para ser prática hoje.
Buterin encerrou com uma nota de que o artigo descreve um ponto de partida, e não um produto finalizado, e alertou os leitores contra copiarem as suas ferramentas exatas e assumirem que estão seguras.