A 17 de fevereiro, a Microsoft lançou a versão mais recente do Quadro de Análise Visual OmniParser, V2.0, no seu site oficial, que transforma modelos como DeepSeek-R1, GPT-4o e Qwen-2.5VL em Agentes de IA utilizáveis em computadores. Comparado com a versão V1, o V2 tem uma maior precisão na deteção de elementos de IU interativos mais pequenos e uma velocidade de raciocínio mais rápida, Gota a latência em 60%. No teste de Referência de Agentes de alta resolução ScreenSpot Pro, a precisão do V2+GPT-4o atingiu um surpreendente 39,6%, enquanto a precisão original do GPT-4o era apenas 0,8%, o que representa um aumento significativo. Além do V2, a Microsoft também abriu o omnitool, que é um sistema Windows baseado em Docker, abrangendo funcionalidades como compreensão de tela, localização, planeamento e execução de ações, sendo também uma ferramenta fundamental para transformar grandes modelos em Agentes.