El 17 de febrero, según los datos de Jinshi, Microsoft lanzó la última versión V2.0 del marco de análisis visual OmniParser en su sitio web oficial, que convierte modelos como DeepSeek-R1, GPT-4o, Qwen-2.5VL en Agentes de IA utilizables en computadoras. En comparación con la versión V1, la V2 tiene una mayor precisión al detectar elementos de IU interactivos más pequeños, una velocidad de razonamiento más rápida y una disminución del 60% en la latencia. En la prueba de ScreenSpot Pro de alta resolución del Indicador de referencia del Agente, la precisión de V2+GPT-4o alcanzó un asombroso 39.6%, mientras que la precisión original de GPT-4o era solo del 0.8%, lo que representa una mejora significativa en general. Además de la V2, Microsoft también lanzó Código abierto omnitool, que es un sistema Windows basado en Docker que abarca funciones como comprensión de pantalla, localización, planificación y ejecución de acciones, y es una herramienta clave para convertir grandes modelos en Agentes.