Данные Kin 2月17日, Майкрософт выпустила на своем официальном веб-сайте последнюю версию фреймворка OmniParser V2.0, который преобразует модели, такие как DeepSeek-R1, GPT-4o, Qwen-2.5VL в искусственный интеллект, который можно использовать на компьютере. По сравнению с версией V1, V2 имеет более высокую точность при обнаружении более мелких элементов пользовательского интерфейса, более быструю скорость рассуждения и 60% задержку. В тесте высокого разрешения ScreenSpot Pro для Agentов, точность V2+GPT-4o достигла удивительных 39.6%, в то время как исходная точность GPT-4o составляла всего 0.8%, что является значительным улучшением. Помимо V2, Майкрософт также Открытый исходный код omnitool, который представляет собой систему Windows на основе Docker, включающую в себя понимание экрана, позиционирование, планирование и выполнение действий, и является ключевым инструментом для преобразования больших моделей в Agentов.