Data Jumat 17 Februari, Microsoft merilis versi terbaru dari framework OmniParser, yaitu Visual Agent Analysis, V2.0, di situs resminya. Framework ini dapat mengubah model seperti DeepSeek-R1, GPT-4o, Qwen-2.5VL, menjadi AI Agent yang dapat digunakan pada komputer. Dibandingkan dengan versi sebelumnya, V2 memiliki tingkat akurasi yang lebih tinggi dan kecepatan inferensi yang lebih cepat saat mendeteksi elemen UI interaktif yang lebih kecil, dengan latensi menurun 60%. Pada pengujian AgentBenchmark resolusi tinggi dengan ScreenSpot Pro, akurasi V2+GPT-4o mencapai 39.6%, sementara akurasi asli GPT-4o hanya 0.8%, menunjukkan peningkatan yang sangat besar secara keseluruhan. Selain V2, Microsoft juga merilis Sumber Terbuka omnitool, sebuah sistem Windows berbasis Docker yang mencakup pemahaman layar, penempatan, perencanaan aksi, dan eksekusi, yang juga merupakan alat kunci untuk mengubah model besar menjadi Agent.