Le 17 février, les données de Jinshi ont annoncé que Microsoft avait publié la dernière version V2.0 du framework d’analyse visuelle OmniParser sur son site officiel, qui peut transformer des modèles tels que DeepSeek-R1, GPT-4o, Qwen-2.5VL en agents IA utilisables sur ordinateur. Par rapport à la version V1, la V2 présente une précision plus élevée et une vitesse de raisonnement plus rapide lors de la détection d’éléments d’interface utilisateur interactifs plus petits, réduisant la latence de 60%. Dans le test ScreenSpot Pro Benchmark de haute résolution de l’agent, la précision de V2+GPT-4o a atteint un impressionnant 39,6%, alors que la précision d’origine de GPT-4o n’était que de 0,8%, ce qui représente une amélioration considérable dans l’ensemble. En plus de la V2, Microsoft a également Open Source omnitool, qui est un système Windows basé sur Docker, couvrant des fonctionnalités telles que la compréhension de l’écran, la localisation, la planification et l’exécution des actions, et constitue un outil clé pour transformer de grands modèles en agents.