Der AI Agent von Microsoft namens “OmniParser V2”

Der Trend der GUI (Graphical User Interface) Automatisierung hat nun auch Microsoft dazu bewegt, einen AI-Agenten zu lancieren, der bei der Automatisierung hilft: OmniParser V2. Mit diesem Tool lassen sich LLMs (Large Language Models) in Computer Use Agents umwandeln, mit denen Benutzer die Navigation durch ihren Computerscreen automatisieren können. Ein Beispiel dafür wäre etwa das Versenden eines Termins im Outlook-Kalender mit anschließendem Kauf eines Bahntickets für die Reise zum Meeting – alles vollautomatisch! Das Tool ist Open-Source-Software, kostenlos und ermöglicht es Tools wie DeepSeek R1, GPT-4o und Sonnet 3.5, den Bildschirm zu verstehen und Aufgaben auszuführen. Unternehmen, die aktuell eine Vielzahl repetitiver Tasks haben, die täglich ausgeführt werden, könnten sich beispielsweise überlegen, diese mit Hilfe von OmniParser V2 zu automatisieren. Wichtig ist, dass gängige Sicherheitsstandards eingehalten werden, während man den AI-Agenten nutzt. Hierfür hat Microsoft ein Dokument namens „Microsoft Responsible AI Standard, v2“ veröffentlicht, das die allgemeinen Bedingungen enthält: https://cdn-dynmedia-1.microsoft.com/is/content/microsoftcorp/microsoft/final/en-us/microsoft-brand/documents/Microsoft-Responsible-AI-Standard-General-Requirements.pdf?culture=en-us&country=us.

Wie funktioniert OmniParser V2?

Die Technik, die der AI-Agent anwendet, ist die sogenannte „Screen Parsing Technique“. Der AI-Agent erstellt Screenshots und konvertiert diese in ein strukturiertes Format, mit dem er bestehende LLMs verbessert. Die Trainingsdatensätze umfassen einen integrierten Icon-Datensatz, der automatisch klickbare Regionen auf bekannten Webseiten erkennt, sowie einen Icon-Beschreibungsdatensatz, der hilft, jedes UI-Element mit einer entsprechenden Funktion zu verknüpfen. Durch das Verkleinern von Bildgrößen im Vergleich zur früheren Version konnte die Latenz um rund 60 % reduziert werden. Außerdem wurde eine „State-of-the-Art-Genauigkeit“ von 39,6 erreicht.

Welche Tasks kann ich mit Hilfe von OmniParser automatisieren?

Diese Frage lässt sich relativ einfach beantworten: Tasks, die repetitiv sind und viel Zeit beanspruchen, können mit Hilfe von AI-Agenten wie OmniParser V2 automatisiert werden. Dies ermöglicht Unternehmen, ihre Zeit für wichtige Aufgaben zu nutzen oder ihr Geschäft einfacher zu skalieren. Der Einsatz von AI-Agenten erfordert zwar einen gewissen Initialaufwand und funktioniert möglicherweise nicht von Anfang an perfekt, jedoch profitiert das Unternehmen von der Lernkurve während des Prozesses. Gleichzeitig wird ein Automatisierungsgrad durch KI ermöglicht, der einen enormen Wettbewerbsvorteil verschaffen kann. Den Link zum OmniParser V2 Tool findet man hier: https://github.com/microsoft/OmniParser/tree/master/omnitool.

Weiter
Weiter

China lanciert den AI Agent “Manus“