Hugging Face, das Open-Source-Zuhause für KI-Fans, hat mit dem Open Computer Agent ein neues Tool veröffentlicht, das auf den ersten Blick begeistert: Ein KI-Agent, der wie ein Mensch mit einem Computer interagieren kann – also Programme starten, im Internet surfen, Buttons klicken. Doch leider endet der Wow-Effekt genau da, wo es spannend wird: in der Anwendung.

Was ist der Open Computer Agent?
Der Agent läuft im Browser auf einer virtuellen Linux-Oberfläche, in der unter anderem ein Firefox-Browser zur Verfügung steht. Man gibt also einen Befehl ein wie: „Finde die Adresse von Hugging Face“ – und der Agent startet Firefox, sucht und klickt sich durch.
Doch so cool das klingt – wir haben es ausprobiert und sagen es ganz ehrlich:
Der Agent bricht ständig ab, friert ein, muss neu gestartet werden – und die Ergebnisse sind oft absurd oder schlicht falsch. Selbst einfachste Aufgaben werden zur Geduldsprobe.
Technik: Spannend, aber instabil
Unter der Haube ist das Ganze technisch beeindruckend:
- Das Vision-Modell Qwen-VL von Alibaba erkennt, wo es klicken oder scrollen kann.
- Gesteuert wird der Agent über das Framework smolagents, das minimalistische KI-Agenten mit Python-Code ermöglicht.
- Verpackt ist alles in einer edlen Retro-Oberfläche, die stark an die Serie Severance erinnert – inklusive einem Schieberegler für “Innie/Outie”.
Kurz: Das Design ist durchdacht, die Technik spannend – nur leider funktioniert das alles in der Praxis kaum zuverlässig.
Woran hapert’s?
Ein paar Beispiele aus unserer Rookie-Testreihe:
- Der Agent sucht statt nach den gewünschten KI-Tools nach etwas ganz anderes – ohne erkennbares System.
- Er bleibt mitten im Prozess einfach stehen.
- Oder er landet in einer CAPTCHA-Hölle, aus der er ohne Hilfe nicht mehr rauskommt.
Dazu kommt eine virtuelle Warteschlange, die für zusätzliche Wartezeiten sorgt – mal ein paar Sekunden, mal mehrere Minuten.

Für wen ist das überhaupt gedacht?
Hugging Face verfolgt mit dem Projekt nicht das Ziel, einen Assistenten für den Alltag oder das Büro zu liefern. Stattdessen will man zeigen, was heute mit Open-Source-KI möglich ist – und wie man komplexe Agentensysteme mit überschaubarem Aufwand selbst basteln kann.
Gerade für Entwickler:innen, Forschende oder Neugierige bietet der Open Computer Agent also eine interessante Spielwiese – mit einem klaren Disclaimer: Bitte keine Produktivität erwarten.
Warum das Ganze trotzdem wichtig ist
Auch wenn der Open Computer Agent (noch) kein Helfer für den Alltag ist, zeigt er eine spannende Richtung: KI-Systeme, die nicht auf APIs oder Datenbanken angewiesen sind, sondern visuelle Benutzeroberflächen interpretieren und darüber interagieren.
Das funktioniert aktuell nur sehr eingeschränkt – aber genau das könnte Agenten in Zukunft extrem flexibel und mächtig machen. Wenn das Klick- und Scroll-Chaos irgendwann stabil läuft, reden wir über echte digitale Assistenten.
Der Open Computer Agent ist ein faszinierender Blick in die Zukunft – aber im Hier und Jetzt eher etwas für Bastler:innen und Neugierige. Wer ausprobieren will, was morgen möglich sein könnte, darf sich gerne durch CAPTCHAs und Fehlermeldungen kämpfen.
Alle anderen warten lieber noch eine Generation ab – oder googeln weiterhin selbst.
Eure Rookies,
Niklas & Jan
