Gemini 2.0 und Project Astra: Googles Startschuss für die Ära der KI-Agenten
Gemini 2.0 Flash ist Googles neuestes KI-Modell, das nicht nur leistungsfähiger und schneller als die Vorgänger sein soll. Es ist auch die Grundlage für die kommenden Agenten-Systeme. Die Anwendungszwecke reichen von Forschungsassistenten über Alltagshelfer bis zu Systemen für Gaming und Robotik.
Gemini 2.0 Flash: Neues Modell kann Bilder und Sprache generieren
Gemini 2.0 Flash ist leistungsfähiger als der Vorgänger Gemini 1.5 Flash und arbeitet laut dem Blog-Eintrag zudem doppelt so schnell. Weiterentwickelt wurde das neue Modell auch beim Funktionsumfang. So kann es nicht nur multimodale Eingaben wie Text, Bilder, Videos und Audio-Dateien verarbeiten, sondern auch multimodalen Output liefern. Es ist zum Beispiel in der Lage, eigenständig Bilder mit Text-Inhalten zu generieren oder mehrsprachige Text-zu-Sprache-Inhalte wiederzugeben.
Als experimentelles Modell ist Gemini 2.0 Flash zunächst über die Cloud-Dienste Google AI Studio und Vertex AI via API abrufbar. Allgemein verfügbar sein soll es dann ab Januar.
Eine für Chat-Gespräche optimierte Version des Modells ist derweil schon über Gemini abrufbar, interessierte Nutzer können es über das Modell-Menü auswählen. Das gilt aber zunächst nur für die Web-Version, die Apps folgen bald. Zusätzlich soll Gemini 2.0 im Laufe der Zeit in mehr Google-Produkte integriert werden.
Deep Research als Agenten-Feature für Gemini Advanced
Eine Neuheit erhält derweil Gemini Advanced, Googles kostenpflichtige Version des Chatbots. Deep Research ist – wie der Name nahelegt – ein Recherche-Assistent, der Nutzer unterstützen soll, um tiefergehende Informationen zu einem Thema zu sammeln. Dazu führt der ebenfalls auf Gemini 2.0 basierende Assistent laut Google selbstständig Web-Suchen durch, analysiert die Ergebnisse und nutzt die Erkenntnisse für neue Suchen. Am Ende landet dann eine Zusammenfassung in einem Google-Doc-Dokument, das Links zu Quellen und relevanten Organisationen enthält.
In der Web-Version von Gemini Advanced erfolgt schrittweise der Start. In der App-Version des KI-Assistenten dauert es noch bis Anfang nächsten Jahres.
Start ins Agenten-Zeitalter
Für Google ist Gemini 2.0 ein weiterer Entwicklungsschritt hin zu einer Phase, in der man vermehrt auf KI-Agenten setzt. Dabei handelt es sich im Kern um Systeme, die automatisiert auch komplexere und mehrstufige Aufgaben bewältigen können. Bestimmte Funktionen in Gemini 2.0 Flash wie das multimodale Verarbeiten, lange Kontextfenster sowie die Fähigkeit, mit komplexen Anweisungen umzugehen, sind dafür eine der Voraussetzungen.
Noch steht die Entwicklung von Agenten aber am Anfang. Google spricht explizit von Prototypen in einem „Forschungsgebiet voller spannender Möglichkeiten“, aufgeteilt in mehrere Projekte:
- Project Astra: Dort geht es um die Entwicklung eines universellen KI-Agenten.
- Project Mariner: Ein neues Projekt, das sich mit der Mensch-Maschinen-Interaktion befasst. Der Anfang erfolgt dabei im Browser.
- Jules: Ein Code-Agent, der Entwickler beim Programmieren unterstützen soll.
Project Astra hatte Google bereits im Frühjahr vorgestellt. Indem Gemini 2.0 integriert wurde, erhält es nun weitere Möglichkeiten. So lassen sich damit nun die Google-Suche, Lens und Google Maps nutzen, was Astra die Rolle als Alltagsassistent erleichtern soll. Verbessert wurden zudem die Sprachfähigkeiten und der Speicher wurde erweitert. In einzelnen Sessions kann es sich bis zu zehn Minuten an Gespräche erinnern. Fortschritte macht man auch bei Latenzzeiten, die sollen sich nun auf menschlichem Niveau bewegen.
Nun geht es darum, Astra in Produkte zu integrieren. Bei dem Assistenten Gemini ist das naheliegend, Google kündigt aber auch explizit smarte Brillen an, die damit ausgestattet werden sollen. Dort soll auch bald das erste Testprogramm anlaufen. Astra allgemein findet sich ebenfalls noch in einer Testphase, derzeit erweitert Google aber den Personenkreis, der darauf zugreifen kann.
Bei den Brillen bahnt sich also ein Wettbewerb mit Meta an. Der Konzern hatte im September mit dem Projekt Orion eine erste holografische AR-Brille vorgestellt.
Erst virtuelle Welten, dann Robotik
Bei Project Mariner handelt es sich noch um einen Agenten in einem frühen Entwicklungsstadium, der zunächst sämtliche Inhalte verarbeiten soll, die auf dem Browser-Bildschirm stattfinden. Ausgehend von diesen Erkenntnissen ist er dann in der Lage, Aufgaben für die Nutzer zu erfüllen. Mariner kann dabei auch schon selbst innerhalb des Browsers navigieren, noch ist dieser Vorgang laut Google aber langsam und wenig akkurat. Man erwartet aber schnelle Fortschritte.
Google konkurriert also hier direkt mit Anthropic. Das KI-Unternehmen hatte vor einigen Wochen ein System vorgestellt, das den Computer nutzen kann.
Googles KI-Tochter DeepMind arbeitet zudem an weiteren Agenten-Systemen. Ein auf Gemini 2.0 basierender Agent wertet etwa die Bildschirminhalte aus und gibt in Echtzeit-Unterhaltungen Tipps zum Spielgeschehen. Google präsentiert die Funktion anhand von Titeln wie Clash of Clans. Weitere Firmen arbeiten ebenfalls an dem Thema, Microsoft nutzte dafür im Frühjahr Minecraft und bringt das Feature nun als Copilot Vision auf den Markt.
Interessant ist, welche Entwicklungsschritte DeepMind von diesen Systemen ableitet. Erfahrungen aus virtuellen Welten sollen demnach helfen, um die Modelle auf die echte Welt vorzubereiten. Gemini 2.0 soll also auch im Bereich der Robotik eingesetzt werden. Auch diese Systeme befinden sich aber in einem frühen Stadium.