Neues Google KI-Tool nutzt Bildanweisungen statt Wörter: Whisk – Ein neuer kreativer Ansatz der Bildbearbeitung

Ads

Das neueste Google KI-Produkt, „Whisk“, ermöglicht es Benutzern, Fotos hochzuladen, um ein kombiniertes, KI-generiertes Bild zu erhalten, ohne ein Wort zu tippen.

Bevor Whisk Fotos mischt, können Benutzer Bilder von Motiven, Einstellungen und Stilen bereitstellen.

In einem Blogbeitrag bezeichnete Google Whisk als „kreatives Werkzeug“ für schnelle Inspiration, nicht als „traditionellen Bildeditor“. Whisk soll eine unterhaltsame KI-Funktion sein, kein professionelles Werkzeug.

Big Tech-Unternehmen wie Google und OpenAI sind darauf bedacht, Verbraucherprodukte bereitzustellen, die die coolen neuen Technologien demonstrieren, auch wenn Kritiker warnen, dass ein ungebremstes Wachstum der KI für die Menschheit gefährlich ist.

Seit OpenAI 2021 Dall-E, ein Text-zu-Bild-Produktionstool, eingeführt hat, hat KI-generierte Kunst die sozialen Medien überschwemmt und Verbraucherprodukte durchdrungen. Google Whisk ist ein Bild-zu-Bild-Generator, der auf Text-zu-Bild-Generatoren aufbaut.

Whisk-Benutzer können ihre Eingaben ändern und Kategorien mischen, um Plüschtiere, Emaille-Anstecker und Aufkleber zu erstellen. Benutzer können Details mit Worten anleiten, aber ein Bild ist nicht unbedingt erforderlich.

„Whisk soll es Benutzern ermöglichen, Themen, Szenen und Stile auf neue und kreative Weise neu zu mischen und bietet schnelle visuelle Exploration anstelle von pixelgenauen Bearbeitungen“, erklärte Thomas Iljic, Direktor des Produktmanagements bei Google Labs.

Google kaufte DeepMind im Jahr 2014 und nutzte seine generative KI, um Whisk zu entwickeln.

Whisk nutzt Googles Haupt-KI-Dienst, Gemini, der im Dezember 2023 eingeführt wurde, sowie Imagen 3, DeepMinds neuesten Text-zu-Bild-Generator.

Imagen 3 erhält Bildunterschriften von Gemini, wenn Benutzer Fotos hochladen. Um das endgültige Bild zu mischen, erfasst die Technik die „Essenz“ des Themas anstelle einer exakten Wiedergabe, die vom Ausgangspunkt abweichen kann.

Google erklärte in einem Blogbeitrag, dass das erstellte Bild sich in Höhe, Haarschnitt und Hautfarbe von den Ausgangsfotos unterscheiden kann.

Google erntete Kritik im Februar, als es Gemini’s Text-zu-Bild-Konverter startete, da historisch ungenaue Bilder erstellt wurden.

Whisk, eine nur in den USA befindliche Google Labs-Website, befindet sich in einem frühen Entwicklungsstadium, so das Unternehmen.

OpenAI stellte Sora vor, einen Text-zu-Video-Generator, der die Wettbewerbsfähigkeit von Verbraucherprodukten demonstriert.

Dan Ives, Managing Director und Senior Equities Analyst bei Wedbush Securities, sagte dem CNN, dass Whisk ein weiterer „Muskel-Aufbau-Moment“ für Google im Bereich KI und Technologie ist.

KI-Produkte sind Teil von Googles “Schatztruhe” neuer Produkte bis 2025, zu denen ein neues Android-Betriebssystem gehört, das in Zusammenarbeit mit Samsung und Qualcomm entwickelt wurde. „DeepMind ist ein wesentlicher Vermögenswert für Google“, so Ives.

TRENDING