Googles Gemini-Modelle sind von Grund auf multimodal trainiert, verstehen also auch Bilder – und können sie generieren. Das soll zu präziseren Bildausgaben führen als bei klassischen Bildmodellen.
Der Artikel Google veröffentlicht native Sprachmodell-Bildgenerierung für Gemini erschien zuerst auf THE-DECODER.de.