Ciekawostki

Gemini czy ChatGPT? Porównałem generatory grafiki i mówię, jak jest

przeczytasz w 2 min.

Wirtualny asystent Google Gemini został zintegrowany z technologią Imagen 3, która pozwala generować obrazy na podstawie słownych opisów. Jak wypada na tle konkurencji?

Imagen 3 to model Google’a, który stanowi bezpośrednią konkurencję dla Dall-E 3. Dotychczas jego dostępność była ograniczona, ale tak jak OpenAI zintegrowało swój model z ChatGPT, tak i Google postawił na integrację generatora obrazów z Gemini. 

Funkcja Imagen 3 dostępna jest już u wszystkich użytkowników Gemini i obsługuje język polski. A jak ta sztuczna inteligencja radzi sobie w praktyce? 

Imagen 3 (Gemini) kontra DALL-E 3 (ChatGPT) - porównanie generatorów obrazów

W ramach porównania wprowadziłem do obu generatorów te same prompty. Niestety Imagen 3 na chwilę obecną nie potrafi tworzyć grafik przedstawiających ludzi, dlatego musiałem się ograniczyć do przedmiotów, miejsc, zwierząt i fikcyjnych postaci. 

Po lewej Imagen 3 (Gemini), a po prawej DALL-E 3 (ChatGPT). 

"Niebieski smok origami na szczycie Pałacu Kultury i Nauki w Warszawie, nocne niebo pełne gwiazd, styl komiksowy":

Gemini (po lewej) i ChatGPT (po prawej)

"Robotyczny barista serwujący kawę w futurystycznej kawiarni, neonowe światła, styl animacji komputerowej":

Gemini (po lewej) i ChatGPT (po prawej)

"Szary pies rasy yorkshire terrier jedzie na różowej deskorolce, ucieka przed stadem kangurów, ulice Miami, w tle płonący budynek, na niebie helikopter, realizm":

Gemini (po lewej) i ChatGPT (po prawej)

"Mario kontra Sonic, styl gry Mortal Kombat, klimat retro, widoczny interfejs bijatyki" (ChatGPT wyświetlił informację, że - z uwagi na prawa autorskie - wygeneruje jedynie "podobne postacie"):

Gemini (po lewej) i ChatGPT (po prawej)

"Miniaturowy astronauta eksplorujący gigantyczną pizzę, kosmos w tle, styl retro plakatu filmowego":

Gemini (po lewej) i ChatGPT (po prawej)

"Indyjska restauracja, widok z zewnątrz, czarny kot patrzący na szyld z polską nazwą Najwyższy wymiar Curry":

Gemini (po lewej) i ChatGPT (po prawej)

"Samuraj-panda walczący z ninja-krabem, tło tradycyjnego japońskiego ogrodu, styl kreskówki The Simpsons":

Gemini (po lewej) i ChatGPT (po prawej)

"Ludzik LEGO w kształcie Kaczora Donalda, trzymany w dłoni, efekt bokeh, w tle bar ze stołem bilardowym" (ChatGPT wygenerował zwykłego kaczora z uwagi na prawa autorskie):

Gemini (po lewej) i ChatGPT (po prawej)

Wnioski? Sama jakość generowanych grafik stoi w obu przypadkach na wysokim poziomie. Oba modele mają też podobne problemy z generowaniem napisów, zwłaszcza polskich. Podczas testowania obu narzędzi rzuciły mi się jednak w oczy istotne różnice użytkowe. 

Imagen 3 w Gemini generuje obrazy w wyższej rozdzielczości (2048p zamiast 1024p), dzięki czemu są one znaczne bardziej szczegółowe. Narzędzie ma też bardziej swobodne podejście do praw autorskich, bo bez zająknięcia generuje postaci z gier czy filmów. 

Dall-E w ChatGPT w mojej ocenie działa jednak bardziej inteligentnie. Lepiej rozumie intencje i nieprecyzyjne prompty (przykład z restauracją), wzbogaca obrazy o elementy, których w poleceniu zabrakło (przykład ze smokiem czy baristą) czy lepiej odzwierciedla konkretne style graficzne (przykład z The Simpsons). Dodatkowo ChatGPT po wpisaniu odpowiedniego polecenia potrafi tworzyć obrazy o innych proporcjach, podczas gdy Gemini radzi sobie tylko z grafikami kwadratowymi. W darmowej wersji ChatGPT pozwala jednak na wygenerowanie raptem dwóch grafik dziennie. 

Ciężko wskazać zdecydowanego faworyta, bo - w zależności od scenariusza użycia - raz lepiej radzi sobie DALL-E 3, a raz Imagen 3.

Komentarze

5
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    youkai20
    1
    Dalle 3 zjada Imagen na śniadanie.
    • avatar
      Klops
      0
      Jak na razie najsłabszą stroną ChatGPT są obrazy, natomiast wszystko inne daleko w przodzie w stosunku do konkurencji. W 5 minut niedoświadczony użytkownik to dostrzeże. Zapytaj np. o porównanie dwóch najnowszych tv z danej firmy do 5tys zł 55'' zobaczysz różnicę w odpowiedziach... :)P
      • avatar
        oreonoreon
        0
        GPT Dalle ma bardzo poważną wadę: efekt zaparowanego obiektywu i do bólu wygładzone obiekty.
        • avatar
          DogenMemcoin
          0
          Uwolnij swojego wewnętrznego alfę dzięki DOGEN, żetonowi memów stworzonemu dla tych, którzy chcą wieść piękne życie. DOGEN to pies alfa, który nigdy nie przegapi szansy na wielką wygraną. Jest to token dla zwycięzców, którzy nie zadowolą się niczym mniej. Pomyśl o luksusowych samochodach, stosach gotówki i pięknych kobietach — to styl życia Alpha DOGEN!

          Gotowy, aby żyć jak Alpha DOGEN i cieszyć się lepszymi rzeczami w życiu? Jest na pasie startowym, przygotowując się do 700% startu do końca przedsprzedaży — a to dopiero początek. Dzięki DOGEN możesz liczyć na potencjalnie tysiąckrotne zwroty, ponieważ memetokeny są najgorętszym trendem tego sezonu altcoinów.

          Im wcześniej wskoczysz, tym więcej wygrasz! To oferta, której inni będą zazdrościć, a ty będziesz na szczycie stawki.

          DOGEN to nowy piesek na polu memetokenów Solana, obok BONK, WIF i Popcat, znany z zadziwiającego wzrostu o 1000%. Obecnie niedowartościowany, DOGEN ma szansę przenieść tę narrację kryptowalutową na wyższy poziom, potencjalnie bijąc rekordy w tej hossie.

          Kliknij w tego linka i dołącz do społeczności Samców Alfa i kup tokeny Dogen już teraz zanim cena wzrośnie!!!

          https://dogen.meme/?ref=qgfH

          Witaj!

          Niedługo wyłaczymy stare logowanie.
          Logowanie będzie możliwe tylko przez 1Login.

          Połącz konto już teraz.

          Zaloguj przez 1Login