
Zrobili generator obrazów, który "myśli". Sprawdziłem ChatGPT Images 2.0
Firma OpenAI wprowadziła drugą generację swojego modelu generowania obrazów, czyli ChatGPT Images 2.0. Jego największą zaletą jest to, że "myśli". A przynajmniej próbuje.
Według twórców, ChatGPT Images 2.0 wprowadza względem pierwszej generacji mnóstwo ulepszeń. Nowa wersja ma się charakteryzować większą precyzją i lepszą kontrolą nad generowanymi grafikami, a także silniejszym wsparciem dla generowania tekstu w językach innych niż angielski.
Użytkownicy mają również zauważyć większe wyrafinowanie stylistyczne oraz wyższy poziom realizmu w tworzonych obrazach. Model ma ponadto wykazywać lepsze zrozumienie rzeczywistego świata, stając się wszechstronnym wizualnym partnerem podczas pracy kreatywnej.
Najmocniej promowana cecha ChatGPT Images 2.0 to integracja z modelem rozumowania Thinking, dostępnym w płatnych planach ChatGPT. Podczas generowania obrazów sztuczna inteligencja ma być w stanie wyszukiwać informacje w sieci i skrupulatnie analizować dokumenty czy obrazy wejściowe, by tworzone grafiki nie tylko ładnie wyglądały, ale i miały zastosowanie praktyczne. I właśnie to postanowiłem sprawdzić.
Poniżej kilka przykładów użytych przeze mnie promptów oraz wygenerowane przez ChatGPT Images 2.0 grafiki.
Wygeneruj wizualizację tych danych sprzedażowych. Styl kreskówki z lat 30. Zmień język na polski.
Rezultat:
Z tym zadaniem ChatGPT Images 2.0 poradził sobie zaskakująco dobrze. Wizualizacja jest atrakcyjna wizualnie, a wygenerowany wykres z grubsza ma sens. Mimo że moje polecenie było nieprecyzyjne, model sam wpadł na to, by dane Apple’a okrasić kreskówkowym jabłkiem i uwzględnić wierne logotypy pozostałych marek. Sztuczna inteligencja uporała się także z wygenerowaniem polskiego tekstu i wzięła pod uwagę, że w naszym języku kropki w danych liczbowych należy zastąpić przecinkami.
Wygeneruj grafikę. Poziomy projekt eleganckiego zaproszenia na ślub (proporcje 4:3). Tło to jasny, kremowy papier o wyraźnej, szorstkiej fakturze akwarelowej. W lewym górnym i prawym dolnym rogu znajdują się delikatne, akwarelowe gałązki eukaliptusa oraz subtelne, złote plamki. Na samym środku kompozycji, wewnątrz cienkiej, złotej, geometrycznej ramki, znajduje się duży, kaligraficzny napis 'Kasia i Tomek'. Tuż pod nim, prostą, nowoczesną czcionką napisano: 'Zapraszamy na nasz ślub'. Na samym dole wyśrodkowana data: '15 sierpnia 2026'. Na zaproszeniu umieść funkcjonalny kod QR, który prowadzi do strony benchmark.pl.
Rezultat:
Stworzenie prostego zaproszenia nie stanowi wyzwania dla generatorów AI, ale w tym przypadku kluczowe było polecenie uwzględnienia funkcjonalnego kodu QR. Większość modeli w takiej sytuacji tworzy losową mozaikę, której nie da się nawet zeskanować, a ChatGPT Images 2.0 faktycznie dorzucił do grafiki kod, który działa.
Przerób to zdjęcie na pełną panoramę 360.
Rezultat:
Jednym z najpopularniejszych zastosowań generatorów obrazów jest rozszerzanie już istniejących zdjęć. ChatGPT Images 2.0 wnosi to rozwiązanie na nowy poziom, bo potrafi zmieniać zwykłe zdjęcia w 360-stopniowe. W takiej sytuacji model musi nie tylko dorobić masę brakujących szczegółów, ale i wygenerować zdjęcie w taki sposób, by wszystkie jego krawędzie się zazębiały. I faktycznie po załadowaniu wygenerowanego zdjęcia do narzędzia 360 Viewer otrzymałem idealnie sklejoną panoramę.
Wygeneruj grafikę. Okładka magazynu na podstawie artykułu "vivo X300 Ultra mną pozamiatał. Takie akcesorium powinien mieć każdy smartfon" z serwisu benchmark.pl. Wykorzystaj zdjęcie autora, ale przerób je na styl studyjny. Na okładce umieść autentyczne cytaty ze wskazanego artykułu.
Rezultat:
To zadanie zostało wykonane połowicznie. Nie mam większych zastrzeżeń do warstwy wizualnej, ale ChatGPT Images 2.0 - wbrew mojemu poleceniu - przekręcił parametry techniczne telefonu, wymyślił cytaty, a w niektórych przypadkach nawet przypisał je do zupełnie innych autorów. Podjąłem kilka prób, podając link do artykułu czy załączając go w pliku PDF, ale model wykładał się w podobny sposób za każdym razem.
Innymi słowy - ChatGPT Images 2.0 faktycznie próbuje "myśleć", ale podczas mojego testu wyszło mu to w 75 proc. przypadków. Tak działający generator obrazów faktycznie może się przydać w codziennym życiu, ale nie jest to jeszcze narzędzie, któremu można bezgranicznie zaufać.














Komentarze
0Nie dodano jeszcze komentarzy. Bądź pierwszy!