Tech.BiznesINFO.pl > Sztuczna inteligencja > DALL-E, czyli ChatGPT do generowania obrazów, wchodzi w nowy etap i robi oszałamiające wrażenie
Maciej Olanicki
Maciej Olanicki 20.09.2023 20:38

DALL-E, czyli ChatGPT do generowania obrazów, wchodzi w nowy etap i robi oszałamiające wrażenie

None
DALL-E3/OpenAI

O ile ChatGPT okazał się pierwszym silnikiem przetwarzania języka naturalnego, który spotkał się z masową popularnością, tak nieco mniej uwagi poświęcano rozwijanemu równolegle przez OpenAI silnikowi DALL-E, którego działanie jest nie mniej imponujące. Właśnie ogłoszono testową dostępność nowej generacji, DALL-E 3 z bardzo ważnymi zmianami.

DALL-E – graficzny odpowiednik ChatGPT

W odróżnieniu ChatGPT DALL-E nie jest silnikiem konwersacyjnym, choć również przetwarza język naturalny. Robi to jednak w celu generowania obrazów – imponujących rozmachem wysokiej jakości grafik, w których użytkownik precyzował nie tylko tematykę, ale też szczegóły techniki i stylu, jaki ma zostać użyty. Wygeneruj obraz Supermana grającego na klarnecie w cyberpunkowym mieście przyszłości w stylu XVI-wiecznego malarstwa flamandzkiego? Bez problemu – DALL-E poradzi sobie z takim poleceniem w sposób powodujący niekiedy opad szczęki.

Można odnieść wrażenie, że DALL-E nie zrobiło na przeciętnych internautach takiego wrażenia wyłącznie z tej przyczyny, że dostęp do silnika jest płatny. W celu wygenerowania obrazu konieczne jest kupienie kredytu, którego cena wynosi 15 dolarów.

pumpkin.jpg

Nie oznacza to jednak, że jest to przedsięwzięcie jakkolwiek mniej ważne, wręcz przeciwnie. Takiego zdania są choćby artyści, ilustratorzy, graficy czy projektanci, którzy dostrzegli w DALL-E potencjalne źródło bezrobocia technologicznego. W ramach eksperymentów z użyciem poleceń (tzw. promptów) generowano na podstawie fabuł całe komiksy

Popularny brytyjski aktor twierdzi, że skradziono mu głos. Wszystkiemu winne deepfake’i

DALL-E 3 – co nowego?

Oprócz konieczności płacenia za dostęp przeszkodą w zdobyciu przez DALL-E popularności równej z ChatGPT mogły być także wspomniane prompty. Były to części składniowe poleceń wydawane silnikowi, których używanie wymagało pewnej wprawy. Co prawda wysokiej jakości dokumentacja usługi sprawnie wyjaśnia, jak formułować prompty w taki sposób, aby silnik optymalnie wypełniał stawiane przed nim zadania, niemniej nadal stanowiły one pewien próg wejścia. Rzecz w tym, że prompty odchodzą właśnie w niepamięć.

W udostępnionej właśnie wąskiemu gronu testerów trzeciej wersji silnik DALL-E został bowiem zintegrowany z ChatGPT. Oznacza to, że zamiast konieczności umiejętnego dobierania słów w promptach polecenie wygenerowania obrazu będzie można wydać w języku znacznie bardziej zbliżonym do naturalnego.

coffee.jpg

W praktyce przebiega to dwuetapowo: w pierwszej kolejności wydaje się polecenie dla ChatGPT, które następnie przekształca je na rozbudowany prompt. Następnie DALL-E może wygenerować kilka wariantów grafiki do wyboru, a także prosić o dalsze uwagi. To sprawia, że z DALL-E 3 będzie można w pewnym sensie konwersować jak z grafikiem, który ad hoc będzie nanosił kolejne poprawki do pierwotnej koncepcji.

Wyższa jakość i ograniczona dostępność

Integracja DALL-E 3 z ChatGPT to nie jedyna nowość. Silnik ma także popełniać mniej charakterystycznych dla generatywnej sztucznej inteligencji błędów konceptualnych, np. rysowanie nieodpowiedniej liczby palców u dłoni postaci czy samochodów, które zamiast przodu i tyłu mają oś symetrii, co było częste w przypadku poprzedniej generacji. Nowa wersja ma być także znacznie skuteczniejsza w generowaniu tekstu i typografii.

coffeeshop.jpg

Choć prace nad DALL-E 3 zostały już w dużej mierze doprowadzone do statusu wersji stabilnej, to jednak na razie silnik nie będzie ogólnodostępny. Po pierwszych zamkniętych prezentacjach trafia on do wąskiej grupy firm współpracujących z OpenAI, zaś w październiku będzie dostępny dla abonentów ChatGPT+.

Wszystkie grafiki zamieszczone w artykule zostały wygenerowane przez DALL-E 3.