Maciej Olanicki 07.12.2023 09:09

Google prezentuje Gemini – duży model językowy, który powalczy z ChatGPT

Sundar Pichai, CEO Google, fot. World Economic Forum na licencji CC BY-NC-SA 2.0 Deed

Zeszłoroczna premiera ChatGPT musiała być dla Google jak kubeł zimnej wody – z dnia na dzień silnik LLM, w dodatku finansowany przez Microsoft, poważnie zagroził wyszukiwarce. Korporacja próbowała różnych środków, by zbudować coś podobnego, lecz do premiery udało się doprowadzić się to dopiero teraz – światło dzienne ujrzał duży model językowy Google, Gemini.

Trzy wielkości Gemini

Oczywiście Google, a zwłaszcza należąca do Google spółka DeepMind, już wcześniej dysponowała dużymi modelami językowymi i silnikami przetwarzania języka naturalnego. Brak możliwości wchodzenia w nią interakcję w sposób przystępny dla nietechnicznego użytkownika utrudniał jednak przedstawianie ich światu jako konkurencję dla ChatGPT. Konwersacja nie była dla przeciętnego Kowalskiego tak efektowna, jak w przypadku ChatGPT.

Przez rok, jaki dzieli nas od premiery ChatGPT, w Google intensywnie pracowano, by zmienić ten stan rzeczy. Ponadto korporacja była w o tyle komfortowej pozycji, że mogła z boku obserwować drogę rozwoju ChatGPT i wszystkie potknięcia OpenAI, tak aby powtarzać najlepsze wzorce, a jednocześnie unikać licznych wpadek, których doświadczyło przecierające drogę OpenAI.

W ten sposób już na starcie Gemini dostępne jest w trzech wariantach, a w zasadzie wielkościach: Nano, Pro i Ultra. Nano znajdzie zastosowanie w urządzeniach mobilnych, przede wszystkim smartfonach. Google potwierdziło już, że pierwszym urządzeniem tej klasy zintegrowanym z Gemini Nano jest Google Pixel 8 Pro. Gemini Pro to wielkość pośrednia, którą będzie można wykorzystywać w codziennej pracy. Gemini Ultra to najbardziej zaawansowany wariant, który znajdzie zastosowanie w centrach danych.

Polscy naukowcy stworzą odpowiedź na ChatGPT. PLLuM będzie darmowy

Gemini, czyli multimodalna sztuczna inteligencja

Poza występowaniem w trzech różnych wielkościach najczęściej wymienianą cechą Gemini ma być multimodalność. Termin ten stosowany zazwyczaj w transporcie, w przypadku dużych modelów językowych ma się odnosić do możliwości przetwarzania przez Gemini różnych typów danych. Tu także widać wnioski wyciągnięte z rozwoju ChatGPT – LLM OpenAI z początku przetwarzał język naturalny, by potem wzbogacić się o obraz i dźwięk.

Gemini natomiast ma być „natywnie” multimodalny i był trenowany na różnych typach danych od samego początku. To być może największa pod względem technicznym różnica w stosunku do oprogramowania OpenAI. O ile GPT było rozwijane przyrostowe, tj. było z czasem wzbogacane o obsługę nowych typów danych, tak Gemini miało od początku powstawać zgodnie z tym założeniem, że obsługiwany będzie język naturalny, ale tez obraz i dźwięk.

Zdrowa konkurencja

Próby odpowiedzi na pytanie, czy Gemini jest w czymkolwiek lepsze lub niż ChatGPT zdają się w tej chwili skazane na porażkę. Dotychczasowe testy i porównania wskazują, że narzędzie Google w pewnych scenariuszach radzi sobie lepiej, w innych gorzej, niż silnik rozwijany pod okiem Microsoftu przez OpenAI. Brakuje ramowych, systemowych kryteriów, które pozwalałoby wyciągać wnioski. Trudno także stwierdzić, kto miałby być zdolny do obiektywnego ich stosowania.

Największą zmianą, jaką wprowadza Gemini, nie są więc parametry techniczne, jak skuteczność czy wydajność modelu. Znacznie ważniejsze może się okazać znaczenie biznesowe – po raz pierwszy od roku, który upłynął pod znakiem sztucznej inteligencji, GPT oraz ChatGPT mają silną konkurencję z odpowiednim zapleczem finansowym i infrastrukturalnym gwarantowanym przez Google. Powstał konkurencyjny, choć na razie zduopolizowany rynek komercyjnych LLM-ów.

Tagi: Sztuczna inteligencja Nauka Google