Odpaliłem nową funkcję ChatGPT i jestem w szoku. Inni asystenci głosowi mogą się schować
Zaawansowany tryb głosowy w ChatGPT już jest. Choć - wbrew temu, co mówi OpenAI - funkcja nie jest dostępna dla każdego.
ChatGPT już od ubiegłego roku pozwala na interakcję głosową, ale funkcja ta została zbudowana metodami chałupniczymi. Aplikacja po prostu zamieniała mowę na tekst, wysyłała do dużego modelu językowego tekstowe zapytanie, a po otrzymaniu tekstowej odpowiedzi wypowiadała ją na głos z użyciem wbudowanego syntezatora.
Takie podejście działało, ale było ograniczające, bo taka komunikacja była mało ludzka. Serwer otrzymywał jedynie transkrypcję zapytania, więc nie miał możliwości rozpoznawania różnych osób czy reagowania na ton głosu.
W maju firma OpenAI zapowiedziała zupełnie nową wersję - nazwaną zaawansowanym trybem głosowym - która działa na zupełnie innej zasadzie. ChatGPT wykorzystuje teraz pojedynczą sieć neuronową, która została zbudowana od podstaw z myślą o komunikacji głosowej. A to otwiera nowe możliwości.
ChatGPT - tak działa zaawansowany tryb głosowy
W nowym trybie komunikacja przebiega w sposób bardziej naturalny. Nie trzeba czekać, aż ChatGPT skończy swoją odpowiedź, zanim będzie można zadać kolejne pytanie lub wydać polecenie. Sztucznej inteligencji można w dowolnym momencie wejść w słowo, a czas reakcji uległ drastycznemu skróceniu.
Dzięki zaawansowanemu trybowi głosowemu ChatGPT na bieżąco moduluje swój głos, dopasowując go do kontekstu. Gdy np. proszę o rozwiązanie jakiegoś problemu, w tonie da się wyczuć zaniepokojenie.
Nagrałem wideo, na którym poprosiłem ChatGPT o odegranie krótkiej scenki. Zwróćcie uwagę, że świadomie wchodzę mu w słowo i modyfikuję polecenia, które sztuczna inteligencja wykonuje bez zająknięcia.
Rozmowa jest niesamowicie naturalna, a to w dalszym ciągu ChatGPT, czyli model o niewyobrażalnych zasobach wiedzy. Mam wrażenie, że rozmawiam z najmądrzejszym człowiekiem na świecie.
Polska wersja zaawansowanego trybu głosowego stoi na poziomie deklasującym wszystkich konkurencyjnych asystentów głosowych, ale anglojęzyczna pozwala na jeszcze więcej. Nie udało mi się np. zmusić ChatGPT do reagowania na różne głosy i zmiany tonu, czym OpenAI chwaliło się podczas prezentacji.
Niestety zaawansowany tryb głosowy w ChatGPT oficjalnie nie jest dostępny w Europie
OpenAI oberwało w mediach społecznościowych za komunikację wokół zaawansowanego trybu głosowego. W mojej ocenie ta faktycznie została całkowicie położona.
Firma opublikowała na X tzw. nitkę, która rozpoczęła się od wpisu "funkcja Advanced Voice zostanie udostępniona wszystkim użytkownikom Plus i Team w aplikacji ChatGPT w ciągu tygodnia". W kolejnych wpisach funkcja została szczegółowo omówiona, a dopiero w szóstym znalazła się wzmianka, że funkcja "nie jest jeszcze dostępna w Unii Europejskiej, Wielkiej Brytanii, Szwajcarii, Islandii, Norwegii i Liechtensteinie".
Powód? Prawdopodobnie konieczność upewnienia się, że nowa funkcja jest zgodna z unijnym rozporządzeniem AI Act. A z tym może być problem, gdyż europejskie przepisy nie są zbyt przychylne wobec algorytmów wykrywających emocje użytkownika, a jest to jedna z podstawowych założeń zaawansowanego trybu głosowego.
W mojej ocenie firma słusznie obrywa jednak za niejasną komunikację. Po co ogłaszać, że funkcja zostaje udostępniona “wszystkim” abonentom, skoro mieszkańcy kilkudziesięciu krajów zostali wykluczeni? ChatGPT Plus kosztuje prawie 100 zł miesięcznie, więc pewnie niejeden użytkownik wykupił abonament na marne.
No, na szczęście niekoniecznie na marne, bo - mimo regionalnych ograniczeń - zaawansowany tryb głosowy w ChatGPT da się łatwo w Polsce uruchomić. Wystarczy użyć VPN-u.
Komentarze
6