De door Microsoft gesteunde start-up OpenAI heeft onlangs spraak- en beeldmogelijkheden toegevoegd aan zijn generatieve AI-gebaseerde chatbot ChatGPT, die hem nu laat zien, horen en spreken.
Deze mogelijkheden bieden een nieuw, intuïtiever type interface waarmee gebruikers een spraakgesprek kunnen voeren of ChatGPT kunnen laten zien waar ze het over hebben.
show
ChatGPT kan nu afbeeldingen zien en naar uw stem luisteren
Laten we eens kijken naar de nieuwe functies die aan de ChatGPT zijn toegevoegd:
Stem
Gebruikers kunnen nu spraak gebruiken om heen en weer te praten met de AI-assistent. Aangedreven door een nieuw tekst-naar-spraakmodel, kan de ChatGPT nu mensachtige audio genereren uit alleen tekst en een paar seconden voorbeeldspraak.
OpenAI heeft samengewerkt met professionele stemacteurs om vijf verschillende stemopties te creëren, waaronder mannen- en vrouwenstemmen. Het heeft ook Whisper, het open-source spraakherkenningssysteem, gebruikt om de gesproken woorden van de gebruiker in tekst om te zetten.
Om aan de slag te gaan met spraakgesprekken, opent u Instellingen en klikt u op ‘Nieuwe functies’ in de mobiele app. Kies dan voor stemgesprekken. Als u klaar bent, tikt u op de koptelefoonknop in de rechterbovenhoek van het startscherm en selecteert u uw favoriete stem uit vijf verschillende stemopties.
Gebruik uw stem om een heen-en-weer gesprek te voeren met ChatGPT. Praat er onderweg mee, vraag om een verhaaltje voor het slapengaan of beslecht een tafeldebat.
Geluid aan 🔊 pic.twitter.com/3tuWzX0wtS
— OpenAI (@OpenAI) 25 september 2023
Afbeeldingen
De ChatGPT kan nu reageren op afbeeldingen die door gebruikers zijn geüpload. Gebruikers kunnen bijvoorbeeld tijdens het reizen een foto maken van een oriëntatiepunt om er meer details over te krijgen of foto’s van hun koelkast en voorraadkast sturen, en de AI-assistent kan voorstellen welke gerechten voor het diner kunnen worden bereid met de aanwezige ingrediënten.
Dit is mogelijk door het begrijpen van afbeeldingen, mogelijk gemaakt door multimodale GPT-3.5 en GPT-4, die hun taal-redeneervaardigheden toepassen op verschillende afbeeldingen, zoals foto’s, schermafbeeldingen en documenten die zowel tekst als afbeeldingen bevatten.
Om te beginnen tikt u op de fotoknop om een afbeelding vast te leggen of te selecteren. Als u een iOS- of Android-apparaat gebruikt, moet u eerst op de plusknop tikken. Daarnaast kunt u meerdere afbeeldingen bespreken of de tekentool van OpenAI gebruiken om uw AI-assistent te begeleiden.
“Stem en beeld geven je meer manieren om ChatGPT in je leven te gebruiken. Maak tijdens het reizen een foto van een oriëntatiepunt en voer een live gesprek over wat er interessant aan is”, aldus het bedrijf aangekondigd in een blogpost op maandag.
“Als je thuis bent, maak dan foto’s van je koelkast en voorraadkast om erachter te komen wat je gaat eten (en stel vervolgvragen voor een stapsgewijs recept). Help uw kind na het eten met een rekenprobleem door een foto te maken, de opgave te omcirkelen en hem hints met jullie beiden te laten delen.
Beschikbaarheid
De komende twee weken zullen de spraak- en beeldfuncties beschikbaar zijn voor ChatGPT Plus- en Enterprise-klanten. Hoewel de spraakfunctie beschikbaar zal zijn op iOS en Android (meld je aan in je instellingen), zal de afbeeldingsfunctie beschikbaar zijn op alle platforms.