Een AI kan spraak decoderen van hersenactiviteit met verrassende nauwkeurigheid

Het onderzoek is nog ver verwijderd van het helpen van mensen die niet kunnen communiceren via spraak

blauwdruk stijl illustratie van een brein met lijnen en vormen om netwerken aan te geven

Kunstmatige intelligentie komt een stap dichter bij het niet-invasief decoderen van wat we horen en willen zeggen uit hersenactiviteitsgegevens.

Een kunstmatige intelligentie kan woorden en zinnen decoderen uit hersenactiviteit met een verrassende – maar nog steeds beperkte – nauwkeurigheid. Met behulp van slechts een paar seconden aan hersenactiviteitsgegevens raadt de AI wat een persoon heeft gehoord. Het geeft het juiste antwoord in de top 10 van mogelijkheden tot 73 procent van de tijd, vonden onderzoekers in een voorstudie.

“De prestaties van de AI waren beter dan wat veel mensen in dit stadium voor mogelijk hielden”, zegt Giovanni Di Liberto, een computerwetenschapper aan het Trinity College Dublin die niet bij het onderzoek betrokken was.

Ontwikkeld bij het moederbedrijf van Facebook, Meta, zou de AI uiteindelijk kunnen worden gebruikt om duizenden mensen over de hele wereld te helpen niet in staat om te communiceren via spraak, typen of gebaren, rapporteren onderzoekers 25 augustus op arXiv.org. Dat omvat veel patiënten in minimaal bewuste, opgesloten of “vegetatieve toestanden” – wat nu algemeen bekend staat als niet-reagerend waaksyndroom (SN: 2/8/19).

De meeste bestaande technologieën om dergelijke patiënten te helpen communiceren, vereisen riskante hersenoperaties om elektroden te implanteren. Deze nieuwe aanpak “zou een levensvatbaar pad kunnen bieden om patiënten met communicatiestoornissen te helpen … zonder het gebruik van invasieve methoden”, zegt neurowetenschapper Jean-Rémi King, een Meta AI-onderzoeker die momenteel aan de École Normale Supérieure in Parijs werkt.

King en zijn collega’s trainden een rekentool om woorden en zinnen te detecteren op 56.000 uur aan spraakopnames uit 53 talen. De tool, ook wel een taalmodel genoemd, leerde specifieke kenmerken van taal te herkennen, zowel op een fijnmazig niveau – denk aan letters of lettergrepen – als op een breder niveau, zoals een woord of zin.

Het team paste een AI met dit taalmodel toe op databases van vier instellingen met hersenactiviteit van 169 vrijwilligers. In deze databases luisterden deelnemers naar verschillende verhalen en zinnen van bijvoorbeeld Ernest Hemingway’s De oude man en de zee en Lewis Carroll’s Alices Avonturen in Wonderland terwijl de hersenen van de mensen werden gescand met behulp van magneto-encefalografie of elektro-encefalografie. Die technieken meten de magnetische of elektrische component van hersensignalen.

Vervolgens probeerde het team met behulp van een computationele methode die fysieke verschillen tussen echte hersenen verklaart, te decoderen wat de deelnemers hadden gehoord met behulp van slechts drie seconden hersenactiviteitsgegevens van elke persoon. Het team gaf de AI de opdracht om de spraakgeluiden van de verhaalopnames af te stemmen op patronen van hersenactiviteit die de AI berekende als corresponderend met wat mensen hoorden. Vervolgens deed het voorspellingen over wat de persoon in die korte tijd zou hebben gehoord, gezien meer dan 1.000 mogelijkheden.

Met behulp van magneto-encefalografie of MEG was het juiste antwoord tot 73 procent van de tijd in de top 10 van de AI’s, vonden de onderzoekers. Bij elektro-encefalografie daalde die waarde tot niet meer dan 30 procent. “[That MEG] de prestaties zijn erg goed”, zegt Di Liberto, maar over het praktische gebruik is hij minder optimistisch. “Wat kunnen we ermee? Niks. Helemaal niets.”

De reden, zegt hij, is dat MEG een omvangrijke en dure machine nodig heeft. Om deze technologie naar klinieken te brengen, zijn wetenschappelijke innovaties nodig die de machines goedkoper en gebruiksvriendelijker maken.

Het is ook belangrijk om te begrijpen wat ‘decoderen’ in dit onderzoek werkelijk betekent, zegt Jonathan Brennan, een taalkundige aan de Universiteit van Michigan in Ann Arbor. Het woord wordt vaak gebruikt om het proces te beschrijven waarbij informatie rechtstreeks uit een bron wordt ontcijferd – in dit geval spraak uit hersenactiviteit. Maar de AI kon dit alleen doen omdat het een eindige lijst van mogelijke juiste antwoorden kreeg om zijn gissingen te maken.

“Met taal is dat niet genoeg als we willen schalen naar praktisch gebruik, want taal is oneindig”, zegt Brennan.

Bovendien, zegt Di Liberto, decodeerde de AI informatie van deelnemers die passief naar audio luisterden, wat niet direct relevant is voor non-verbale patiënten. Om het een zinvol communicatiemiddel te laten worden, zullen wetenschappers moeten leren hoe ze uit hersenactiviteit kunnen ontcijferen wat deze patiënten van plan zijn te zeggen, inclusief uitingen van honger, ongemak of een eenvoudig “ja” of “nee”.

De nieuwe studie is “decodering van spraakperceptie, niet productie”, beaamt King. Hoewel spraakproductie het uiteindelijke doel is, “zijn we voorlopig nog een heel eind weg.”

Nieuwste artikelen

Gerelateerde artikelen