
Door natuurlijke taalverwerking kunnen computers wat we zeggen, verwerken in opdrachten die ze kunnen uitvoeren. Ontdek hoe het werkt en hoe het wordt gebruikt om ons leven te verbeteren.
Wat is natuurlijke taalverwerking?
Of het nu Alexa, Siri, Google Assistant, Bixby of Cortana is, iedereen met een smartphone of slimme speaker heeft tegenwoordig een spraakgestuurde assistent. Elk jaar lijken deze stemassistenten beter te worden in het herkennen en uitvoeren van de dingen die we hen opdragen te doen. Maar heb je je ooit afgevraagd hoe deze assistenten de dingen die we zeggen verwerken? Dat lukt ze dankzij Natural Language Processing, of NLP.
Historisch gezien kon de meeste software alleen reageren op een vaste set specifieke opdrachten. Een bestand wordt geopend omdat u op Openen hebt geklikt, of een spreadsheet berekent een formule op basis van bepaalde symbolen en formulenamen. Een programma communiceert met behulp van de programmeertaal waarin het is gecodeerd, en zal dus een output produceren wanneer het input krijgt die het herkent. In deze context zijn woorden als een reeks verschillende mechanische hendels die altijd de gewenste output leveren.
Dit in tegenstelling tot menselijke talen, die complex en ongestructureerd zijn en een veelvoud aan betekenissen hebben op basis van zinsbouw, toon, accent, timing, interpunctie en context. Natural Language Processing is een tak van kunstmatige intelligentie die probeert die kloof te overbruggen tussen wat een machine als input herkent en de menselijke taal. Dit is zo dat wanneer we op natuurlijke wijze spreken of typen, de machine een uitvoer produceert in overeenstemming met wat we hebben gezegd.
Dit wordt gedaan door enorme hoeveelheden datapunten te nemen om betekenis af te leiden uit de verschillende elementen van de menselijke taal, bovenop de betekenissen van de eigenlijke woorden. Dit proces is nauw verbonden met het concept dat bekend staat als machine learning, waardoor computers meer kunnen leren naarmate ze meer gegevens verzamelen. Dat is de reden waarom de meeste natuurlijke taalverwerkingsmachines waarmee we vaak omgaan, na verloop van tijd beter lijken te worden.
Laten we, om het concept beter te belichten, eens kijken naar twee van de meest geavanceerde technieken die in NLP worden gebruikt om taal en informatie te verwerken.
VERWANT: Het probleem met AI: machines leren dingen, maar kunnen ze niet begrijpen
Tokenisatie

Tokenization betekent het opsplitsen van spraak in woorden of zinnen. Elk stuk tekst is een token en deze tokens worden weergegeven wanneer uw spraak wordt verwerkt. Het klinkt simpel, maar in de praktijk is het een lastig proces.
Stel dat u tekst-naar-spraak-software gebruikt, zoals het Google-toetsenbord, om een ​​bericht naar een vriend te sturen. U wilt een bericht sturen: “Ontmoet me in het park.” Wanneer uw telefoon die opname opneemt en deze verwerkt via het tekst-naar-spraak-algoritme van Google, moet Google wat u zojuist zei, opsplitsen in tokens. Deze fiches zijn “ontmoet”, “ik”, “at”, “de” en “park”.
Mensen hebben verschillende pauzes tussen woorden, en andere talen hebben misschien niet zo heel weinig wat betreft een hoorbare pauze tussen woorden. Het tokenisatieproces varieert drastisch tussen talen en dialecten.
Stemming en Lemmatisering
Stemming en lemmatisering omvatten beide het proces van het verwijderen van toevoegingen of variaties op een stamwoord dat de machine kan herkennen. Dit wordt gedaan om de interpretatie van spraak consistent te maken voor verschillende woorden die allemaal in wezen hetzelfde betekenen, waardoor NLP-verwerking sneller gaat.

Stemming is een ruw, snel proces waarbij affixen worden verwijderd uit een stamwoord, wat toevoegingen zijn aan een woord dat voor of na de wortel is toegevoegd. Dit verandert het woord in de eenvoudigste basisvorm door simpelweg letters te verwijderen. Bijvoorbeeld:
- “Lopen” verandert in “lopen”
- ‘Sneller’ verandert in ‘snel’
- “Ernst” verandert in “verbreken”
Zoals u kunt zien, kan stampen het nadelige effect hebben dat de betekenis van een woord volledig verandert. “Severity” en “sever” betekenen niet hetzelfde, maar het achtervoegsel “ity” is verwijderd tijdens het stampen.
Aan de andere kant is lemmatisering een meer geavanceerd proces waarbij een woord wordt teruggebracht tot de basis, bekend als de lemma. Dit houdt rekening met de context van het woord en hoe het in een zin wordt gebruikt. Het omvat ook het opzoeken van een term in een database met woorden en hun respectieve lemma. Bijvoorbeeld:
- “Zijn” verandert in “zijn”
- “Operatie” verandert in “bedienen”
- “Ernst” verandert in “ernstig”
In dit voorbeeld slaagde lemmatisering erin om de term ‘strengheid’ om te zetten in ‘ernstig’, wat de lemmavorm en het grondwoord is.
NLP-use cases en de toekomst
De voorgaande voorbeelden beginnen pas aan de oppervlakte te komen van wat natuurlijke taalverwerking is. Het omvat een breed scala aan praktijken en gebruiksscenario’s, waarvan we er veel in ons dagelijks leven gebruiken. Dit zijn een paar voorbeelden van waar NLP momenteel in gebruik is:
- Voorspellende tekst: Wanneer u een bericht op uw smartphone typt, worden automatisch woorden voorgesteld die in de zin passen of die u eerder hebt gebruikt.
- Machine vertaling: Veelgebruikte vertalingsdiensten voor consumenten, zoals Google Translate, om een ​​hoogwaardige vorm van NLP op te nemen om taal te verwerken en te vertalen.
- Chatbots: NLP is de basis voor intelligente chatbots, vooral in klantenservice, waar ze klanten kunnen helpen en hun verzoeken kunnen verwerken voordat ze met een echt persoon worden geconfronteerd.
Er komt nog meer. NLP-toepassingen worden momenteel ontwikkeld en toegepast op gebieden als nieuwsmedia, medische technologie, werkplekbeheer en financiën. Er is een kans dat we in de toekomst een volwaardig, geavanceerd gesprek met een robot kunnen voeren.
Als je meer wilt weten over NLP, kun je op het Towards Data Science-blog of de Standford National Langauge Processing Group veel fantastische bronnen vinden.