De opmars van spraakherkenning: hoe tekst-naar-spraak steeds verder wordt verbeterd en geïntegreerd

vrijdag 10 maart 2023

Nog niet zo lang geleden was het ondenkbaar: je stelt hardop een vraag aan je device, en je krijgt een gesproken antwoord. De technologie die hierachter zit is automatic speech recognition (ASR), oftewel spraakherkenning.


Spraakherkenning bestaat al een tijd, maar de technologie wordt de laatste jaren snel volwassen. En het publiek is er klaar voor: dat diepzinnige gesprek met onze koelkast of was/droog-combinatie gáát er komen! Maar hoe werkt spraakherkenning precies, hoe wordt het gebruikt en hoe zetten wij het in bij Converz Analytics? Daar nemen we je hieronder in mee.

Spraakherkenning-technologie zet gesproken audio om naar geschreven tekst. Handmatig transcriberen van één uur audio kost tussen de 6 tot 8 uur. Spraak-naar-tekst software doet dit in een mum van tijd en dus tegen een fractie van de kosten. Maar de technologie is (nog) niet perfect. Denk aan de transcripties die je mobiele telefoon maakt van je ingesproken tekst: het resultaat is tegenwoordig vrij aardig, maar niet foutloos. Toch komt 100% accurate spraak-naar-tekst snel dichterbij. Dat is te danken aan ontwikkelingen op het gebied van machine learning.

Computer says yes

Machine learning is een breed onderzoeksveld binnen kunstmatige intelligentie dat steeds meer praktische toepassingen krijgt. Het houdt zich bezig met de ontwikkeling van algoritmes en technieken waarmee computers ‘zelfstandig’ kunnen leren.

‍Hoe spraakherkenning-software leert

Hoe werkt dat in spraak-naar-teksttechnologie? Mensen zijn van nature goed in het herkennen en gebruiken van taal. We snappen logische zinsstructuren, weten welke letters in een woord zitten en we vullen gemakkelijk ontbrekende woorden aan wanneer we iets niet verstaan.

Eigenlijk willen we dat spraak-naar-tekstsoftware hetzelfde kan. Klinkt simpel, toch? Maar dat is het niet! Software heeft namelijk geen begrip van het concept van taal. Daarom trainen we spraakherkenning-systemen om niet alleen te luisteren naar gesproken taal (als in het registreren van geluid), maar echt te horen (je kunt ook zeggen: ten dele te begrijpen) wat wordt gezegd.

In (de meeste) spraak-naar-teksttechnologie worden hiervoor twee technieken ingezet:

1. Akoestiek

Het akoestiekmodel gaat over wat er gebeurt wanneer we praten en luisteren. Onze stembanden produceren trillingen wanneer we iets zeggen: geluidsgolven. Die geluidsgolven bestaan uit allerlei klanken, fonemen genoemd. De gehele Nederlandse taal bestaat uit 40 fonemen. Onze oren vangen deze fonemen op en onze hersenen zetten ze om naar begrijpelijke taal.

Dit proces wordt nagebootst in een akoestisch model dat onderdeel is van spraak-naar-tekst systemen. Het systeem wordt getraind om fonemen te herkennen aan de hand van een enorme hoeveelheid voorbeelden. Zo leert het steeds beter onderscheid te maken tussen de verschillende fonemen. Kortom, spraak-naar-tekst technologie kan meer dan luisteren naar audio, maar leert om verschillende soorten klanken te herkennen en van elkaar te onderscheiden.

‍2. Taal

Het taalmodel is een aanvulling op het akoestische model. Liever gezegd, de beide modellen vullen elkaar aan. Door de software miljoenen voorbeelden te laten zien van zinstructuren in alle soorten en maten, krijgt het een idee van hoe gesproken taal in elkaar zit. Taalmodellen kunnen vervolgens voorspellen welke woorden bij bepaalde zinnen horen en op welke plek in de zin die woorden moeten staan. Hoewel ‘mop en ‘kop’ akoestisch bijna hetzelfde klinken, zal het taalmodel weten dat aan het eind van de zin “Je slaat de spijker op zijn …” ‘kop’ moet komen.

Ook autocorrect op je telefoon maakt gebruik van dit soort patroonherkenning in de taal: als je een typefout maakt dan corrigeert je telefoon automatisch. Je telefoon ‘weet’ niet letterlijk wat je bedoelt, maar maakt een voorspelling die is gebaseerd op de enorme hoeveelheid tekst die het gezien en geanalyseerd heeft.

‍Toepassingen van spraakherkenning

Spraak-tekst-technologie komt dus steeds meer voor en is al geïntegreerd in ons dagelijks leven. Denk bijvoorbeeld aan de spraakgestuurde assistenten van Google, Amazon (Alexa) en Apple (Siri), je navigatiesysteem, spraakintegraties in diverse communicatie-apps of de geautomatiseerde klantenservice die je vraagt gegevens in te spreken.

Software voor het overzetten van spraak naar tekst is ook breed toegankelijk. Dragon van technologiebedrijf Nuance is een voorbeeld van een productiviteitspakket voor zakelijk en particulier gebruik dat is gestoeld op spraak-naar-tekst-technologie. De service is ook via een webinterface te gebruiken: je uploadt audio naar de cloud en krijgt er geschreven tekst voor terug.

Spraakherkenning neemt ook een vluchtin de (groot-)zakelijke wereld. Bedrijven gaan steeds meer inzien dat ze op een schat van (audio-) data zitten, die ze kunnen gebruiken om hun dienstverlening te optimaliseren. Maar daarvoor moet deze data wel worden ‘ontsloten’ door het om te zetten naar een ander format. Oftewel: audio moet worden omgezet naar tekst om de informatie effectief te kunnen kwantificeren, eenvoudig te kunnen zoeken en er analyses op los te kunnen laten.

‍Spraaktechnologie met Converz Analytics

Converz Analytics helpt organisaties om (vaak grote hoeveelheden) gesproken data snel en laagdrempelig in te zetten om processen, mensen en de dienstverlening als geheel te verbeteren. Met behulp van slimme integraties (API’s) zorgen we ervoor dat spraak-naar-tekst technologie direct ingezet kan worden op de plekken waar deze een (groot) verschil kan maken. Denk bijvoorbeeld aan de klantenservice, de salesafdelingen andere contactpunten die cruciaal zijn voor de totale customer experience.

De omzetting van spraak-naar-tekst is niet het eindstation, maar juist het beginpunt van de dienstverlening van Converz Analytics. Getranscribeerde data wordt geanalyseerd en de inzichten worden direct ingezet voor trainings, kwaliteits- en sturingsdoeleinden. We kijken naar hoe effectief gesprekken verlopen en welke competenties ontbreken of verder ontwikkeld moeten worden bij medewerkers, bijvoorbeeld op het vlak van informatieverwerking, empathie of assertiviteit. Gebaseerd op deze patroonanalyse bieden we een leertraject aan met tips & tricks. Daarnaast ontsluiten we inzichten voor coaches en teams, om formeel- en praktijkleren in de organisatie een impuls te geven.

Geïnteresseerd in wat wij voor jou kunnen betekenen? Neem contact met ons op!