De zin en onzin van WER

woensdag 22 november 2023

Word Error Rate (WER) speelt een cruciale rol in de evaluatie van automatische spraakherkenningssystemen. Deze maatstaf meet de nauwkeurigheid van transcripties door het aantal fouten te tellen. Maar hoe beïnvloedt een WER van bijvoorbeeld 20% de leesbaarheid en bruikbaarheid van een transcript? We illustreren dit aan de hand van een voorbeeld uit een klantenservicecontext.

Neem de volgende service-interactie:

Origineel

- "Goedemorgen, waarmee kan ik u van dienst zijn?"

- "Ik wil graag een storing melden met mijn internetverbinding."

Bekijk nu de twee onderstaande automatisch gegenereerde transcripten, beide met een vergelijkbare WER van circa 20%:  

Transcriptie A (WER ≈ 20%)

- “Goedemorgen, waarmee kan ik u van dienst zijn?"

- "Ik wil graag een storing melden met mijn internet."

Transcriptie B (WER ≈ 20%)

- "Goedemorgen, waarmee kan ik u van zijn?"

- "Ik wil graag een melding melden met mijn internet."

 Beide transcripten hebben een WER van ongeveer 20%. Maar terwijl Variant A nog prima bruikbaar is voor verdere verwerking of analyse, valt in Variant B meer cruciale informatie weg.

Gebruik WER in combinatie met andere indicatoren

WER is kortom een belangrijke, maar onvolledige indicator van transcriptkwaliteit. Een lage WER duidt niet automatisch op hoge bruikbaarheid, en een hoge WER betekent niet dat een transcript onbruikbaar is. Niet het aantal, maar het type fouten bepaalt hoe bruikbaar een tekst werkelijk is.

In het veld van spraak-naar-tekst conversie is WER een nuttig hulpmiddel. Maar de metric moet altijd in combinatie met andere indicatoren worden bekeken om de werkelijke waarde en bruikbaarheid van een transcript te bepalen.