Categorieën
Nieuws

Spraakherkenning voor iedereen

Inleiding

Waar spraakherkenning zo’n tien jaar geleden nog door een enkeling gebruikt werd, kijkt er nu niemand meer van op dat we kunnen praten tegen auto’s, smartphones en zelfs huishoudelijke apparaten in onze eigen taal. Het heersende beeld is echter dat spraaktechnologie vooral werkt als die eigen taal de standaardtaal is. Een van de vaakst gestelde vragen over Attendi’s Speech Service is dan ook: “Maar werkt het ook voor mijn accent?”

Recent zijn er enkele projecten gestart waarin teams uit allerlei verschillende regio’s in Nederland de Attendi Speech Service in gebruik namen. Voor Attendi een prachtige kans: niet alleen kunnen we zo toetsen hoe onze spraak-naar-tekstmodellen omgaan met verschillende varianten van het Nederlands, maar ook kunnen we dankzij ons annotatie- en trainingsproces onze modellen verder toespitsen op deze varianten, zoals we eerder deden met onze domeinspecifieke modellen voor de woonzorg.

Gebrek aan variatie

Eerst een misverstand uit de weg ruimen: regionale accenten en dialecten zijn geen verbasterde of verarmde vorm van de standaardtaal. Wat we ‘accentloos’ Nederlands of ‘Standaardnederlands’ noemen is eigenlijk ook een dialect. Om historische en politieke redenen is die tongval de standaard geworden, en via onderwijs en media steeds verder gestandaardiseerd.

Vaak zijn AI-modellen ook vooral getraind op deze standaardvariant. Dat veel taal- en spraaktechnologie niet goed kan omgaan met regionale varianten komt dus door gebrek aan variatie in de trainingsdata. Zo’n vertekening van de resultaten door te weinig variatie wordt ook wel biasgenoemd. Deze “algoritmische bias” vormt ook een serieus probleem in veel andere AI-technologie, zoals gezichtsherkenning en toepassingen in de gezondheidszorg.

Figuur 1: taalafstand tussen de Nederlandse dialecten en het Standaardnederlands. Bron: Wikipedia

Onderzoekers van het Meertens Instituut hebben voor zo’n veertig plaatsen in het Nederlands taalgebied in kaart gebracht hoever het Nederlands daar van het Standaardnederlands af staat in termen van uitspraak, woordenschat en grammatica. Deze afstand is uitgedrukt in een getal.

Het kaartje in Figuur 1 laat zien dat de Hollandse dialecten het dichtst bij de standaard staan, gevolgd door Utrechts. Fries-Nederlands en Twents staan grofweg even ver van de standaard af, en de afstand is het grootst voor varianten uit het zuiden van Limburg. Voor spraak-naar-tekstmodellen met een bias voor Standaardnederlands is de verwachting dat een hogere score samenhangt met een lagere nauwkeurigheid in die regio.

Regionaal Nederlands bij Patyna en Buurtzorg

In september 2022 zijn verschillende wijkzorgteams van de organisaties Patyna en Buurtzorg aan de slag gegaan met de Attendi Speech Service. Hiermee konden wij de kwaliteit van onze oplossing testen in vier verschillende streken van Nederland: via Patyna in Friesland, en via Buurtzorg in de regio’s Utrecht/Amersfoort, Twente en Zuid-Limburg.

Net als onze gebruikers waren wij in het bijzonder nieuwsgierig hoe de spraak-naar-tekst het zou doen met regionale varianten van het Nederlands. Om hier inzicht in te krijgen hebben onze annotatoren de transcripten van ons wijkzorgmodel op deze data beluisterd en gecorrigeerd.

Achter de poest

Als we de gecorrigeerde transcripten vergelijken met het resultaat van de spraak-naar-tekst, zien we inderdaad dat het model niet altijd goed overweg kan met klankverschillen tussen accenten. Een voorbeeld van zo’n klankverschil is de korte ‘e’ (als in ‘bed’), die in het Limburgs wat opener wordt uitgesproken, zodat hij meer klinkt als de ‘a’ of ‘aa’ van het Standaardnederlands. Onderstaande tabel geeft een paar voorbeelden uit de transcripten die laten zien hoe dit de uitkomst van de spraak-naar-tekst kan beïnvloeden.

Naast accenten kunnen ook onbekende regionale woorden en uitdrukkingen voor fouten in het transcript zorgen. Zo zagen onze annotatoren het woord feesteling (‘feestvarken’) en de uitdrukking achter de poest zijn (‘buiten adem zijn’) voorbij komen, waarmee de spraak-naar-tekst nog geen raad wist.

FrieslandZuid-LimburgTwente
sopje – sapjebar – Bachniet – niets
nam – naamelf – alefgeeft – gift
zoon – soonin – enwordt – wat

Tabel: voorbeelden van verkeerd verstane woorden per regionaal accent. Uitgesproken woord (links) versus resulterend transcript (rechts)

Een verbeterd model: tot 28% minder fouten

Met de gecorrigeerde transcripten en bijbehorende audio kunnen wij niet alleen de nauwkeurigheid van Attendi’s wijkzorgmodel monitoren, maar ook een nieuwe versie van het model trainen. Hiervoor zijn de eerste twee weken aan opnames uit de introductieperiodes bij Buurtzorg en Patyna gebruikt. Vervolgens hebben we dit nieuw getrainde model vergeleken met het oude, door het te testen op de opnames uit de weken daarna (16 september t/m 17 oktober). Figuur 2 toont het resultaat.

Figuur 2 (links): gemiddelde nauwkeurigheid per regio vóór (blauw) en na (oranje) het trainen van het nieuwe model. Rechts het aantal geanalyseerde opnames per regio.

In de resultaten van het oude model valt op dat de nauwkeurigheid inderdaad per regio verschilt. De afstand tot het Standaardnederlands uit Figuur 1 hangt direct samen met de nauwkeurigheid van het model in deze regio’s, wat aangeeft dat er inderdaad een zekere bias in het model aanwezig was.

De resultaten voor het nieuwe model zijn echter zeer bemoedigend: de nauwkeurigheid neemt toe voor alle regio’s, maar de toename is sterker voor regio’s met een grotere afstand tot de standaardtaal. Voor Zuid-Limburg gaat de nauwkeurigheid van 89,65% naar 92,59%. Het aantal fouten is daarmee met ruim 28% afgenomen!

Conclusie

Om alle gebruikers van de Attendi Speech Service het gemak van een spraakgestuurd ECD te laten ervaren, moet de oplossing nauwkeurig werken voor alle varianten van het Nederlands. In dit artikel lieten wij zien dat ons wijkzorgmodel op dit moment nog iets beter werkt voor het Standaardnederlands, maar dat wij dankzij onze annotatoren en gebruikers op weg zijn dit te verhelpen. Toekomstige updates van de modellen, met meer data uit meer regio’s van Nederland, zullen dit gat verder dichten. De vraag “werkt het ook voor mijn accent?” verwachten wij dan ook met een volmondig “ja!” te kunnen beantwoorden.