Een aanzienlijke verbetering in de nauwkeurigheid van spraak-naar-tekst

Introductie

De Speech Service van Attendi geeft zorgmedewerkers de mogelijkheid hun stem te gebruiken om rapportages in te spreken. De spraak-naar-tekstmodellen die dit mogelijk maken zijn speciaal toegespitst op het zorgdomein, en worden door onszelf ontwikkeld in samenwerking met onze partners in de zorg. In eerdere artikelen legden we uit waarom we dit belangrijk vinden, en lieten we zien hoe deze keuze zorgt voor een hogere nauwkeurigheid dan bij (generieke) spraak-naar-tekstoplossingen van andere partijen.

Onlangs hebben we een nieuwe versie van onze modellen uitgebracht, waarmee we weer een stap vooruit hebben gezet in de nauwkeurigheid van onze oplossing. In dit artikel lichten we deze update verder toe.

Methode en testdata

Onze modellen worden getraind op vele uren getranscribeerde audio, en daarnaast nog aangevuld met extra teksten en woordenlijsten. Deze tekstuele data wordt in samenwerking met onze partnerorganisaties samengesteld en verzameld, en helpt om veelvoorkomende woorden en zinnen uit het zorgdomein te herkennen. Eerdere verbeteringen van onze modellen hebben we vooral op basis van deze teksten bereikt. We zijn echter ook al geruime tijd bezig om audio van rapportages uit het zorgdomein te verzamelen en te transcriberen; in een eerder artikel kun je lezen hoe we hierbij de privacy en veiligheid van de data van onze gebruikers waarborgen.

In de huidige update hebben we een aanzienlijke hoeveelheid van deze getranscribeerde audiodata, verzameld bij één zorgorganisatie, toegevoegd aan het trainingsmateriaal voor ons model voor de intramurale ouderenzorg. Het effect van deze domeinspecifieke audiodata testen we op een dataset die we hebben verzameld bij een andere zorgorganisatie in hetzelfde domein. Deze dataset bevat in totaal zo’n 400 opnames.

Resultaten

Onderstaande grafiek laat de resultaten zien van de verschillende iteraties, van ons eerste “algemeen Nederlandse” model tot de huidige versie, Intramurale Ouderenzorg 3.0. Zoals in de vorige update presenteren wij de resultaten in termen van nauwkeurigheid, aan de hand van de word error rate (WER) – een nauwkeurigheid van 80% staat dan bijvoorbeeld voor een WER van 20%.

We zien dat de gemiddelde nauwkeurigheid van het model na deze laatste update in absolute termen met bijna 2% is toegenomen, van 88.27% naar 90.16%. In relatieve termen betekent dit dat het aantal fouten met ruim 16% is afgenomen! Hoewel de audiodata die we hebben toegevoegd slechts een fractie beslaat van de totale hoeveelheid audio waarop we trainen, zorgt het toch voor een aanzienlijke verbetering in de resultaten van de spraak-naar-tekst, ook wanneer we het model testen op een nieuwe groep gebruikers.

Conclusie

Deze nieuwste update laat wederom zien hoe de inzet op domeinspecifieke modellen zijn vruchten afwerpt. Dankzij nauwe samenwerking met onze partners en gebruikers hebben we niet alleen tekst maar ook audio uit het relevante domein toegevoegd. Hiermee hebben we een aanzienlijke verbetering in de nauwkeurigheid van onze Speech Service bereikt. Dit vertaalt zich naar een effectievere oplossing, meer tijdsbesparing, en hopelijk ook meer plezier in het gebruiken van deze oplossing.

Wij zijn van plan deze ontwikkeling in de toekomst voort te zetten, zodat spraakgestuurd rapporteren met Attendi, door én voor zorgprofessionals, een steeds nauwkeuriger resultaat kan leveren.