Nauwkeurige resultaten met domeinspecifieke spraak-naar-tekstmodellen voor de zorg

Achtergrond

Met de Speech Service van Attendi kunnen zorgprofessionals hun rapportages inspreken. Omdat de Speech Service is geïntegreerd in de ECD’s waar zorgprofessionals al mee werken, kan er direct gebruik worden gemaakt van de oplossing op diverse apparaten. In tegenstelling tot andere “on-premise” oplossingen, heeft de Speech Service geen extra software of hardware nodig die vooraf moeten worden geïnstalleerd of die nodig zijn om bijvoorbeeld voor een bepaalde spreker te optimaliseren. Onze aanpak met behulp van domeinspecifieke modellen direct geïntegreerd in het ECD maakt het mogelijk dat de technologie direct op schaal kan worden gebruikt.

De spraak-naar-teksttechnologie achter de Attendi Speech Service wordt “in-house” ontwikkeld. Dat wil zeggen dat we geen gebruik maken van kant-en-klare oplossingen van derde partijen zoals Google of Microsoft. In een eerder blog legden we uit waarom we deze keuze hebben gemaakt. Daarin stellen we ook dat wij door middel van domeinspecifieke modellen de hoogste nauwkeurigheid denken te kunnen bieden voor specifieke toepassingen in de Nederlandse zorg – beter dan met een generiek model van een grote aanbieder.

Inmiddels hebben wij verschillende implementaties afgerond. Tijdens deze implementaties hebben wij spraak-naar-tekstmodellen ontwikkeld voor specifieke zorgdomeinen, zoals bijvoorbeeld de ambulante GGZ of de intramurale ouderenzorg. In samenwerking met partnerorganisaties hebben wij deze modellen doorlopend verbeterd met behulp van verzamelde data en suggesties van zorgprofessionals. Een mooi moment om de eens proef op de som te nemen: hoeveel verschil maakt het trainen van zo’n domeinspecifiek model? En hoe doen onze modellen het in vergelijking met die van de “grote spelers”?

Modellen

Voor de ontwikkeling van onze eigen modellen vergelijken we drie iteraties. De eerste is het “generieke” model dat gebaseerd is op Kaldi-NL. Dit basismodel is getraind op algemeen Nederlandse audio en teksten, en niet gespecifieerd voor de (intramurale ouderen)zorg. Het tweede model is Intramurale Ouderenzorg 1.0. Dit domeinspecifieke model hebben wij in september 2021 in samenwerking met Ecare ontwikkeld. Recenter hebben we ook een derde iteratie uitgebracht, Intramurale Ouderenzorg 2.0, waarin meer data uit dit domein is meegenomen en ook feedback van gebruikers uit de eerste maanden is verwerkt.

Om ons daarnaast te meten met de techreuzen, vergelijken we onze spraak-naar-tekstmodellen ook met Azure Speech to Text, de spraak-naar-tekstservice die Microsoft aanbiedt. We hebben voor de service van Microsoft gekozen, omdat de Speech Service ook wordt gehost op de Nederlandse servers van Microsoft en dus zijn goedgekeurd als subverwerker. We hebben de service gebruikt vanuit Attendi’s veilige Azure omgeving, zonder dataopslag en gebruik gemaakt van de servers met locatie Nederland.

Testdata en methode

Deze vier modellen hebben wij geëvalueerd op een testdataset met daarin 386 ingesproken rapportages van een zorgorganisatie. Van deze opnames hebben onze annotatoren een “referentietranscript” gemaakt van wat er werkelijk gezegd is. Door dit transcript te vergelijken met het automatische transcript van de modellen, kunnen wij de word error rate (WER) berekenen: het percentage woorden dat afwijkt ten opzichte van het referentietranscript. Een WER van 10% betekent dan eigenlijk een nauwkeurigheid van 90%. In de resultaten hieronder presenteren wij de uitkomsten in termen van nauwkeurigheid.

Resultaten

Onderstaande grafiek laat het gemiddelde en de mediaan van de nauwkeurigheid zien voor de vier modellen op de testdata:

Als we de Attendi-modellen met elkaar vergelijken, zien we dat iedere iteratie een sprong in nauwkeurigheid heeft opgeleverd. Het nieuwste domeinspecifieke model, Intramurale Ouderenzorg 2.0, behaalt een gemiddelde nauwkeurigheid van bijna 90% op rapportages uit dit domein. Aan de hogere mediaanscore zien we dat een aanzienlijk aantal rapportages zelfs vrijwel foutloos wordt getranscribeerd. Hiermee streven wij ook het generieke model van Azure voorbij, dat een gemiddelde nauwkeurigheid van zo’n 80% haalt op dezelfde data. Een resultaat waar we trots op zijn!

Conclusie

De resultaten laten zien dat het “in-house” trainen van domeinspecifieke modellen zeer effectief is. Door in samenwerking met zorgorganisaties onze modellen toe te spitsen op de situatie waarin ze gebruikt worden, hebben wij de nauwkeurigheid substantieel kunnen verhogen. Meer nauwkeurigheid betekent uiteindelijk meer tijdsbesparing en meer werkplezier voor de zorgprofessionals die onze Speech Service gebruiken.

Hiermee is ons werk echter nog niet klaar. Samen met onze partnerorganisaties werken wij door aan nieuwe iteraties van onze huidige spraak-naar-tekstmodellen, en aan modellen voor nieuwe domeinen. Ook is er nog veel winst te behalen in het nauwkeuriger maken van onze oplossing in minder dan optimale omstandigheden, zoals wanneer men de rapportages inspreekt in een lawaaiige omgeving. Daarom doen wij ook actief onderzoek naar nieuwe ontwikkelingen in de spraaktechnologie, zoals zogeheten end-to-end modellen. In een toekomstig artikel gaan we hier nader op in.

Leer hier meer over onze Speech Service of neem contact met ons op en ontdek de mogelijkheden van spraakgestuurd rapporteren bij jouw organisatie.

Dr. Jan-Willem van Leussen studeerde Artificial Intelligence en is gepromoveerd in de computationele taalkunde aan de Universiteit van Amsterdam. Daarnaast werkt hij al enige jaren in het bedrijfsleven als software-ontwikkelaar op het gebied van taal- en spraaktechnologie. Sinds 2020 past hij deze expertise toe als Speech Engineer bij Attendi.