Categorieën
Research

Spraakgestuurd Rapporteren wordt pas gebruikt als het de taal van de zorg spreekt 

Samenvatting & belangrijkste inzichten van dit artikel:
  • Spraakgestuurd rapporteren is flink opgeschaald: 250 zorginstellingen gebruiken het via Attendi, mogelijk gemaakt door een sprong in nauwkeurigheid. 
  • Attendi’s domeinspecifieke model is bijna 2x nauwkeuriger op volledige rapportages en 3,5x nauwkeuriger op medische termen dan de best beschikbare generieke modellen. 
  • Hoge nauwkeurigheid is cruciaal voor vertrouwen, adoptie en veilige verdere innovatie zoals automatische gespreksverslagen en samenvattingen. 
  • Deze hoge nauwkeurigheid komt voort uit duizenden uren ingesproken rapportages uit de praktijk, zorgvuldig geannoteerd op ruis, accenten en context door onze annotators binnen een beveiligde infrastructuur. 

Minder typen, meer praten 

Zorgprofessionals werken met hun handen en ogen bij de cliënt, niet achter een scherm. Daarom bestond al jaren de wens om te spreken in plaats van te typen. Die belofte werd pas afgelopen jaren werkelijkheid. Spraakgestuurd rapporteren is uitgegroeid tot een volwaardige productcategorie onder zorgprofessionals en wordt inmiddels gebruikt door 250 zorginstellingen. 

De sleutel tot die doorbraak: domein specifieke nauwkeurigheid. Als een rapportage vrijwel foutloos wordt opgeschreven, ontstaat vertrouwen — en waar vertrouwen ontstaat, volgt adoptie. De investering in nauwkeurigheid levert nu maatschappelijk rendement op. Attendi neemt zorgprofessionals inmiddels bijna een half miljoen keer per maand schrijfwerk uit handen, wat direct resulteert in meer tijd voor zorg. 

In dit artikel laten we zien hoe nauwkeurig onze domeinspecifieke speech-to-text vandaag is, hoe die zich verhoudt tot de beste generieke modellen in de markt, wat ervoor nodig is om die kwaliteit te bereiken, en hoe de zorgtaal die nauwkeurigheid verder opent voor innovatie. 

Attendi is bijna 2x nauwkeuriger op rapportage niveau en 3,5x nauwkeuriger als het gaat om medische terminologie 

We analyseerden 500 ingesproken rapportages van zorgprofessionals uit de ouderenzorg. Met toestemming werden deze geanonimiseerd en door onze medische annotators beluisterd, die op basis van het geluid een foutloze referentietekst opstelden.

Vervolgens berekenden we voor elke spraakoplossing de Word Error Rate (WER)*: het aantal fout herkende woorden gedeeld door het totaal aantal woorden. We vergeleken Attendi met de best beschikbare generieke spraakmodellen in de markt, die niet specifiek zijn getraind op Nederlandse ouderenzorg. 

De resultaten tonen we als fouten per 100 woorden. Daarnaast isoleerden we alle medische termen uit dezelfde rapportages en voerden we dezelfde vergelijking opnieuw uit om te zien hoe de modellen presteren op medische terminologie.

Scenario Attendi Nauwkeurigheidsratio (beste generieke model vs. Attendi) GPT Transcribe (gpt-4o-transcribe) Whisper v3 (whisper-large-v3-turbo) Whisper Dutch (whisper-largev2-mls-dutch) Deepgram Medical (nova-3) Microsoft STT (stt-v3.0) 
Ingesproken rapportages 5 fouten 1,8x meer fouten 9 fouten 14 fouten 19 fouten 11 fouten 14 fouten 
Medische termen uit rapportages 2 fouten 3,5x meer fouten 7 fouten 15 fouten 22 fouten 13 fouten 14 fouten 

De resultaten laten zien dat het Attendi model bij volledige rapportages bijna 2 keer nauwkeuriger is dan het best presterende beschikbare model. Als het gaat om medische terminologie dan is het Attendi model 3,5 keer nauwkeuriger.  

Deze cijfers zijn niet alleen technisch relevant, maar verklaren direct waarom professionals spraakgestuurd rapporteren wel of niet omarmen. Vertrouwen ontstaat pas wanneer wat wordt ingesproken ook daadwerkelijk correct opgeschreven wordt. Zodra fouten zich opstapelen — zeker bij medische termen die de kern vormen van professionele overdracht — neemt het vertrouwen af, groeit de correctiedruk en daalt de bereidheid om de technologie structureel te blijven inzetten. Een hoge nauwkeurigheid is daarmee een directe voorwaarde voor adoptie in de praktijk. 

Daarnaast bepaalt nauwkeurigheid ook de veiligheid en toekomstbestendigheid van innovatie. Toepassingen zoals automatische gespreksverslagen en samenvattingen leunen volledig op de juistheid van de gegenereerde tekst. Wanneer bijvoorbeeld 10% van de medische termen in een gesprek verkeerd wordt omgezet, kan dat leiden tot verkeerde interpretaties en risico’s in vervolgtoepassingen. Nauwkeurige herkenning vormt daarom niet alleen de basis voor gebruik in het hier en nu, maar ook voor veilige verdere innovatie in de zorg. 

Van praktijkrapportages naar een zorgspecifiek geoptimaliseerd spraakmodel 

Spraakgestuurd rapporteren is inmiddels een vaste categorie binnen de Nederlandse zorg. De focus van Attendi ligt primair op de Ouderenzorg en op de Gehandicaptenzorg. Wij juichen toe dat meer spelers voor de zorg deze technologie ontwikkelen. Wat we willen voorkomen is dat leveranciers te makkelijk denken over Spraakgestuurd Rapporteren en ‘generieke modellen’ inzetten als zijnde Spraakgestuurd Rapporteren. Iets wat op papier innovatie is, maar in de praktijk zal resulteren in frustratie en het uitblijven van adoptie. Dit zou het positieve sentiment rondom Spraakgestuurd Rapporteren, wat helpt bij het opschalen, onnodig schaden. Daarom delen wij hoe wij onze nauwkeurigheid hebben bereikt, zodat de sector als geheel vooruitgaat met Spraakgestuurd Rapporteren. 

Het gaat er namelijk niet om dat spraakherkenning vlekkeloos werkt in een stille kantooromgeving met een simulatie rapportage. Het moet functioneren wanneer bijvoorbeeld een zorgprofessional bij een cliënt thuis een incident inspreekt — met accent, ruis, haperingen of onverwachte achtergrondgeluiden, van Groningen tot Zuid-Limburg. De kernvraag is daarbij telkens: wat zegt de zorgprofessional precies, en wat is de best mogelijke rapportage die daarvan gemaakt kan worden. 

Aanpak

Om dat niveau te halen, is een zorgvuldig ingericht proces en een onderliggende infrastructuur noodzakelijk. Alles begint met een veilige annotatieomgeving waarin na goedkeuring, geanonimiseerde ingesproken rapportages worden beluisterd door medische annotators die op basis van de audio het perfecte referentietranscript opstellen. Tijdens dit proces worden belangrijke contextuele factoren gelabeld, zoals ruis, device-artefacten of achtergrondsprekers, zodat het model leert omgaan met realistische spreeksituaties. Al onze annotators zijn in dienst van Attendi, beschikken over een VOG, hebben een training ontvangen en werken binnen een afgeschermde omgeving op ons netwerk (via VPN). 

Met deze werkwijze hebben we inmiddels ruim 2.000 uur aan ingesproken rapportages geanalyseerd en gebruikt om ons model specifiek te optimaliseren voor de ouderenzorg. Deze investering creëert een solide fundament: zodra de technologie foutarm presteert in de echte praktijk, kan Spraakgestuurd Rapporteren betrouwbaar worden opgeschaald en vormt het de basis voor verdere toepassingen zoals het nauwkeurig opnemen van gesprekken. 

Generieke AI modellen kunnen waardevol zijn om snel te experimenteren en een concept aan te tonen. Maar wie de technologie in de zorg écht wil laten landen, heeft meer nodig dan een prototype. Ons advies: gebruik open source modellen om ideeën te verkennen, maar bouw daarna een schaalbare infrastructuur waarmee je een domeinspecifiek model ontwikkelt dat is afgestemd op de praktijk van zorgprofessionals. Dáármee haal je hoge nauwkeurigheid en creëer je de beste voorwaarden voor brede adoptie. 


*Definitie WER (Word Error Rate) 

WER wordt berekend als: 

Waarbij ‘substituties’ incorrect herkende woorden zijn, ‘inserties’ woorden die ten onrechte zijn toegevoegd, en ‘deleties’ woorden die ontbreken ten opzichte van de referentietekst.