Het hoe en waarom van Attendi's eigen spraaktechnologie.

Deel I – het ‘waarom’

Automatische spraakherkenning, of kortweg ASR (automatic speech recognition), vormt de basis van onze oplossing. Deze technologie heeft de afgelopen jaren een grote vlucht genomen. Techreuzen als Apple, Google en Microsoft bieden allen ASR-oplossingen aan, voor eindgebruikers en bedrijven, en in allerlei talen waaronder het Nederlands. Attendi heeft echter van meet af aan ervoor gekozen zelf een ASR-systeem te bouwen. In dit blog lichten wij deze keuze toe.

Waarom een eigen ASR ontwikkelen?

Veel startups die iets met spraaktechnologie doen, gebruiken een kant-en-klaar ASR-model van een bekende aanbieder. Het ontwikkelen van een op maat gemaakt ASR-model kost immers tijd en vereist specifieke kennis. Toch geloven wij dat deze investeringen voordelig en zelfs noodzakelijk kunnen zijn voor een goede inzet van spraak- en taaltechnologie in de zorg.

Meer veiligheid

Een eerste reden is veiligheid. Gesprekken tussen een zorgverlener en een patiënt zijn vertrouwelijk en kunnen allerlei gevoelige persoonsgegevens bevatten. Zorgorganisaties stellen terecht strenge veiligheidseisen aan het inzien en verwerken van deze data. Als wij deze data laten verwerken door de hierboven genoemde buitenlandse techbedrijven, hebben we minder controle over wat er precies met de data gebeurt. Voor sommige van deze bedrijven zijn advertenties een primaire bron van inkomsten – privacy zit dus bepaald niet in hun DNA. Bij Attendi zijn we ons ervan bewust dat informatieveiligheid in de zorg een sine qua non is, die vanaf dag één in het product ingebakken moet zitten. Wij werken volgens in de zorg afgesproken standaarden. Onze medewerkers hebben alleen toegang tot de data, voor een bepaalde periode, als daar vooraf toestemming voor is gegeven. Als het nodig is, zorgen wij dat de verwerkte audio en transcripties de muren van een zorginstelling nooit verlaten.

Lagere kosten

Deze extra controle brengt ook een helderder kostenplaatje met zich mee. Het zelf trainen en aanbieden van onze modellen betekent dat we het verbruik voor onze oplossing voortdurend nauwkeurig kunnen inschatten. Zo kunnen wij onze ASR zo efficiënt mogelijk inrichten, en zorgen dat de kosten binnen de budgetmogelijkheden blijven van onze doelgroep, de zorgprofessionals. Uiteraard is het verkopen van de gebruikte data geen onderdeel van ons verdienmodel.

Hogere nauwkeurigheid voor het zorgdomein

Een startup als Attendi beschikt natuurlijk niet over dezelfde middelen als de grote tech-giganten. Toch denken wij de accuraatste spraakherkenning voor de Nederlandse zorg te kunnen bieden. Dit maken we waar door onze duidelijke focus op één niche. De hierboven genoemde concurrenten maken generieke modellen, voor tientallen talen, die in breed uiteenlopende scenario’s en domeinen moeten transcriberen. Wij concentreren ons bewust alleen op de gezondheidszorg, en passen onze AI- en klinische expertise toe om daarin de foutmarge zo laag mogelijk te houden. Binnen het zorgdomein werken we zelfs aan verschillende specifieke modellen, bijvoorbeeld voor de ggz versus de medisch-specialistische zorg.

Transparant en snel aanpasbaar

Het zelf construeren van een ASR-model betekent dat wij inzicht hebben in de data die gebruikt worden om het model te trainen, en in de manier waarop het tot een bepaald resultaat komt. ASR-modellen van grote aanbieders bieden geen of slechts beperkte mogelijkheden om de werking aan te passen aan wensen van de gebruikers, en zijn grotendeels een black box. Attendi kan daarentegen snel gewenste aanpassingen maken. Als bijvoorbeeld een bepaald woord niet herkend wordt, kunnen wij snel een update van ons model beschikbaar maken waarin dit woord wél voorkomt. Zo blijven onze modellen up-to-date met bijvoorbeeld nieuwe namen voor medicatie, ziektebeelden of jargon. De mogelijkheid snel aanpassingen te maken komt mede door het gebruik van een zogenaamde “hybride” architectuur, waarin het akoestisch model en het taalmodel los van elkaar getraind kunnen worden. In een volgend blog gaan we hier nader op in.

Open source

Dat wij in korte tijd een model hebben kunnen trainen dat zich kan meten met dat van de grote spelers, komt omdat wij staan op de schouders van reuzen. Onze ASR-technologie maakt dankbaar gebruik van Kaldi, ontwikkeld aan de Johns Hopkins University in Baltimore, en van werk van onderzoekers van de universiteiten van Twente en Nijmegen dat Kaldi voor Nederlandse gebruikers beschikbaar maakt. Voortbouwend op dit fundament zijn de AI-experts van Attendi aan de slag gegaan met het trainen van modellen die geschikt zijn voor specifieke scenario’s in de gezondheidszorg. Over het hoe van dat trainen lees je hier binnenkort meer!

Dr. Jan-Willem van Leussen studeerde Artificial Intelligence en is gepromoveerd in de computationele taalkunde aan de Universiteit van Amsterdam. Daarnaast werkt hij al enige jaren in het bedrijfsleven als software-ontwikkelaar op het gebied van taal- en spraaktechnologie. Sinds 2020 past hij deze expertise toe als Speech Engineer bij Attendi.