Privacygevoelige data veilig annoteren voor nauwkeuriger spraak-naar-tekst

Om de nauwkeurigheid van spraak-naar-tekst zo hoog mogelijk te krijgen gebruiken wij een gedeelte van de inkomende rapportages voor het annoteren. Dit is bij uitstek een privacygevoelig proces. In dit artikel legt Tirza Soute, Clinical NLP Engineer bij Attendi, uit wat annoteren precies is en hoe dit bijdraagt aan een hogere nauwkeurigheid van spraak-naar-tekst. Ook gaat zij dieper in op de risico’s met het werken van privacygevoelige data en hoe wij er bij Attendi voor zorgen dat dit veilig gebeurt.

Waarom is annoteren zo belangrijk voor spraak-naar-tekst?

Hoe beter wij onze modellen kunnen trainen, hoe hoger de nauwkeurigheid zal zijn van de spraak-naar-tekst, daardoor komen er minder fouten in de tekst en ervaren zorgprofessionals meer tijdswinst. Het is belangrijk dat de data waarmee wij de modellen trainen zo veel mogelijk lijkt op de data waarmee het model in de toekomst moet werken. Dit houdt in dat het model bekend moet zijn met bijvoorbeeld woorden die in een specifiek zorgdomein worden gebruikt, of welke woorden vaak samen voorkomen in dezelfde context. Daarnaast kan de data die wij binnenkrijgen nog fouten bevatten. Bijvoorbeeld doordat er een woord is gezegd dat het model nog niet kent, of omdat een woord is verwisseld met een ander woord dat hetzelfde klinkt, zoals: ‘hij zij (-> zei) dat het goed ging met de cliënt’. Bij het annoteren controleren en verbeteren wij deze data.

Hoe zorgen jullie ervoor dat patiënten & zorgprofessionals met vertrouwen deze data met jullie delen?

Annoteren wordt door mensen gedaan en er wordt gewerkt met privacygevoelige data, wat risico’s met zich mee brengt. Bij Attendi hebben we op verschillende manieren ervoor gezorgd dat de data op een veilige manier wordt geannoteerd. In eerste instantie hebben wij nooit toegang tot data. Wanneer wij toegang willen tot data voor trainingsdoeleinden, kan dit enkel wanneer een zorgorganisatie daar expliciet toestemming voor geeft. In deze situatie spreken we samen met de zorgorganisatie af wie er bij de data mag en hoe lang de data mag worden bewaard. Daarnaast krijgt elke zorgorganisatie een aparte database waarin de data wordt opgeslagen. Wanneer de bewaartermijn van de data dan is verstreken, wordt de gehele database waarin de data is opgeslagen verwijderd. Deze afspraken worden allemaal vastgelegd in een verwerkingsovereenkomst.

Veiligheid en transparantie vanuit onze eigen annotatieomgeving.

Het annoteren wordt in onze eigen annotatieomgeving gedaan, waardoor wij altijd zelf controle hebben over wie toegang heeft tot de data. De annotatieomgeving en de data worden gehost bij Microsoft Azure in Nederland en zijn daarom onderhevig aan de Nederlandse wet- en regelgeving voor dataverwerking. Onze annotatieomgeving is alleen bereikbaar vanaf ons eigen netwerk via een VPN. Ook wordt de data tijdens transitie en opslag volledig geëncrypt met de modernste encryptietechnieken. Daarnaast nemen wij als Attendi annotatoren zelf in dienst en zorgen we ervoor dat deze personen een VOG bezitten, die aantoont dat ze een goede voorgeschiedenis hebben rondom informatiebeveiliging incidenten. Deze VOG delen we ook met de samenwerkende zorgorganisatie. Ook tekenen ze een geheimhoudingsovereenkomst, waarin staat aan welke regels ze zich dienen te houden, en hebben annotatoren alleen toegang tot data die specifiek aan hen is toegewezen.

Heb je nog vragen, opmerkingen of suggesties over de beveiliging van Attendi? Neem dan gerust contact op met onze Privacy Officer: berend@attendi.nl