AI-modellen fabriceren bevindingen bij analyse van medische scans door 'mirage-effect'

Moderne kunstmatige intelligentie-systemen die worden ingezet voor de analyse van medische beeldvorming kunnen overtuigende beschrijvingen genereren van afbeeldingen die ze nooit hebben gezien. Dit fenomeen, door onderzoekers 'mirage' genoemd, vormt een ernstig risico voor de betrouwbaarheid van AI-gestuurde medische diagnostiek.

Grootschalig onderzoek onthult systematisch probleem

Volgens arxiv.org vertonen alle geteste geavanceerde AI-modellen hoge 'mirage rates'. De onderzoekers van Stanford University ontdekten dat deze systemen regelmatig gedetailleerde medische bevindingen rapporteren op basis van informatie die niet in de aangeleverde beeldvorming aanwezig is.

Het probleem manifesteert zich vooral bij multimodale AI-systemen die zowel visuele als tekstuele informatie verwerken. Deze modellen lijken patronen te herkennen en diagnoses te stellen, maar baseren hun conclusies deels op aannames in plaats van op daadwerkelijke visuele analyse.

Radiologische expertise biedt geen bescherming

Een internationaal onderzoek met 17 radiologen uit zes landen toont aan dat zelfs ervaren specialisten niet betrouwbaar kunnen onderscheiden tussen authentieke röntgenfoto's en door AI gegenereerde 'deepfakes'. neurosciencenews.com merkten slechts 41 procent van de radiologen spontaan iets ongewoons op aan de kunstmatige beelden wanneer ze niet gewaarschuwd waren.

Zelfs wanneer de radiologen vooraf werden geïnformeerd over de aanwezigheid van synthetische beelden, bedroeg hun gemiddelde nauwkeurigheid bij het identificeren ervan slechts 75 procent. Opmerkelijk genoeg bleek het aantal jaren ervaring van een radioloog niet te correleren met betere detectie van deze deepfakes.

AI kan eigen fabricaties niet herkennen

Het probleem wordt nog complexer doordat AI-systemen hun eigen creaties niet betrouwbaar kunnen identificeren. GPT-4o, het model dat werd gebruikt om de deepfake-beelden te genereren, kon niet al zijn eigen fabricaties accuraat detecteren, hoewel het beter presteerde dan concurrerende modellen van Google en Meta.

mit.edu toont aan dat AI-modellen die medische beelden analyseren vaak demografische kenmerken zoals ras, geslacht en leeftijd van patiënten kunnen voorspellen. Deze modellen lijken deze eigenschappen vervolgens als 'shortcuts' te gebruiken bij het stellen van medische diagnoses, wat leidt tot systematische vertekeningen.

Mirage-effect ondermijnt benchmarks

De Stanford-onderzoekers introduceerden het concept van 'mirage-scores' om te meten in hoeverre AI-modellen presteren op basis van daadwerkelijke visuele analyse versus giswerk. Hun bevindingen tonen aan dat modellen hoge scores kunnen behalen op gangbare benchmarks terwijl ze in werkelijkheid sterk leunen op het mirage-effect.

Bijzonder zorgwekkend is dat een 'guesser model' zonder toegang tot beeldmateriaal beter presteerde dan alle andere algoritmes op een onbekende radiologische benchmark. Dit suggereert dat veel AI-systemen hun prestaties baseren op tekstuele patronen en contextuele aanwijzingen in plaats van op echte visuele interpretatie.

Medische en juridische risico's

radiologyinfo.org wordt AI steeds vaker ingezet in de medische beeldvorming om radiologen te ondersteunen bij het detecteren van subtiele afwijkingen. Het mirage-effect ondermijnt echter het vertrouwen in deze systemen.

De risico's reiken verder dan diagnostische fouten. Experts waarschuwen voor frauduleuze toepassingen, zoals het fabriceren van verwondingen voor juridische procedures, en cybersecurity-bedreigingen waarbij hackers synthetische beelden in digitale medische dossiers kunnen injecteren om klinische chaos te veroorzaken.

Herkenbare patronen in deepfakes

Onderzoekers hebben enkele kenmerken geïdentificeerd die kunnen wijzen op AI-gegenereerde medische beelden. Deepfake-röntgenfoto's vertonen vaak onnatuurlijke symmetrie, botten die te glad zijn, wervels die 'te recht' staan, en fracturen die 'ongewoon schoon' lijken. Deze signalen zijn echter subtiel en vereisen specifieke training om te herkennen.

Noodzaak van nieuwe waarborgen

De bevindingen onderstrepen de urgente noodzaak voor tools en training om de integriteit van medische beeldvorming te beschermen. Onderzoekers pleiten voor 'mirage-proof' benchmarks die daadwerkelijk visueel begrip meten in plaats van patroonherkenning in tekstuele context.

rsna.org benadrukt dat zorgprofessionals moeten worden voorbereid op het detecteren van deepfakes en dat er robuuste verificatiemechanismen nodig zijn voordat AI-systemen op grote schaal worden ingezet in klinische settings.

Geraadpleegde bronnen

arxiv.org rsna.org mit.edu neurosciencenews.com radiologyinfo.org

Pexelscottonbro studiovia Pexels