Diagnostik

Hautkrebs-Diagnostik: Smartphone-Anwendungen erreichen mittlerweile gleichwertige Genauigkeit

Algorithmen können Hautkrebs-Diagnosen mit ähnlich hoher Genauigkeit wie Fachärzte identifizieren. Hinsichtlich der Therapieempfehlungen bleiben erfahrene Behandler*innen in ihrer Einschätzung gegenüber der KI (Künstliche Intelligenz) jedoch weiterhin deutlich überlegen.

„Die KI-Anwendung neigt in der Behandlungsempfehlung tendenziell dazu, mehr gutartige Läsionen zu entfernen, als Experten das würden. Wenn man das beachtet, ist die KI-Anwendung durchaus einsetzbar. Zu bedenken ist auch, dass bei unkritischem Einsatz zu viele falsch-positive Befunde abgeklärt werden müssten“, erläuterte Arbeitsgruppenleiter Harald Kittler, Dermatologe an der MedUni Wien.

KI im Versorgungsalltag getestet

In einer prospektiven Anwendungsstudie [1] wurden zwei KI-basierte Algorithmen (7-Klassen-KI-versus ISIC-Algorithmus (ISIC, International Skin Imaging Collaboration)) in den Versorgungsalltag von zwei Hautkrebszentren in Wien und Sydney integriert und im Vergleich zur jeweiligen ärztlichen Beurteilung getestet.

Im ersten Ansatz wurde die KI zur Diagnostik von verdächtigen pigmentierten Läsionen getestet. Die Probanden (Kohorte 1, n=172) enthielten 124 Fälle, die zur Biopsie oder Exzision in die Sprechstunde kamen. Im zweiten Ansatz wurde sie bei Ganzkörperuntersuchungen von Personen mit vielen Muttermalen (Kohorte 2, n=5.696 davon 66 Probanden) angesetzt. Als Referenz dienten zum Beispiel die Befunde der histopathologischen Untersuchung bei exzidierten Läsionen. Die Ergebnisse zur Diagnostik und Therapieempfehlungen wurden zusätzlich nach dem Grad der Erfahrung der Behandler*innen (Erfahrene versus Neulinge) stratifiziert ausgewertet.

KI-Beurteilung war fachärztlichen Neulingen überlegen

Die Diagnose-Genauigkeit des 7-Klassen-KI-Algorithmus war im Vergleich zur ärztlichen Beurteilung von erfahrenen Experten gleichwertig (absolute Genauigkeitsdifferenz 1,2% [95-%-Konfidenzintervall (95 % CI) 6,9 bis 9,2]) aber den Einschätzungen von Neulingen deutlich überlegen (21,5% [95% CI 13,1 bis 30,0]).

Die Diagnosen des ISIC-Algorithmus waren signifikant schlechter als die der etablierten Spezialisten (-11,6 % [95% CI -20,3 bis -3,0]), jedoch signifikant besser als die der Novizen (8,7 % [95% CI -0,5 bis 18,0]).

Die Empfehlungen zum Therapiemanagement basierend auf den Ergebnissen der 7-Klassen-KI-Empfehlungen war der Expertenmeinung durchweg in beiden Ansätzen sowohl in Kohorte 1 und 2 signifikant unterlegen. Im Vergleich zum ärztlichen Nachwuchs war die 7-Klassen-KI nur in Kohorte 2 hinsichtlich der Behandlungsentscheidungen besser.

Praxistest bestanden

App-basierte KI-Anwendungen für das Mobiltelefon können ein praktisches Werkzeug zur Diagnose von verdächtigen pigmentierten Hautläsionen unter Real-World-Bedingungen sein, schlussfolgern die Studienautoren. Die Erstellung von Therapieplänen mittels KI wäre allerdings noch optimierungsbedürftig. Jede KI sollte nach den experimentellen Studien auch im Behandlungsalltag getestet werden, um den Nutzen abschließend bewerten zu können, geben die Wissenschaftler zu bedenken.

Literatur

1. Menzies SW et al. Comparison of humans versus mobile phone-powered artificial intelligence for the diagnosis and management of pigmented skin cancer in secondary care: a multicentre, prospective, diagnostic, clinical trial. Lancet Digit Health 2023; 5: e679–91, DOI: 10.1016/S2589-7500(23)00130-9