Mut zur höheren Risikoklasse!
Warum Large Language Models als Medizinprodukte mehr dürfen Müssen!
Stellen wir uns vor, es gäbe einen Arzt, der nie müde wird, nie etwas vergisst und in Sekundenbruchteilen jede medizinische Studie der Welt kennt. Ein Superarzt, der auf jedes Krankheitsbild eine Diagnose und auf jede Diagnose eine Therapie parat hat, präzise, umfassend und immer verfügbar ist. Klingt nach Science-Fiction? Nicht ganz.
Im Zeitalter der Künstlichen Intelligenz ist dieser Superarzt längst Realität, zumindest in digitaler Form. Large Language Models wie ChatGPT oder Med-PaLM können heute schon medizinische Fachtexte analysieren, Symptome einordnen und Therapievorschläge formulieren. Während Ärztinnen und Ärzte jahrelang studieren, promovieren und sich spezialisieren, besitzen diese Systeme das geballte Wissen der Medizin von Beginn an.
Doch hier beginnt das Paradoxe: Was technisch nahezu unbegrenzt ist, wird stark begrenzt. Nach der Medical Device Regulation (MDR) werden Medizinprodukte in Risikoklassen eingestuft. Hierbei ordnen viele Hersteller ihre LLMs lieber einer niedrigeren Klasse wie IIa zu. Die Folge: weniger Prüfungen, geringere Anforderungen und ein künstliches Wegkürzen des eigentlichen Potenzials dieser Technologie.
Wann ist ein LLM ein Medizinprodukt?
Ob ein Large Language Model als Medizinprodukt gilt, hängt nicht davon ab, wie beeindruckend seine Fähigkeiten sind, sondern allein davon, wofür es eingesetzt werden soll. Die rechtliche Grundlage findet sich in Art.2 Abs.1 der Medical Device Regulation (MDR). Danach ist ein Medizinprodukt jedes Instrument, Gerät, Material oder jede Software, die vom Hersteller für einen medizinischen Zweck bestimmt ist, etwa zur Diagnose, Überwachung, Vorhersage, Behandlung oder Linderung von Krankheiten.
Das entscheidende Wort lautet also Zweckbestimmung. Sie beschreibt, was das Produkt nach dem Willen des Herstellers leisten soll. Ein LLM, das z. B. medizinische Texte generiert, Symptome analysiert oder Therapievorschläge anbietet, erfüllt damit eindeutig eine medizinische Zweckbestimmung und fällt unter die MDR. Wird das Modell dagegen nur für allgemeine Informationszwecke, Verwaltung oder Forschung genutzt, bleibt es außerhalb der MDR.
Welche Risikoklassen gibt es?
Medizinprodukte werden zufolge der MDR in vier Risikoklassen eingeteilt: I, IIa, IIb und III. Maßgeblich für die Einstufung ist dabei stets die Zweckbestimmung. Sie entscheidet darüber, welches Risiko das Produkt für Patientinnen und Patienten haben kann und welche Anforderungen für Sicherheit, Kontrolle und Prüfung gelten.
Für Softwares und damit auch für Large Language Models ist vor allem Regel 11 des Anhangs VIII relevant. Nach dieser Regel sollen Softwares, die Informationen zur Diagnose oder Therapie bereitstellt, grundsätzlich der Risikoklasse IIa zugeordnet werden. Können die bereitgestellten Informationen jedoch bei Fehlern zu schwerwiegenden Beeinträchtigung der Gesundheit führen oder wird die Software bei einem chirurgischen Eingriff verwendet, erfolgt die Einstufung in die Risikoklasse IIb. Eine Software, deren Entscheidungen Auswirkungen wie den Tod oder irreversible Verschlechterung des Gesundheitszustandes zur Folge haben kann, darf nur der Risikoklasse III zugeordnet werden. LLMs, die dagegen keine medizinische Entscheidungsrelevanz besitzen und beispielsweise nur administrative Unterstützung bieten, fallen in die Risikoklasse I.
Daneben können je nach Zweckbestimmung auch andere Klassifizierungsregeln zur Anwendung kommen. Die Regel 15 betrifft Produkte, die der Empfängnisverhütung oder dem Schutz vor sexuell übertragbaren Krankheiten dienen. Softwares mit dieser Zweckbestimmung sind regelmäßig der Risikoklasse IIb zuzuordnen.
Wichtig ist zu beachten, dass wenn nach den Klassifizierungsregeln mehrere Risikoklassen greifen, immer die strengste Regel und damit einhergehend auch die höchste Klasse zu wählen ist.
Damit wird deutlich, dass die Klassifizierung von LLMs nicht von ihrer technischen Leistungsfähigkeit abhängt, sondern allein von der Frage, welchen medizinischen Zweck sie erfüllen sollen. Die Zweckbestimmung ist somit der Ausgangspunkt jeder regulatorischen Einordnung.
Welche Anforderungen sind bei der Zulassung eines LLMs als Medizinprodukt zu stellen?
Gibt es je nach Risikoklasse regulatorische Unterscheide bei der Zulassung?
Ist die Zweckbestimmung formuliert und das LLM damit eindeutig als Medizinprodukt eingeordnet, beginnt das eigentliche Zulassungsverfahren. Dieses folgt einem festen Aufbau. Unabhängig von der Risikoklasse muss der Hersteller ein Qualitätsmanagementsystem einführen und eine technische Dokumentation erstellen. Die Dokumentation legt offen, wie das Modell entwickelt und getestet wurde, welche Risiken bestehen und wie diese kontrolliert werden. Hinzu kommt die klinische Bewertung, in der der medizinische Nutzen begründet wird.
Ab der Risikoklasse IIa wird zusätzlich eine benannte Stelle eingebunden. Sie prüft die technische Dokumentation und das Qualitätsmanagementsystem, bevor das Produkt auf den Markt gelangen darf. Für Klasse I ist diese externe Prüfung nicht verpflichtend, die Aufsichtsbehörde kann jedoch im Anschluss eine Kontrolle vornehmen.
Bei LLMs der Risikoklasse IIa liegt der Schwerpunkt darauf, dass das System seinen vorgesehenen Zweck sicher erfüllt und medizinische Entscheidungen sinnvoll unterstützt. Die klinische Bewertung kann sich hier teilweise auf vorhandene wissenschaftliche Literatur stützen, sofern diese geeignet ist, den Nutzen ausreichend zu belegen.
Wird das LLM jedoch in Zusammenhängen verwendet, in denen seine Empfehlungen unmittelbare Auswirkungen auf schwerwiegende gesundheitliche Entscheidungen haben können, erfolgt die Einordnung in die Risikoklasse IIb. Das Zulassungsverfahren bleibt im Aufbau gleich, allerdings steigt die inhaltliche Tiefe der Nachweise. Die klinische Bewertung muss genauer darstellen, wie das LLM sich in realen medizinischen Anwendungssituationen verhält, und die Risikoanalyse muss nachvollziehbar abbilden, wie potenzielle Fehler erkannt und verhindert werden.
Der wesentliche Unterschied zwischen Klasse IIa und IIb liegt daher nicht in einem anderen Verfahren, sondern in der Genauigkeit, mit der Nutzen und Risiken begründet werden. Die Anforderungen steigen, weil das LLM in diesen Fällen näher an tatsächlichen Therapieentscheidungen arbeitet. Dies ist nicht als Belastung zu verstehen, sondern als Grundlage für Vertrauen in eine Technologie, die langfristig einen festen Platz in der medizinischen Versorgung einnehmen wird.
Je genauer geprüft wird, desto länger kann das Zulassungsverfahren dauern und desto höher können die Kosten ausfallen. Diese erhöhen sich vor allem dann, wenn klinische Bewertungen oder Risikoanalysen in größerem Umfang nachgewiesen werden müssen.
Warum LLMs in höhere Risikoklassen greifen müssen?
Wenn wir ehrlich sind, ist es total absurd. Wir verfügen mit Large Language Models bereits über Systeme, die ein medizinisches Wissen in einer Breite und Tiefe verarbeiten können, die kein Mensch in einem Leben erreicht. Diese Modelle sind vortrainiert. Sie bringen ihr Können bereits mit. Niemand muss sie erst mühsam wie einen Medizinstudenten über Jahre ausbilden. Und doch erlauben wir ihnen in der Praxis oft nur das, was auch ein guter Suchalgorithmus leisten könnte.
Die Einordnung in eine niedrige Risikoklasse wie IIa führt dazu, dass LLMs nur sehr begrenzt unterstützend tätig sein dürfen. Dabei ist das in etwa so, als hätte man einen Superarzt, der jede Disziplin beherrscht, und würde ihm dann gesetzlich vorschreiben, ab sofort nur noch dermatologische Befunde erklären zu dürfen. Ausgerechnet dort, wo das System seinen größten Mehrwert entfalten könnte, wird es gebremst.
Die oft vorgebrachte Sorge lautet, eine höhere Klassifizierung mache die Entwicklung zu teuer oder zu aufwendig. Doch das verkennt den Kern. Klasse IIb bedeutet nicht mehr Bürokratie um ihrer selbst willen. Sie bedeutet lediglich, dass die klinische Wirkung und die Sicherheit genauer belegt werden. Das ist kein Hindernis, sondern eine Qualitätsgarantie. Die Risiken sinken dadurch, statt zu steigen. Wer sagt, eine tiefere Prüfung hemme Innovation, verwechselt Kontrolle mit Stillstand.
Tatsächlich gilt das Gegenteil: Nur wenn wir LLMs so einstufen, wie ihr tatsächlicher Einsatz es verlangt, kann sich medizinischer Fortschritt entfalten. Wir gewinnen nicht nur ein Werkzeug, das Ärztinnen und Ärzten Zeit verschafft, sondern ein System, das Diagnosen verfeinern, Therapieentscheidungen vorbereiten und Versorgungslücken schließen kann. Wer es in einer zu niedrigen Risikoklasse einsperrt, verhindert nicht Risiken, sondern Innovation.
Fazit: Zeit für einen nächsten Schritt
Die Medizin steht nicht am Anfang eines Wandels, sondern mitten darin. Large Language Models sind keine Zukunftsvision, sondern bereits heute leistungsfähige Partner im klinischen Denken. Es wäre ein Fehler, sie im System kleinzuhalten. Wer ein LLM in eine zu niedrige Risikoklasse zwingt, beschränkt nicht Risiken, sondern Möglichkeiten. Wir gewinnen dadurch keine Sicherheit, wir verlieren Fortschritt.
Der wesentliche Unterschied zwischen Klasse IIa und IIb liegt nicht in einem anderen Verfahren, sondern in der Genauigkeit, mit der Nutzen und Risiken begründet werden. Die höheren Anforderungen schaffen Vertrauen, Transparenz und tatsächliche Patientensicherheit. Eine sorgfältigere Prüfung ist kein Hindernis, sondern ein Qualitätsversprechen für die Medizin von morgen.
Wenn wir Innovation wollen, dann brauchen wir keine Mauern, sondern klare Wege. Mut zur höheren Risikoklasse bedeutet Mut zur Weiterentwicklung, Mut zur besseren Versorgung und Mut zur Zukunft.
Die Frage lautet daher nicht, ob wir LLMs mehr zutrauen können.
Die Frage lautet, ob wir uns trauen, die Medizin weiterzudenken.

