Ger
Med
Bench
Leaderboard
Modelle
Benchmarks
Methodik
Mitmachen
Alle
S (<15B)
M (15-40B)
L (>40B)
DeepSeek V3.1
DeepSeek V3.2
GPT-oss 120B
Gemma 3 27B
Llama 4 Maverick
Qwen 2.5 72B
Nemotron 70B
Mistral Small 24B
Llama 3.3 70B
Gemma 3n E4B
Mixtral 8x7B
Qwen 2.5 7B
Llama 3.1 8B
Alle
Keine
Es fehlt ein Modell? Issue öffnen
Gesamt-Ranking
Normalisierter Durchschnitt über alle Tasks
Patientenverständliche Erklärung
Overall
Verständlichkeit
Korrektheit
Vollständigkeit
Klinisches Reasoning
Overall
Top-1 Acc
Top-3 Recall
DDx F1
Reasoning
Plausibilität
Red Flags
Arztbrief-Zusammenfassung
Overall
Faktentreue
Vollständigkeit
Präzision
Medizinisches Wissen
Accuracy
Medikamentenextraktion
Exact F1
Partial F1
Wirkstoff F1
Precision
Recall
ICD-10-GM Kodierung
Exact F1
Cat F1
HD Acc
Precision
Recall
Leaderboard