LLM Performance

Der Markt für KI-Modelle ist extrem heterogen. Von über 300 verfügbaren Modellen unterscheiden sich Qualität, Geschwindigkeit und Kosten teils um den Faktor zehn oder mehr: Manche Modelle erreichen einen hohen Qualitäts-Index von rund 40, andere liegen bei 10; die Verarbeitungsgeschwindigkeit reicht von unter 30 bis über 400 Tokens pro Sekunde; die Kosten pro Anfrage variieren von wenigen Cents bis hin zu zweistelligen Eurobeträgen. Diese Unterschiede sind entscheidend, denn Qualität, Preis und Geschwindigkeit lassen sich nicht gleichzeitig maximieren. Ein einziges Modell für alle Aufgaben führt zwangsläufig zu Kompromissen – zu teuer für einfache Workflows, zu langsam für operative Prozesse oder qualitativ unzureichend für anspruchsvolle Entscheidungen. Produktiver KI-Einsatz entsteht deshalb nicht durch „eine KI für alles“, sondern durch den gezielten Einsatz passender Modelle für klar definierte Business-Use-Cases. Unsere Zahlen basieren auf Articial Analysis und SWE Bench.

Mehr bei Articial Analysis

Gemini 3 Flash Preview (Reasoning)

Starker Allrounder für anspruchsvolle Reasoning-Aufgaben

Gemini 3 Flash Preview kommt mit einem Index von 46.40, einer Speed von 205 Tokens/s und einem Preis von 3.50 pro 1 Mio. Tokens; der ausgewiesene Balanced-Score liegt bei 0.71. In der Praxis ist das Modell eine gute Wahl, wenn tieferes Reasoning und konsistente Antworten gewünscht sind, ohne die absolute Spitze an Geschwindigkeit zu verlieren. Eine nahe Variante, Gemini 3 Pro Preview, erzielt zudem hohe SWE-Bench-Werte (rund 74.2), was auf solide Coding-Fähigkeiten hindeutet. Vorsichtig sollte man sein, wenn extrem niedrige Latenz oder minimalste Kosten das primäre Ziel sind; dafür gibt es schnellere oder günstigere Alternativen. Entscheidungssatz für CIO/CFO: Das ist unsere bevorzugte Wahl, wenn Finalisierung und Verifikation komplexer Outputs wichtig sind und wir akzeptieren, mittlere Kosten für höhere Qualität zu zahlen.

Gemini 2.5 Flash-Lite Preview (Sep '25) (Reasoning)

Maximale Geschwindigkeit bei sehr niedrigem Preis

Die Flash-Lite-Variante von Gemini 2.5 zeigt deutlich, warum Speed manchmal dominanter ist als Index: mit einem Index von 21.60, einer Speed von 495.44 Tokens/s und einem Preis von 0.50 ist das Modell extrem latenzfreundlich und kosteneffizient, der Balanced-Score liegt bei 0.70. Es ist ideal für interaktive Benutzeroberflächen, Realtime-Assistenten und als Draft-Layer in einem composable Stack, wo es große Mengen an Benutzeranfragen vorfiltert oder Rohentwürfe generiert. Wo es nicht ideal ist: tief gehendes Reasoning oder finale Qualitätsprüfung — hier kann der vergleichsweise niedrigere Index problematisch sein. Entscheidungssatz für CIO/CTO: Setzen Sie dieses Modell als Default für latency-sensitive Drafting- und Preprocessing-Schichten ein, aber nicht als alleinige Finalisierungsinstanz.

gpt-oss-120B (high)

Ausgewogene Open‑Source‑Option für On‑Premise und Datenschutz

gpt-oss-120B bietet einen soliden Kompromiss mit einem Index von 33.30, Speed 308.94 Tokens/s und einem Preis von 0.75; der Balanced-Score beträgt 0.69. Für Organisationen, die Kontrolle über das Modell bevorzugen oder Lizenzfreiheit brauchen, ist dieses Modell attraktiv: Es liefert gute Geschwindigkeit und akzeptable Qualität zu moderaten Kosten. Einschränkungen tauchen auf, wenn Spitzenqualität in schwierigem Reasoning gefragt ist oder wenn ein sehr hoher SWE‑Bench erwartet wird — für strengste Coding-Use‑Cases gibt es leistungsfähigere kommerzielle Alternativen. Entscheidungssatz für CIO/CISO: Das ist unser Default für On‑Prem / datensensible Deployments, insbesondere wenn wir Kosten, Kontrolle und solide Performance balancieren wollen; nicht die erste Wahl, wenn maximaler Index erforderlich ist.

MiMo-V2-Flash (Feb 2026)

Kostenstarkes Modell mit respektablem Index

MiMo-V2-Flash erreicht einen Index von 41.40 bei einer Speed von 150.61 Tokens/s und einem sehr niedrigen Preis von 0.40; sein Balanced-Score liegt bei 0.67. Dieses Modell ist besonders dann attraktiv, wenn Budgetrestriktionen groß sind, aber trotzdem eine hohe inhaltliche Qualität benötigt wird. Seine moderate Geschwindigkeit macht es geeignet für Batch-Verarbeitung, asynchrone Pipelines und als sekundärer Finalizer in hybriden Architekturen. Vorsicht ist geboten bei hoch interaktiven Anwendungen mit strikter Latenz-Anforderung; dort sind schnellere Modelle besser geeignet. Entscheidungssatz für CTO/CFO: Verwenden Sie MiMo‑V2‑Flash als kosteneffizienten Standard für skalierbare Batch-Workloads und als sekundäre Finalisierungsstufe in kostenbewussten Pipelines.

Gemini 2.5 Flash Preview (Sep '25) (Reasoning) & GLM-5 (Reasoning)

Mid‑Tier Reasoner und Spitzenindex-Verifizierer

Gemini 2.5 Flash Preview bringt einen Index von 31.10, Speed 326.41 und einen Preis von 2.80 (Balanced-Score 0.66). Es sitzt im Mittelfeld und eignet sich als Mid‑Tier Finalizer dort, wo bessere Qualität als bei der Flash‑Lite-Version erforderlich ist, aber Budgetlimits noch gelten. GLM-5 (Reasoning) dagegen liefert mit Index 49.60 die höchste Qualität in diesem Set, ist aber mit einer Speed von 66.67 Tokens/s und einem Preis von 4.20 pro 1 Mio. Tokens deutlich langsamer und teurer; Balanced-Score 0.65. Zusammen bilden diese beiden Modelle ein typisches Paar: Gemini 2.5 Flash Preview für hochwertige, aber noch skalierbare Finalisierung; GLM-5 als organisatorischer Verifizierer für höchste Güte, etwa für Compliance-Checks, finale Qualitätskontrollen oder kritische Entscheidungsunterstützung. Entscheidungssatz für den CIO: Nutzen Sie Gemini 2.5 Flash Preview als Mid‑Tier Finalizer in produktiven Flows; reservieren Sie GLM‑5 für abschließende Verifikation und zertifikatsnahe Outputs — nicht für latenzkritische Frontends.