LLM Performance

Der Markt für KI-Modelle ist extrem heterogen. Von über 300 verfügbaren Modellen unterscheiden sich Qualität, Geschwindigkeit und Kosten teils um den Faktor zehn oder mehr: Manche Modelle erreichen einen hohen Qualitäts-Index von rund 40, andere liegen bei 10; die Verarbeitungsgeschwindigkeit reicht von unter 30 bis über 400 Tokens pro Sekunde; die Kosten pro Anfrage variieren von wenigen Cents bis hin zu zweistelligen Eurobeträgen. Diese Unterschiede sind entscheidend, denn Qualität, Preis und Geschwindigkeit lassen sich nicht gleichzeitig maximieren. Ein einziges Modell für alle Aufgaben führt zwangsläufig zu Kompromissen – zu teuer für einfache Workflows, zu langsam für operative Prozesse oder qualitativ unzureichend für anspruchsvolle Entscheidungen. Produktiver KI-Einsatz entsteht deshalb nicht durch „eine KI für alles“, sondern durch den gezielten Einsatz passender Modelle für klar definierte Business-Use-Cases. Unsere Zahlen basieren auf Articial Analysis und SWE Bench.

Mehr bei Articial Analysis

Kurzfazit über die Daten: Welche Modelle auffallen und wie sie typischerweise im Stack landen

Schnelle Draft-Modelle, preiswerte Batch-Arbeiter und starke Verifikations-/Finalisierungsmodelle

In den „balanced“-Daten stechen mehrere Modelle hervor, weil sie nicht nur in einer Disziplin gut sind. Gemini 3 Flash Preview (Reasoning) kombiniert einen hohen Index von 46,40 mit 205,00 Tokens/s bei 3,50 $/1 Mio. Tokens und eignet sich damit oft als schneller, dennoch „denkender“ Interaktionslayer. Gemini 2.5 Flash‑Lite Preview (Reasoning) ist mit 495,44 Tokens/s extrem schnell und mit 0,50 $ sehr günstig, hat aber mit Index 21,60 klar weniger Qualitätsreserve – typisch als Draft‑ oder Routing‑Modell, das günstige Erstentwürfe liefert. MiMo‑V2‑Flash fällt auf, weil es bei Index 41,40 und 150,61 Tokens/s mit 0,40 $ sehr kosteneffizient wirkt, also als Batch‑Worker oder „Reasoning‑Light“-Arbeitspferd. Auf der Qualitätsseite bleibt GLM‑5 (Reasoning) mit Index 49,60 auffällig, auch wenn Speed 66,67 Tokens/s und 4,20 $ es eher in die Rolle „Verifikation/Finalisierung“ drängen. Ergänzend zeigen die Coding- und SWE‑bench‑Rankings, dass für Software Engineering häufig separate Spezialisten Sinn ergeben (z. B. GPT‑5.2/Claude Opus/Gemini Pro), selbst wenn sie in dieser Preis/Speed-Tabelle nicht vorne stehen – in einer composable Architektur trennt man dann Draft/Batch, Code‑Agent und finalen Verifier.

Gemini 3 Flash Preview (Reasoning)

Der pragmatische „Frontline“-Allrounder, wenn Interaktion schnell sein muss

Mit einem Index von 46,40 bei 205,00 Tokens pro Sekunde und einem Preis von 3,50 $ pro 1 Mio. Tokens wirkt Gemini 3 Flash Preview (Reasoning) wie das Modell, das man im Alltag am häufigsten „an die Nutzeroberfläche“ hängen kann: genug Qualitätsreserve für anspruchsvollere Dialoge, aber schnell genug, um Latenz nicht zur Produktbremse werden zu lassen. Die Stärke liegt typischerweise in stabiler Reasoning-Performance bei noch vertretbaren Kosten, was gerade bei mehrstufigen Agenten-Workflows wichtig ist, weil jedes zusätzliche Tool-Call- oder Re-Prompting sonst teuer wird. Vorsichtig wäre ich bei sehr kritischen Entscheidungen oder Compliance-nahen Outputs, wenn keine Verifikation nachgelagert ist – der Index ist hoch, aber nicht absolute Spitze. Entscheidungssatz: Das ist ein sinnvoller Default für interaktive Assistenten und „Copilot“-Oberflächen, solange für High‑Risk Antworten eine zweite Stufe (Verifier/Policy-Check) vorgesehen ist.

Gemini 2.5 Flash‑Lite Preview (Sep ’25) (Reasoning)

Maximaler Durchsatz bei Minimalpreis – ideal für Drafting und Massenverarbeitung

Dieses Modell ist in den Daten vor allem eine Speed‑ und Kostenmaschine: 495,44 Tokens/s bei 0,50 $ pro 1 Mio. Tokens sind ein klares Signal für Skalierung, etwa in Batch‑Pipelines, bei großen Dokumentmengen oder als erster Schritt in einer mehrstufigen Kette. Der Trade‑off ist ebenso klar: Der Index liegt bei 21,60 und damit deutlich unter den „denkenden“ Top-Modellen, was sich in komplexen Aufgaben als mehr Nacharbeit, mehr Fehlerkorrektur oder mehr Halluzinationsrisiko bemerkbar machen kann. In einer composable Architektur ist das trotzdem ein Feature, wenn man es bewusst einsetzt: Erst schnell und billig Optionen generieren, dann mit einem stärkeren Modell konsolidieren. Entscheidungssatz: Nicht die erste Wahl für finale, haftungsrelevante Antworten – aber unser Default für Draft‑Generierung, Vorklassifikation und kostensensible Batch‑Workloads, die anschließend verifiziert werden.

MiMo‑V2‑Flash (Feb 2026)

Auffällig gutes Preis‑/Index‑Verhältnis – das „Workhorse“ für produktive Pipelines

MiMo‑V2‑Flash bringt einen Index von 41,40 mit, läuft mit 150,61 Tokens/s und kostet nur 0,40 $ pro 1 Mio. Tokens. Genau diese Kombination ist für viele CIO‑Entscheidungen spannend, weil sie den TCO einer Anwendung stärker beeinflusst als ein paar Punkte Spitzenqualität: Bei langen Kontexten, vielen Tool‑Calls oder wiederkehrenden Automationen summieren sich Tokenkosten schneller als erwartet. Der Speed ist nicht „Flash‑Lite‑Niveau“, aber ausreichend, um auch in semi‑interaktiven Workflows nicht störend zu sein, und im Batch‑Betrieb zählt ohnehin eher der Durchsatz pro Dollar. Vorsicht ist dann angebracht, wenn die letzten Prozent an Genauigkeit den Business‑Outcome dominieren (z. B. regulatorische Bewertung, komplexe Vertragsinterpretation) – hier sollte ein höherer Index als Guardrail nachgelagert werden. Entscheidungssatz: Das ist ein starker Kandidat als Default‑Worker für Automationen und Dokumentenprozesse, solange ein separates „Finalizer“-Modell die Endfreigabe übernimmt.

gpt‑oss‑120B (high)

Solide Balance plus Governance‑Option: interessant, wenn Kontrolle und Portabilität zählen

Mit Index 33,30, Speed 308,94 Tokens/s und 0,75 $ pro 1 Mio. Tokens positioniert sich gpt‑oss‑120B (high) als bemerkenswert ausgewogener Kandidat, gerade wenn man neben Metriken auch Betriebsmodelle und Governance mitdenkt. In vielen Organisationen ist ein „oss“-nahes Modell attraktiv, weil man Abhängigkeiten, Hosting-Optionen und Sicherheitsanforderungen flexibler gestalten kann als bei rein proprietären APIs – das kann in der Praxis mehr wert sein als ein zweistelliger Index‑Vorsprung. Gleichzeitig sollte man die Qualitätslücke zu den Top‑Reasoning‑Modellen nicht wegdiskutieren: Bei schwierigen Aufgaben kann es mehr Prompt‑Engineering, mehr Retrieval‑Stütze oder zusätzliche Validierung brauchen. In einer composable Architektur passt es gut als kontrollierbarer Mid‑Tier: schneller als die schweren Reasoner, günstiger als viele Premium‑Modelle, und als „Router‑Ziel“ für Standardfälle. Entscheidungssatz: Das ist eine gute Wahl, wenn wir einen governance‑freundlichen Default für breite Standardaufgaben brauchen – aber nicht die erste Wahl für komplexe Finalentscheidungen ohne zusätzliche Checks.

GLM‑5 (Reasoning)

Hohe Intelligenz, aber spürbar langsamer und teurer – der Verifier/Finalizer

GLM‑5 (Reasoning) ist in den Daten ein Qualitätsanker: Der Index von 49,60 liegt in der Spitzengruppe der Intelligence‑Modelle. Gleichzeitig zeigt der Betriebspreis die Kehrseite: 66,67 Tokens/s sind vergleichsweise langsam, und 4,20 $ pro 1 Mio. Tokens machen es teurer als viele „Flash“-Optionen. Das ist kein Nachteil, wenn man es als gezielte zweite Stufe verwendet: Ein langsamerer, stärkerer Reasoner kann die Fehler eines schnellen Draft‑Modells abfangen, Entscheidungen begründen und Ergebnisse auf Konsistenz prüfen. Genau dafür eignet sich GLM‑5 in einer composable Architektur besonders gut – als Verifikations‑ und Finalisierungsschicht, die nur auf ausgewählte Fälle angewendet wird (z. B. wenn Confidence niedrig ist oder Risiko hoch). Entscheidungssatz: Das ist unser Kandidat für „Final Answer“ und Qualitätskontrolle in kritischen Prozessen, aber bewusst nicht als Default für jeden Request, weil Speed und Preis sonst die Gesamt-TCO dominieren.

Granite 3.3 8B (Non‑reasoning)

Extremer Speed/Preis‑Hebel – als Infrastrukturbaustein für Vorstufen und Routing

Granite 3.3 8B (Non‑reasoning) taucht in den Kombinationen als Speed‑ und Preis‑Champion auf und liefert in der Speed‑Topliste 542,61 Tokens/s bei 0,28 $ pro 1 Mio. Tokens; der Index‑Wert liegt bei 10,80. Diese Zahlen sagen sehr deutlich: Das ist kein Modell, das man für komplexe Schlussfolgerungen oder hochwertige Endtexte einkauft, sondern ein Baustein, der massive Skalierung ermöglicht, wenn die Aufgabe strukturiert ist oder wenn man bewusst mehrstufig arbeitet. Typische Einsätze sind Klassifikation, Extraktion mit klaren Schemas, schnelle Zusammenfassungsentwürfe, Query‑Rewriting für Retrieval oder als Router, der entscheidet, ob ein teurer Reasoner überhaupt gebraucht wird. Die wichtigste Vorsicht ist, den Index ernst zu nehmen: Ohne klare Aufgabenbegrenzung kann Qualität schnell abfallen und dann steigt der Korrekturaufwand. Entscheidungssatz: Das ist nicht die erste Wahl für Wissensarbeit mit hohen Genauigkeitsanforderungen – aber ein sehr sinnvoller Default für Vorverarbeitung, Routing und kostensensitive Massenvorgänge, die später von stärkeren Modellen abgesichert werden.