GPT-OSS 120B (Infercom)
Eine hochleistungsfähige Reasoning-Engine, die die Lücke zwischen führender Intelligenz und offener Gewichtsverfügbarkeit überbrückt und für die nächste Generation autonomer agentischer Workflows optimiert ist.

Über das Modell
GPT-OSS 120B basiert auf einer massiven Mixture-of-Experts-(MoE)-Architektur mit insgesamt 117 Milliarden Parametern. Um blitzschnelle Leistung zu gewährleisten, verwendet es eine sparse Aktivierungsstrategie, bei der für jedes Token nur 5,1 Milliarden Parameter aktiv sind. Die Variante "Infercom" ist speziell für Inferenz-Engines wie vLLM und NVIDIA NIM optimiert und nutzt MXFP4-Quantisierung, um hohe Intelligenz beizubehalten, während sie auf eine einzelne 80-GB-GPU (wie die H100 oder A100) passt.
Wichtige Modellfähigkeiten
Anpassbarer Reasoning-Aufwand:
Native Unterstützung für den Parameter reasoning_effort, sodass Benutzer zwischen Niedrig (schnell/günstig), Mittel (ausgewogen) und Hoch (tiefgehendes analytisches Denken) umschalten können.
Vollständige Chain-of-Thought (CoT):
Im Gegensatz zu Modellen mit geschlossenem Quellcode bietet GPT-OSS vollständige Transparenz in seine internen Denkschritte, was für das Debuggen komplexer agentischer Workflows entscheidend ist.
Strukturierte Ausgaben:
Optimiert für JSON-Modus und Funktionsaufrufe und erreicht eine nahezu perfekte Zuverlässigkeit für API-gesteuerte Agents.
Hoher Durchsatz:
In der Lage, auf optimierten Inferenz-Stacks mehr als 500 Token/Sek. zu erreichen, was es zu einem der schnellsten Modelle seiner Gewichtsklasse macht.
Anwendungen & Anwendungsfälle
Agentische Workflows:
Ideal geeignet als das "Gehirn" für autonome Agents, die Echtzeit-Web-Browsing, Python-Codeausführung und mehrstufige Tool-Nutzung erfordern.
MINT & technische Forschung:
Außergewöhnliche Leistung in Mathematik (AIME 2025: 97,9 % mit Tools) und wissenschaftlichem Denken auf Graduiertenniveau (GPQA Diamond: 80,9 %).
Datenschutzsensible Produktion:
Ein Favorit für den Rechts-, Finanz- und Gesundheitssektor, der Reasoning auf Frontier-Niveau vor Ort benötigt, um Datensouveränität zu gewährleisten.
Entwickler-Tooling:
Perfekt für Codeanalysen im Repository-Maßstab und die Generierung großer Mengen synthetischer Daten.
Empfohlene Modelle basierend auf Ihren Bedürfnissen
Modellspezifikationen
Allgemein | |
|---|---|
Modellanbieter | OpenAI |
Hauptanwendungsfälle |
|
Intelligenz | |
Schlussfolgerungsaufwand | Adaptiv (Niedrig, Mittel, Hoch) |
GPQA Diamond | 80.9% |
Speicher | |
Max. Kontext | 131K Token |
Geschwindigkeit | |
Latenz (TTFT) | 0.37s |
Durchsatz | 313 - 544 Token/s |



