GPT-OSS 120B (Infercom)

Eine hochleistungsfähige Reasoning-Engine, die die Lücke zwischen führender Intelligenz und offener Gewichtsverfügbarkeit überbrückt und für die nächste Generation autonomer agentischer Workflows optimiert ist.

Über das Modell

GPT-OSS 120B basiert auf einer massiven Mixture-of-Experts-(MoE)-Architektur mit insgesamt 117 Milliarden Parametern. Um blitzschnelle Leistung zu gewährleisten, verwendet es eine sparse Aktivierungsstrategie, bei der für jedes Token nur 5,1 Milliarden Parameter aktiv sind. Die Variante "Infercom" ist speziell für Inferenz-Engines wie vLLM und NVIDIA NIM optimiert und nutzt MXFP4-Quantisierung, um hohe Intelligenz beizubehalten, während sie auf eine einzelne 80-GB-GPU (wie die H100 oder A100) passt.

Wichtige Modellfähigkeiten

  • Anpassbarer Reasoning-Aufwand:

    Native Unterstützung für den Parameter reasoning_effort, sodass Benutzer zwischen Niedrig (schnell/günstig), Mittel (ausgewogen) und Hoch (tiefgehendes analytisches Denken) umschalten können.


  • Vollständige Chain-of-Thought (CoT):

    Im Gegensatz zu Modellen mit geschlossenem Quellcode bietet GPT-OSS vollständige Transparenz in seine internen Denkschritte, was für das Debuggen komplexer agentischer Workflows entscheidend ist.


  • Strukturierte Ausgaben:

    Optimiert für JSON-Modus und Funktionsaufrufe und erreicht eine nahezu perfekte Zuverlässigkeit für API-gesteuerte Agents.


  • Hoher Durchsatz:

    In der Lage, auf optimierten Inferenz-Stacks mehr als 500 Token/Sek. zu erreichen, was es zu einem der schnellsten Modelle seiner Gewichtsklasse macht.

Anwendungen & Anwendungsfälle

  • Agentische Workflows:

    Ideal geeignet als das "Gehirn" für autonome Agents, die Echtzeit-Web-Browsing, Python-Codeausführung und mehrstufige Tool-Nutzung erfordern.


  • MINT & technische Forschung:

    Außergewöhnliche Leistung in Mathematik (AIME 2025: 97,9 % mit Tools) und wissenschaftlichem Denken auf Graduiertenniveau (GPQA Diamond: 80,9 %).


  • Datenschutzsensible Produktion:

    Ein Favorit für den Rechts-, Finanz- und Gesundheitssektor, der Reasoning auf Frontier-Niveau vor Ort benötigt, um Datensouveränität zu gewährleisten.


  • Entwickler-Tooling:

    Perfekt für Codeanalysen im Repository-Maßstab und die Generierung großer Mengen synthetischer Daten.

Empfohlene Modelle basierend auf Ihren Bedürfnissen

Qwen (DeepMask)

Vielseitiges Modell mit Schlussfolgern und Werkzeugnutzung. Stark bei Dokumenten- und Bildanalyse sowie im mehrsprachigen Chat.

Qwen (DeepMask)

Vielseitiges Modell mit Schlussfolgern und Werkzeugnutzung. Stark bei Dokumenten- und Bildanalyse sowie im mehrsprachigen Chat.

Qwen3 (StackIT)

Vielseitiges Modell mit Schlussfolgerungsvermögen und Werkzeugnutzung. Stark in der Analyse von Dokumenten und Bildern sowie im mehrsprachigen Chat.

Qwen3 (StackIT)

Vielseitiges Modell mit Schlussfolgerungsvermögen und Werkzeugnutzung. Stark in der Analyse von Dokumenten und Bildern sowie im mehrsprachigen Chat.

Kimi K2 (DeepMask)

Am besten für tiefes Schlussfolgern und die Nutzung von Werkzeugen. Ideal für lange, mehrstufige Aufgaben und Dokumentenanalyse.

Kimi K2 (DeepMask)

Am besten für tiefes Schlussfolgern und die Nutzung von Werkzeugen. Ideal für lange, mehrstufige Aufgaben und Dokumentenanalyse.

Modellspezifikationen

Allgemein


Modellanbieter

OpenAI

Hauptanwendungsfälle

Hochgeschwindigkeits-Agenten API-Orchestrierung Programmierung

Intelligenz


Schlussfolgerungsaufwand

Adaptiv (Niedrig, Mittel, Hoch)

GPQA Diamond

80.9%
Speicher


Max. Kontext

131K Token
Geschwindigkeit


Latenz (TTFT)

0.37s

Durchsatz

313 - 544 Token/s

Entdecke die intelligentere Art, mit KI zu arbeiten

Ein Arbeitsbereich für alle führenden KI-Modelle. Schneller denken. Intelligenter erstellen.

Haiku 4.5

Neuer Chat

Chats

Projekte

Zuletzt

Anzeigen

Jonas ist beigetreten!

Wie kann ich Ihnen heute helfen?

KI kann Fehler machen. Bitte überprüfen Sie die Antworten sorgfältig.

Modelle

Qwen (DeepMask)

Kimi K2 (DeepMask)

GPT-OSS 120B (Stack IT)

Haiku 4.5

Gemma 3 27B (Stack IT)

Gemini 2.2 Flash

Gemini 2.5 Flash

GPT-4o

GPT-4.1

Mistral Large 2.1

DeepSeek V3

GPT-5.3

Opus 4.5

Sonett 4.5

GPT-o3 Mini

Grok 3 Mini

Grok 4 Fast

Haiku 4.5

Neuer Chat

Chats

Projekte

KI-Automatisierungsprodukt

Recherche für die Sommerkampagne

PR-Projektagenten

Täglicher Blog-Inhalt

Werbebanner auf der Haupt-Landingpage

Zuletzt

Anzeigen

Jonas Müller

Kostenpflichtiger Plan

Modelle

Qwen (DeepMask)

Kimi K2 (DeepMask)

Qwen3 (Stack IT)

GPT 5.2

GPT-OSS 120B (Stack IT)

Haiku 4.5

Gemma 3 27B (Stack IT)

Gemini 2.0 Flash

Gemini 2.5 Flash

GPT-4o

GPT-4.1

Mistral Large 2.1

DeepSeek V3

GPT-5.3

Opus 4.5

Sonett 4.5

GPT-o3 Mini

Grok 3 Mini

Grok 4 Fast

Jonas ist beigetreten!

Wie kann ich Ihnen heute helfen?

KI kann Fehler machen. Bitte überprüfen Sie die Antworten sorgfältig.

Entdecke die intelligentere Art, mit KI zu arbeiten

Ein Arbeitsbereich für alle führenden KI-Modelle. Schneller denken. Intelligenter erstellen.

Haiku 4.5

Neuer Chat

Chats

Projekte

Zuletzt

Anzeigen

Jonas ist beigetreten!

Wie kann ich Ihnen heute helfen?

KI kann Fehler machen. Bitte überprüfen Sie die Antworten sorgfältig.

Modelle

Qwen (DeepMask)

Kimi K2 (DeepMask)

GPT-OSS 120B (Stack IT)

Haiku 4.5

Gemma 3 27B (Stack IT)

Gemini 2.2 Flash

Gemini 2.5 Flash

GPT-4o

GPT-4.1

Mistral Large 2.1

DeepSeek V3

GPT-5.3

Opus 4.5

Sonett 4.5

GPT-o3 Mini

Grok 3 Mini

Grok 4 Fast

Haiku 4.5

Neuer Chat

Chats

Projekte

KI-Automatisierungsprodukt

Recherche für die Sommerkampagne

PR-Projektagenten

Täglicher Blog-Inhalt

Werbebanner auf der Haupt-Landingpage

Zuletzt

Anzeigen

Jonas Müller

Kostenpflichtiger Plan

Modelle

Qwen (DeepMask)

Kimi K2 (DeepMask)

Qwen3 (Stack IT)

GPT 5.2

GPT-OSS 120B (Stack IT)

Haiku 4.5

Gemma 3 27B (Stack IT)

Gemini 2.0 Flash

Gemini 2.5 Flash

GPT-4o

GPT-4.1

Mistral Large 2.1

DeepSeek V3

GPT-5.3

Opus 4.5

Sonett 4.5

GPT-o3 Mini

Grok 3 Mini

Grok 4 Fast

Jonas ist beigetreten!

Wie kann ich Ihnen heute helfen?

KI kann Fehler machen. Bitte überprüfen Sie die Antworten sorgfältig.