Gpt oss 120b

GPT-OSS-120B is an open-weight MoE model from OpenAI (117B params, 5.1B active). It is optimized for single-GPU deployment and excels in reasoning and agentic tasks.

Thinking Mode

Parameters

117000000000 B

Context

131,072 tokens

Released

Apr 8, 2025

Leaderboards

QUALITY

Average Score combining domain-specific Autobench scores; Higher is better

gpt-oss-120b
4.18

PRICE

USD cent per average answer; Lower is better

gpt-oss-120b
0.11

LATENCY

Average Latency in Seconds; Lower is better

gpt-oss-120b
75.48s

gemini-2.5-flash-lite
20.42s
grok-4.1-fast
23.60s
Nemotron-3-nano-30b-a3b
30.08s
Ministral-8b-2512
31.40s
Gpt-oss-20b
38.77s
Gemini-3-flash-preview
45.56s
nova-premier-v1
51.84s
Mistral-medium-3.1
52.25s
Nova-2-lite-v1
61.46s
gemini-2.5-flash
65.62s
nemotron-nano-9b-v2
66.78s
grok-4.1-fast-thinking
69.24s
gemini-3-pro-preview
76.11s
llama-3.3-nemotron-super-49b-v1.5
76.48s
Qwen3-next-80b-a3b-thinking
77.76s
Kimi-K2-0905
82.80s
gemini-2.5-pro
86.80s
Mistral-large-2512
89.96s
gpt-5-mini
93.49s
gpt-5-nano
99.62s
Qwen3-235B-A22B-2507
104.78s
claude-haiku-4.5
110.95s
Olmo-3.1-32b-think
122.42s
Deepseek-v3.2
124.57s
Gpt-5.2
130.10s
Minimax-m2
136.96s
Claude-opus-4.5
144.01s
GLM-4.5-Air
163.15s
claude-sonnet-4.5
169.73s
deepSeek-R1-0528
171.50s
grok-4
180.11s
GLM-4.6
187.43s
gpt-5.1
227.43s
Kimi-K2-thinking
247.97s
Gpt-5.2-pro
261.38s
Deepseek-v3.2-speciale
310.39s
Qwen3-235B-A22B-Thinking-2507
316.82s

Performance vs. Industry Average

Intelligence

Gpt oss 120b is of higher intelligence compared to average (4.1), with an intelligence score of 4.2.

Price

Gpt oss 120b is cheaper compared to average ($4.58 per 1M Tokens) with a price of $0.11 per 1M Tokens.

Latency

Gpt oss 120b has a lower average latency compared to average (116.45s), with an average latency of 75.48s.

P99 Latency

Gpt oss 120b has a lower P99 latency compared to average (339.37s), taking 291.84s to receive the first token at P99 (TTFT).

Context Window

Gpt oss 120b has a smaller context window than average (351k tokens), with a context window of 131k tokens.