Showdown - Comprehensive LLM Rankings & Comparison

Rank	Model	Type	💻 Coding ▼	🧠 Reasoning	🤖 Agents & Tools	💬 Conversation	🔢 Math	👁️ Multimodal	🧠 Knowledge	Price	Speed
#7 74.7%	Qwen 3.6 Plus	Proprietary	79.2% *	75.3% *	65.8% *	—	—	—	86.2% *	$1.36	85.3 t/s
#5 75.4%	Claude Sonnet 4.6 Thinking	Proprietary	79.0% *	76.2% *	72.3% *	73.7% *	85.3% *	53.4% *	82.5% *	$9.00	45 t/s
#4 75.6%	GPT 5.2 Pro	Proprietary	78.0% *	74.8% *	77.6%	66.0% *	86.8% *	63.7% *	77.7% *	$94.50	28 t/s
#1 77.3%	Gemini 3.1 Pro Preview	Proprietary	77.6% *	83.8%	68.6% *	78.1%	86.2% *	55.7% *	89.0% *	$7.00	130 t/s
#2 77.0%	Gemini 3.1 Pro Preview Base	Proprietary	77.5% *	83.5% *	68.4% *	77.9% *	86.0% *	55.5% *	88.7% *	$7.00	130 t/s
#6 75.3%	Claude Opus 4.6 Thinking	Proprietary	75.9% *	81.2%	71.4% *	78.5%	70.8% *	57.7% *	87.0% *	$15.00	67.8 t/s
#11 71.6%	Claude Sonnet 4.6	Proprietary	75.9% *	68.3% *	70.0% *	72.2% *	81.9% *	52.0% *	81.2% *	$9.00	77 t/s
#9 71.7%	Claude Opus 4.5 Thinking	Proprietary	75.8% *	66.7%	71.3%	72.5%	81.7%	58.1%	76.8%	$15.00	35 t/s
#8 72.7%	Gemini 3 Flash Thinking	Proprietary	75.5% *	67.2%	77.0% *	72.4%	77.0% *	61.9% *	83.4% *	$1.75	180 t/s
#3 75.6%	GPT 5.4 High	Proprietary	75.4% *	82.1%	65.6% *	74.0%	89.0% *	61.7% *	78.2% *	$8.75	73.3 t/s
#19 67.6%	Grok 4.1 Thinking	Proprietary	75.1% *	63.9%	51.5%	63.0%	80.9%	80.4% *	77.1% *	$0.35	45 t/s
#22 66.0%	Claude Sonnet 4.5 Thinking	Proprietary	74.7% *	57.3%	63.3%	68.7%	76.2%	51.7% *	70.5%	$9.00	45 t/s
#17 68.1%	Gemini 3 Flash	Proprietary	74.7% *	54.2% *	76.6% *	71.5%	68.0% *	60.5% *	83.3%	$1.75	218 t/s
#13 69.7%	GPT 5.2 High	Proprietary	74.7% *	71.0%	60.0%	62.4%	85.8%	60.0%	74.9%	$7.88	45 t/s
#12 70.8%	GPT 5.2	Proprietary	74.4% *	69.4% *	69.6% *	62.6% *	83.2% *	60.0% *	76.3% *	$7.88	187 t/s
#10 71.6%	Gemini 3 Pro	Proprietary	73.6% *	67.4%	66.9%	74.9%	83.6%	63.4%	84.9%	$7.00	128 t/s
#16 68.2%	GLM-5	Open Source	73.5% *	55.3%	70.0% *	67.7%	81.2% *	—	80.7% *	$2.10	77.2 t/s
#20 67.2%	Kimi K2.5 Thinking	Open Source	73.1%	58.5%	59.3% *	—	84.3% *	—	79.9% *	$1.55	45 t/s
#15 68.4%	GPT 5.1 High	Proprietary	73.0% *	60.7%	67.1% *	68.2%	82.1%	60.5%	75.3%	$67.50	40 t/s
#14 68.9%	Claude Opus 4.6	Proprietary	72.4% *	64.5% *	67.9% *	77.0% *	67.3% *	54.9% *	87.3% *	$15.00	67.8 t/s
#23 65.9%	MiniMax M2.5	Open Source	72.1% *	48.3% *	76.7% *	— *	74.8% *	—	— *	$0.75	52 t/s
#18 67.8%	Claude Opus 4.5	Proprietary	72.0% *	63.5%	66.6%	69.4%	76.9%	53.2%	72.6% *	$15.00	65 t/s
#35 60.7%	Claude Opus 4.1	Proprietary	71.9%	48.5% *	61.3%	64.0%	61.1%	54.6% *	64.8% *	$45.00	52 t/s
#21 66.9%	GLM-4.7	Open Source	71.9% *	54.2% *	70.0% *	65.4% *	79.1% *	—	78.0% *	$1.07	92 t/s
#29 63.2%	GPT 5.1	Proprietary	71.2% *	49.0% *	64.0% *	68.0% *	78.4% *	48.8% *	74.5% *	$3.75	120 t/s
#26 64.1%	Kimi K2 Thinking	Open Source	70.8% *	50.7% *	65.5% *	61.9% *	78.6% *	—	72.6% *	$1.55	45 t/s
#25 64.5%	Kimi K2.5 Instant	Open Source	70.6% *	56.2% *	56.9% *	— *	80.1% *	— *	76.6% *	$1.55	85 t/s
#31 61.7%	Grok 4.1	Proprietary	70.2%	53.3%	47.2%	60.2%	75.5%	76.4%	73.5%	$0.35	95 t/s
#30 62.6%	Claude Sonnet 4.5	Proprietary	70.0% *	52.6% *	59.9%	64.3%	73.0%	57.8%	70.2%	$9.00	77 t/s
#34 60.8%	OpenAI o3	Proprietary	69.3% *	51.7% *	52.5% *	58.4% *	78.3% *	56.1%	75.9% *	$25.00	35 t/s
#28 63.8%	MiniMax M2.1	Open Source	68.6% *	47.2% *	75.1% *	— *	72.5% *	—	— *	$0.75	148 t/s
#27 63.9%	MiniMax M2.7	Open Source	68.6% *	55.0% *	63.6% *	—	74.7% *	—	—	$0.75	44.1 t/s
#24 64.5%	o4-mini	Proprietary	68.0% *	49.3% *	—	—	83.0% *	82.9% *	58.6% *	$10.00	100 t/s
#37 59.1%	DeepSeek V3.2 Thinking	Open Source	67.3%	53.1%	47.0%	60.7%	73.3%	54.6%	69.5%	$0.35	60 t/s
#— —	Grok 4.20 Thinking	Proprietary	66.3% *	76.5% *	—	—	—	—	—	$4.00	100 t/s
#36 59.3%	Qwen3 Max Preview	Proprietary	65.9% *	36.1%	66.1% *	62.3% *	75.5% *	67.0% *	73.7% *	$3.60	85 t/s
#33 61.2%	Gemini 2.5 Pro	Proprietary	65.3%	54.5%	52.7%	65.1%	76.1%	57.4%	78.1%	$3.13	165 t/s
#43 57.5%	MiniMax M2	Open Source	64.1% *	58.6% *	—	42.2% *	—	—	53.7% *	$0.75	100 t/s
#42 57.5%	Qwen3 235B	Open Source	64.0% *	52.8% *	49.8%	54.8%	72.9%	46.9% *	72.1%	Free	75 t/s
#39 58.3%	Kimi K2	Open Source	63.5% *	45.7% *	62.8% *	56.5% *	75.2% *	—	43.1% *	$1.55	85 t/s
#32 61.6%	GLM-4.6	Open Source	60.5% *	51.3% *	65.7% *	63.1% *	76.5% *	—	75.7% *	$1.39	104.6 t/s
#41 57.5%	DeepSeek V3.2	Open Source	59.4% *	47.9%	52.9%	56.5%	72.9%	72.5%	68.2%	$0.35	120 t/s
#38 58.9%	OpenAI o3-mini	Proprietary	58.7% *	52.6%	58.6% *	—	77.7%	—	51.3% *	$2.75	115 t/s
#44 55.2%	Longcat Flash Chat	Open Source	57.8% *	35.8%	65.6% *	57.8% *	79.8% *	—	39.6% *	$0.45	100 t/s
#40 58.1%	DeepSeek R1	Open Source	57.1%	48.4%	54.5% *	60.8%	76.7%	71.0%	67.2%	$1.37	85 t/s
#47 49.5%	Qwen3 32B	Open Source	54.0%	43.5% *	43.3%	41.5%	67.6% *	56.3%	54.7% *	Free	145 t/s
#48 47.4%	Mistral Large 3	Open Source	53.6% *	24.2%	—	57.1% *	73.6% *	—	61.8% *	$1.00	90 t/s
#45 52.2%	Gemini 2.5 Flash	Proprietary	51.9% *	43.5% *	50.1% *	60.0% *	70.0% *	45.7% *	63.5% *	$0.38	372 t/s
#49 46.6%	Llama 4 Maverick	Open Source	51.5% *	41.4% *	49.0% *	41.8% *	45.6% *	45.4%	59.8% *	Free	155 t/s
#46 51.8%	GPT-4.5	Proprietary	45.8% *	44.4% *	49.4% *	67.4% *	65.5% *	50.4% *	72.7% *	$7.50	85 t/s
#51 39.6%	Llama 4 Scout	Open Source	41.0% *	36.2% *	41.5% *	38.7% *	37.6% *	40.7%	54.7% *	Free	2.6k t/s
#50 41.1%	GPT-4o	Proprietary	39.1% *	33.5% *	47.8% *	45.8% *	44.3% *	39.0% *	56.3% *	$6.25	110 t/s
#— —	Claude 4.7 Opus	Proprietary	— *	— *	— *	— *	— *	—	— *	$10.00	50 t/s
#— —	Claude 4.7 Opus Thinking	Proprietary	—	—	—	—	—	—	—	$10.00	87 t/s
#— —	MiMo v2 Pro	Proprietary	—	—	—	—	—	—	—	$2.00	94.5 t/s
#— —	Qwen 3.5 Plus	Proprietary	—	—	—	—	—	—	—	$1.36	85.3 t/s
#— —	Grok 4.20	Proprietary	—	—	—	—	—	—	—	$4.00	100 t/s

Sort by

#7 74.7%

Qwen 3.6 Plus

Proprietary

💻 Coding 79.2%*

🧠 Reasoning 75.3%*

🤖 Agents & Tools 65.8%*

$1.36 85.3 t/s

#5 75.4%

Claude Sonnet 4.6 Thinking

Proprietary

💻 Coding 79.0%*

🧠 Reasoning 76.2%*

🤖 Agents & Tools 72.3%*

$9.00 45 t/s

#4 75.6%

GPT 5.2 Pro

Proprietary

💻 Coding 78.0%*

🧠 Reasoning 74.8%*

🤖 Agents & Tools 77.6%

$94.50 28 t/s

#1 77.3%

Gemini 3.1 Pro Preview

Proprietary

💻 Coding 77.6%*

🧠 Reasoning 83.8%

🤖 Agents & Tools 68.6%*

$7.00 130 t/s

#2 77.0%

Gemini 3.1 Pro Preview Base

Proprietary

💻 Coding 77.5%*

🧠 Reasoning 83.5%*

🤖 Agents & Tools 68.4%*

$7.00 130 t/s

#6 75.3%

Claude Opus 4.6 Thinking

Proprietary

💻 Coding 75.9%*

🧠 Reasoning 81.2%

🤖 Agents & Tools 71.4%*

$15.00 67.8 t/s

#11 71.6%

Claude Sonnet 4.6

Proprietary

💻 Coding 75.9%*

🧠 Reasoning 68.3%*

🤖 Agents & Tools 70.0%*

$9.00 77 t/s

#9 71.7%

Claude Opus 4.5 Thinking

Proprietary

💻 Coding 75.8%*

🧠 Reasoning 66.7%

🤖 Agents & Tools 71.3%

$15.00 35 t/s

#8 72.7%

Gemini 3 Flash Thinking

Proprietary

💻 Coding 75.5%*

🧠 Reasoning 67.2%

🤖 Agents & Tools 77.0%*

$1.75 180 t/s

#3 75.6%

GPT 5.4 High

Proprietary

💻 Coding 75.4%*

🧠 Reasoning 82.1%

🤖 Agents & Tools 65.6%*

$8.75 73.3 t/s

#19 67.6%

Grok 4.1 Thinking

Proprietary

💻 Coding 75.1%*

🧠 Reasoning 63.9%

🤖 Agents & Tools 51.5%

$0.35 45 t/s

#22 66.0%

Claude Sonnet 4.5 Thinking

Proprietary

💻 Coding 74.7%*

🧠 Reasoning 57.3%

🤖 Agents & Tools 63.3%

$9.00 45 t/s

#17 68.1%

Gemini 3 Flash

Proprietary

💻 Coding 74.7%*

🧠 Reasoning 54.2%*

🤖 Agents & Tools 76.6%*

$1.75 218 t/s

#13 69.7%

GPT 5.2 High

Proprietary

💻 Coding 74.7%*

🧠 Reasoning 71.0%

🤖 Agents & Tools 60.0%

$7.88 45 t/s

#12 70.8%

GPT 5.2

Proprietary

💻 Coding 74.4%*

🧠 Reasoning 69.4%*

🤖 Agents & Tools 69.6%*

$7.88 187 t/s

#10 71.6%

Gemini 3 Pro

Proprietary

💻 Coding 73.6%*

🧠 Reasoning 67.4%

🤖 Agents & Tools 66.9%

$7.00 128 t/s

#16 68.2%

GLM-5

Open

💻 Coding 73.5%*

🧠 Reasoning 55.3%

🤖 Agents & Tools 70.0%*

$2.10 77.2 t/s

#20 67.2%

Kimi K2.5 Thinking

Open

💻 Coding 73.1%

🧠 Reasoning 58.5%

🤖 Agents & Tools 59.3%*

$1.55 45 t/s

#15 68.4%

GPT 5.1 High

Proprietary

💻 Coding 73.0%*

🧠 Reasoning 60.7%

🤖 Agents & Tools 67.1%*

$67.50 40 t/s

#14 68.9%

Claude Opus 4.6

Proprietary

💻 Coding 72.4%*

🧠 Reasoning 64.5%*

🤖 Agents & Tools 67.9%*

$15.00 67.8 t/s

#23 65.9%

MiniMax M2.5

Open

💻 Coding 72.1%*

🧠 Reasoning 48.3%*

🤖 Agents & Tools 76.7%*

$0.75 52 t/s

#18 67.8%

Claude Opus 4.5

Proprietary

💻 Coding 72.0%*

🧠 Reasoning 63.5%

🤖 Agents & Tools 66.6%

$15.00 65 t/s

#35 60.7%

Claude Opus 4.1

Proprietary

💻 Coding 71.9%

🧠 Reasoning 48.5%*

🤖 Agents & Tools 61.3%

$45.00 52 t/s

#21 66.9%

GLM-4.7

Open

💻 Coding 71.9%*

🧠 Reasoning 54.2%*

🤖 Agents & Tools 70.0%*

$1.07 92 t/s

#29 63.2%

GPT 5.1

Proprietary

💻 Coding 71.2%*

🧠 Reasoning 49.0%*

🤖 Agents & Tools 64.0%*

$3.75 120 t/s

#26 64.1%

Kimi K2 Thinking

Open

💻 Coding 70.8%*

🧠 Reasoning 50.7%*

🤖 Agents & Tools 65.5%*

$1.55 45 t/s

#25 64.5%

Kimi K2.5 Instant

Open

💻 Coding 70.6%*

🧠 Reasoning 56.2%*

🤖 Agents & Tools 56.9%*

$1.55 85 t/s

#31 61.7%

Grok 4.1

Proprietary

💻 Coding 70.2%

🧠 Reasoning 53.3%

🤖 Agents & Tools 47.2%

$0.35 95 t/s

#30 62.6%

Claude Sonnet 4.5

Proprietary

💻 Coding 70.0%*

🧠 Reasoning 52.6%*

🤖 Agents & Tools 59.9%

$9.00 77 t/s

#34 60.8%

OpenAI o3

Proprietary

💻 Coding 69.3%*

🧠 Reasoning 51.7%*

🤖 Agents & Tools 52.5%*

$25.00 35 t/s

#28 63.8%

MiniMax M2.1

Open

💻 Coding 68.6%*

🧠 Reasoning 47.2%*

🤖 Agents & Tools 75.1%*

$0.75 148 t/s

#27 63.9%

MiniMax M2.7

Open

💻 Coding 68.6%*

🧠 Reasoning 55.0%*

🤖 Agents & Tools 63.6%*

$0.75 44.1 t/s

#24 64.5%

o4-mini

Proprietary

💻 Coding 68.0%*

🧠 Reasoning 49.3%*

🤖 Agents & Tools —

$10.00 100 t/s

#37 59.1%

DeepSeek V3.2 Thinking

Open

💻 Coding 67.3%

🧠 Reasoning 53.1%

🤖 Agents & Tools 47.0%

$0.35 60 t/s

#— —

Grok 4.20 Thinking

Proprietary

💻 Coding 66.3%*

🧠 Reasoning 76.5%*

🤖 Agents & Tools —

$4.00 100 t/s

#36 59.3%

Qwen3 Max Preview

Proprietary

💻 Coding 65.9%*

🧠 Reasoning 36.1%

🤖 Agents & Tools 66.1%*

$3.60 85 t/s

#33 61.2%

Gemini 2.5 Pro

Proprietary

💻 Coding 65.3%

🧠 Reasoning 54.5%

🤖 Agents & Tools 52.7%

$3.13 165 t/s

#43 57.5%

MiniMax M2

Open

💻 Coding 64.1%*

🧠 Reasoning 58.6%*

🤖 Agents & Tools —

$0.75 100 t/s

#42 57.5%

Qwen3 235B

Open

💻 Coding 64.0%*

🧠 Reasoning 52.8%*

🤖 Agents & Tools 49.8%

Free 75 t/s

#39 58.3%

Kimi K2

Open

💻 Coding 63.5%*

🧠 Reasoning 45.7%*

🤖 Agents & Tools 62.8%*

$1.55 85 t/s

#32 61.6%

GLM-4.6

Open

💻 Coding 60.5%*

🧠 Reasoning 51.3%*

🤖 Agents & Tools 65.7%*

$1.39 104.6 t/s

#41 57.5%

DeepSeek V3.2

Open

💻 Coding 59.4%*

🧠 Reasoning 47.9%

🤖 Agents & Tools 52.9%

$0.35 120 t/s

#38 58.9%

OpenAI o3-mini

Proprietary

💻 Coding 58.7%*

🧠 Reasoning 52.6%

🤖 Agents & Tools 58.6%*

$2.75 115 t/s

#44 55.2%

Longcat Flash Chat

Open

💻 Coding 57.8%*

🧠 Reasoning 35.8%

🤖 Agents & Tools 65.6%*

$0.45 100 t/s

#40 58.1%

DeepSeek R1

Open

💻 Coding 57.1%

🧠 Reasoning 48.4%

🤖 Agents & Tools 54.5%*

$1.37 85 t/s

#47 49.5%

Qwen3 32B

Open

💻 Coding 54.0%

🧠 Reasoning 43.5%*

🤖 Agents & Tools 43.3%

Free 145 t/s

#48 47.4%

Mistral Large 3

Open

💻 Coding 53.6%*

🧠 Reasoning 24.2%

🤖 Agents & Tools —

$1.00 90 t/s

#45 52.2%

Gemini 2.5 Flash

Proprietary

💻 Coding 51.9%*

🧠 Reasoning 43.5%*

🤖 Agents & Tools 50.1%*

$0.38 372 t/s

#49 46.6%

Llama 4 Maverick

Open

💻 Coding 51.5%*

🧠 Reasoning 41.4%*

🤖 Agents & Tools 49.0%*

Free 155 t/s

#46 51.8%

GPT-4.5

Proprietary

💻 Coding 45.8%*

🧠 Reasoning 44.4%*

🤖 Agents & Tools 49.4%*

$7.50 85 t/s

#51 39.6%

Llama 4 Scout

Open

💻 Coding 41.0%*

🧠 Reasoning 36.2%*

🤖 Agents & Tools 41.5%*

Free 2.6k t/s

#50 41.1%

GPT-4o

Proprietary

💻 Coding 39.1%*

🧠 Reasoning 33.5%*

🤖 Agents & Tools 47.8%*

$6.25 110 t/s

#— —

Claude 4.7 Opus

Proprietary

💻 Coding —*

🧠 Reasoning —*

🤖 Agents & Tools —*

$10.00 50 t/s

#— —

Claude 4.7 Opus Thinking

Proprietary

💻 Coding —

🧠 Reasoning —

🤖 Agents & Tools —

$10.00 87 t/s

#— —

MiMo v2 Pro

Proprietary

💻 Coding —

🧠 Reasoning —

🤖 Agents & Tools —

$2.00 94.5 t/s

#— —

Qwen 3.5 Plus

Proprietary

💻 Coding —

🧠 Reasoning —

🤖 Agents & Tools —

$1.36 85.3 t/s

#— —

Grok 4.20

Proprietary

💻 Coding —

🧠 Reasoning —

🤖 Agents & Tools —

$4.00 100 t/s