Model Profile

qwen-2.5-72b-instruct

Name: qwen-2.5-72b-instruct
Rating: 2.5 (145 reviews)
Author: qwen

External Benchmark Shadowexternal_benchmark_shadowpublic

4,096 ctx

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: external/qwen/qwen-2-5-72b-instruct

Author: qwen

Origin: external_benchmark_shadow

Arch: unknown

Benchmark Coverage

Scored use cases: 12

Avg confidence: 32.6%

Evidence points: 145

Raw rows: 199

Weighted rows: 32

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 0

Intelligence Profile

Dimension Breakdown

IQ3 benchmarks

23.4%*

EQ1 benchmark

74.3%*

Accuracy0 benchmarks

No accuracy benchmarks found

Insufficient data

Creativity3 benchmarks

45.0%

Based3 benchmarks

35.2%*

* Low confidence — limited benchmark evidence for this dimension

4/5 dimensions scored · Last updated Apr 21, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

DuckDB NSQL Leaderboard

all_execution_accuracy

8.7%

Normalized value 82.7% · confidence 100.0%

Strongest impact in Metric definition workshop

duckdb_nsql_leaderboard.all_execution_accuracy · Apr 1, 2026

EQ-Bench Leaderboard

judgemark_score

6.1%

Normalized value 55.6% · confidence 100.0%

Strongest impact in Screenplay scene writing

eq_bench.judgemark_score · Apr 1, 2026

JSONSchemaBench Leaderboard

medium_schema_compliance_pct

4.4%

Normalized value 90.1% · confidence 100.0%

Strongest impact in Metric definition workshop

jsonschemabench_leaderboard.medium_schema_compliance_pct · Mar 31, 2026

EQ-Bench Leaderboard

eq_bench_score

3.0%

Normalized value 74.3% · confidence 100.0%

Strongest impact in Personalized sales outreach

eq_bench.eq_bench_score · Apr 1, 2026

Galileo Agent Leaderboard v2

Avg TSQ

2.9%

Normalized value 64.1% · confidence 100.0%

Strongest impact in Personalized sales outreach

galileo_agent_v2.avg_tsq · Apr 1, 2026

Galileo Agent Leaderboard v2

Insurance AC

2.5%

Normalized value 60.0% · confidence 100.0%

Strongest impact in Claims summary

galileo_agent_v2.insurance_ac · Apr 1, 2026

Some fit rows have limited benchmark evidence.

1 of 12 scored use cases have low confidence or thin contributor coverage.

Coverage Diagnostics

actively scored

Use-Case Scores

150

Total Measurements

199

Weighted Measurements

Weighted Sources

Raw Source Coverage

ugi_main 60galileo_agent_v2 34multilingual_mmlu_leaderboard 17duckdb_nsql_leaderboard 12jsonschemabench_leaderboard 12llm_aggrefact_leaderboard 12

Weighted Source Coverage

galileo_agent_v2 10bigcodebench_official 3ugi_main 3aider_code_editing 2bridge_medical_leaderboard 2duckdb_nsql_leaderboard 2

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Metric definition workshop use_case.data.metric_definition_workshop	data_analytics	24.9%	35.3%	12	DuckDB NSQL Leaderboard: all_execution_accuracy
Screenplay scene writing use_case.creative.screenplay_scene	creative	22.0%	40.3%	12	EQ-Bench Leaderboard: judgemark_score
Poetry and lyrics use_case.creative.poetry_lyrics	creative	22.0%	40.3%	12	EQ-Bench Leaderboard: judgemark_score
Insight mining from text corpora use_case.data.insight_mining	data_analytics	21.8%	32.0%	13	DuckDB NSQL Leaderboard: all_execution_accuracy
Executive brief from metrics use_case.data.exec_brief_from_metrics	data_analytics	21.0%	32.3%	13	DuckDB NSQL Leaderboard: all_execution_accuracy
Data quality assistant use_case.data.data_quality_assistant	data_analytics	20.7%	29.8%	12	DuckDB NSQL Leaderboard: all_execution_accuracy
Claims summary use_case.ins.claims_summary	insurance	20.0%	29.7%	13	Galileo Agent Leaderboard v2: Insurance AC
Personalized sales outreach use_case.mkt.sales_outreach_personalized	marketing_sales	19.9%	32.1%	11	EQ-Bench Leaderboard: eq_bench_score
Ad copy variants use_case.mkt.ad_copy_variants	marketing_sales	19.9%	32.1%	11	EQ-Bench Leaderboard: eq_bench_score
SQL debugging use_case.data.sql_debugging	data_analytics	18.6%	28.9%	12	DuckDB NSQL Leaderboard: all_execution_accuracy
Long-form story co-author use_case.creative.longform_story	creative	18.2%	33.4%	12	EQ-Bench Leaderboard: judgemark_score
Simulation setup assistant use_case.eng.simulation_setup_assistant	engineering	18.2%	24.9%	12	Galileo Agent Leaderboard v2: Avg AC