Model Profile

gpt-4o

Name: gpt-4o
Rating: 3.0 (176 reviews)
Author: openai

External Benchmark Shadowexternal_benchmark_shadowpublic

4,096 ctx

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: external/openai/gpt-4o

Author: openai

Origin: external_benchmark_shadow

Arch: unknown

Benchmark Coverage

Scored use cases: 12

Avg confidence: 36.8%

Evidence points: 176

Raw rows: 221

Weighted rows: 39

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 0

Price / 1M tokens: $0.26 (blended 3:1)

Intelligence Profile

Dimension Breakdown

IQ5 benchmarks

60.6%*

EQ4 benchmarks

86.6%*

Accuracy3 benchmarks

69.6%*

Creativity1 benchmark

74.3%*

Based2 benchmarks

53.5%*

* Low confidence — limited benchmark evidence for this dimension

5/5 dimensions scored · Last updated Apr 21, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

EQ-Bench Leaderboard

judgemark_score

8.2%

Normalized value 74.3% · confidence 100.0%

Strongest impact in Screenplay scene writing

eq_bench.judgemark_score · Apr 1, 2026

DuckDB NSQL Leaderboard

all_execution_accuracy

8.0%

Normalized value 76.9% · confidence 100.0%

Strongest impact in Metric definition workshop

duckdb_nsql_leaderboard.all_execution_accuracy · Apr 1, 2026

JSONSchemaBench Leaderboard

medium_schema_compliance_pct

4.9%

Normalized value 100.0% · confidence 100.0%

Strongest impact in Metric definition workshop

jsonschemabench_leaderboard.medium_schema_compliance_pct · Mar 31, 2026

CRMArena Function Calling

overall_score_pct

4.3%

Normalized value 82.1% · confidence 100.0%

Strongest impact in Social post generation

crmarena_leaderboard.overall_score_pct · Apr 1, 2026

EQ-Bench Leaderboard

eq_bench_score

4.1%

Normalized value 92.8% · confidence 100.0%

Strongest impact in Social post generation

eq_bench.eq_bench_score · Apr 1, 2026

JSONSchemaBench Leaderboard

hard_schema_compliance_pct

3.4%

Normalized value 100.0% · confidence 100.0%

Strongest impact in Metric definition workshop

jsonschemabench_leaderboard.hard_schema_compliance_pct · Mar 31, 2026

Coverage Diagnostics

actively scored

Use-Case Scores

129

Total Measurements

221

Weighted Measurements

Weighted Sources

Raw Source Coverage

mega_bench 40testeval_leaderboard 18mmlu_pro_leaderboard 15duckdb_nsql_leaderboard 12jsonschemabench_leaderboard 12medhelm_leaderboard 12

Weighted Source Coverage

crmarena_leaderboard 4medhelm_leaderboard 4mega_bench 4sonar_java_quality 4lexam_leaderboard 3buildarena_readme 2

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Metric definition workshop use_case.data.metric_definition_workshop	data_analytics	30.3%	54.8%	17	DuckDB NSQL Leaderboard: all_execution_accuracy
Data quality assistant use_case.data.data_quality_assistant	data_analytics	24.2%	43.5%	17	DuckDB NSQL Leaderboard: all_execution_accuracy
Personalized sales outreach use_case.mkt.sales_outreach_personalized	marketing_sales	23.8%	32.1%	13	CRMArena Function Calling: overall_score_pct
Ad copy variants use_case.mkt.ad_copy_variants	marketing_sales	23.8%	32.1%	13	CRMArena Function Calling: overall_score_pct
SQL debugging use_case.data.sql_debugging	data_analytics	23.6%	49.4%	17	DuckDB NSQL Leaderboard: all_execution_accuracy
Insight mining from text corpora use_case.data.insight_mining	data_analytics	22.8%	37.8%	17	DuckDB NSQL Leaderboard: all_execution_accuracy
Executive brief from metrics use_case.data.exec_brief_from_metrics	data_analytics	21.8%	39.2%	17	DuckDB NSQL Leaderboard: all_execution_accuracy
Social post generation use_case.mkt.social_post_generation	marketing_sales	20.8%	28.1%	12	CRMArena Function Calling: overall_score_pct
Campaign brief use_case.mkt.campaign_brief	marketing_sales	20.8%	28.1%	12	CRMArena Function Calling: overall_score_pct
Product positioning and messaging use_case.mkt.product_positioning	marketing_sales	20.8%	28.1%	12	CRMArena Function Calling: overall_score_pct
Text-to-SQL analyst assistant use_case.data.text_to_sql	data_analytics	20.3%	40.6%	17	DuckDB NSQL Leaderboard: all_execution_accuracy
Screenplay scene writing use_case.creative.screenplay_scene	creative	19.7%	28.1%	12	EQ-Bench Leaderboard: judgemark_score