Model Profile

openai/gpt-4o-mini-2024-07-18

Name: openai/gpt-4o-mini-2024-07-18
Rating: 2.0 (153 reviews)
Author: openai

External Benchmark Shadowexternal_benchmark_shadowpublic

4,096 ctx

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: external/openai/gpt-4o-mini-2024-07-18

Author: openai

Origin: external_benchmark_shadow

Arch: unknown

Benchmark Coverage

Scored use cases: 12

Avg confidence: 30.6%

Evidence points: 153

Raw rows: 328

Weighted rows: 24

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 0

Intelligence Profile

Dimension Breakdown

IQ14 benchmarks

43.4%

EQ0 benchmarks

No eq benchmarks found

Insufficient data

Accuracy0 benchmarks

No accuracy benchmarks found

Insufficient data

Creativity0 benchmarks

No creativity benchmarks found

Insufficient data

Based1 benchmark

57.9%*

* Low confidence — limited benchmark evidence for this dimension

2/5 dimensions scored · Last updated Apr 21, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

DuckDB NSQL Leaderboard

all_execution_accuracy

8.0%

Normalized value 76.9% · confidence 100.0%

Strongest impact in Metric definition workshop

duckdb_nsql_leaderboard.all_execution_accuracy · Apr 1, 2026

LLM Trustworthy Leaderboard

privacy

4.0%

Normalized value 84.3% · confidence 100.0%

Strongest impact in Jailbreak resistance (eval)

llm_trustworthy_leaderboard.privacy · Mar 31, 2026

DuckDB NSQL Leaderboard

hard_execution_accuracy

2.8%

Normalized value 50.0% · confidence 100.0%

Strongest impact in SQL debugging

duckdb_nsql_leaderboard.hard_execution_accuracy · Apr 1, 2026

LLM Trustworthy Leaderboard

adv

2.5%

Normalized value 57.9% · confidence 100.0%

Strongest impact in Jailbreak resistance (eval)

llm_trustworthy_leaderboard.adv · Mar 31, 2026

BigCodeBench Official

bigcodebench_complete_pct

2.0%

Normalized value 90.8% · confidence 100.0%

Strongest impact in Verilog/VHDL generation

bigcodebench_official.bigcodebench_complete_pct · Apr 1, 2026

LLM Trustworthy Leaderboard

toxicity

1.5%

Normalized value 50.0% · confidence 100.0%

Strongest impact in Jailbreak resistance (eval)

llm_trustworthy_leaderboard.toxicity · Mar 31, 2026

Some fit rows have limited benchmark evidence.

4 of 12 scored use cases have low confidence or thin contributor coverage.

Coverage Diagnostics

actively scored

Use-Case Scores

141

Total Measurements

328

Weighted Measurements

Weighted Sources

Raw Source Coverage

vals_mmlu_pro 60vals_mgsm 48corpfin_taxeval_public 28vals_medqa 28vals_legal_bench 18vals_corp_fin_v2 16

Weighted Source Coverage

llm_trustworthy_leaderboard 5bigcodebench_official 3vals_corp_fin_v2 3duckdb_nsql_leaderboard 2gaia_results_public 2icelandic_llm_leaderboard 1

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Jailbreak resistance (eval) use_case.security.jailbreak_resistance_eval	risk_eval	20.4%	38.9%	13	LLM Trustworthy Leaderboard: privacy
Refusal profile (eval) use_case.security.refusal_profile_eval	risk_eval	20.4%	38.9%	13	LLM Trustworthy Leaderboard: privacy
Overrefusal (eval) use_case.security.overrefusal_eval	risk_eval	20.4%	38.9%	13	LLM Trustworthy Leaderboard: privacy
Scam and social engineering resistance (eval) use_case.security.scam_social_engineering_resistance_eval	risk_eval	20.4%	38.9%	13	LLM Trustworthy Leaderboard: privacy
Crisis escalation protocol (eval) use_case.safety.crisis_escalation_protocol	risk_eval	20.4%	38.9%	13	LLM Trustworthy Leaderboard: privacy
Metric definition workshop use_case.data.metric_definition_workshop	data_analytics	16.9%	27.4%	12	DuckDB NSQL Leaderboard: all_execution_accuracy
Data quality assistant use_case.data.data_quality_assistant	data_analytics	15.7%	26.7%	12	DuckDB NSQL Leaderboard: all_execution_accuracy
SQL debugging use_case.data.sql_debugging	data_analytics	14.7%	24.7%	12	DuckDB NSQL Leaderboard: all_execution_accuracy
Simulation setup assistant use_case.eng.simulation_setup_assistant	engineering	14.5%	26.4%	14	BigCodeBench Official: bigcodebench_complete_pct
Executive brief from metrics use_case.data.exec_brief_from_metrics	data_analytics	14.1%	24.1%	12	DuckDB NSQL Leaderboard: all_execution_accuracy
Insight mining from text corpora use_case.data.insight_mining	data_analytics	13.1%	21.8%	12	DuckDB NSQL Leaderboard: all_execution_accuracy
Verilog/VHDL generation use_case.eda.verilog_generation	engineering	12.9%	20.8%	14	BigCodeBench Official: bigcodebench_complete_pct