Data & Analytics

Executive brief from metrics

Summarize key metric changes into an executive-ready brief.

task.dashboard_narrativetask.write_memo_brief

Evidence quality is currently limited for this use case. Rankings below are useful for exploration, not a strong winner claim.

Provisional leader

gpt-5-2025-08-07

Current leader based on limited benchmark evidence. Treat this ranking as directional until coverage improves.

22.7%

Best benchmark score

29.8%

Confidence

All ranked models — top 3

🥇

gpt-5-2025-08-07

22.7%

🥈

deepseek-r1

22.5%

🥉

gpt-4o

21.8%

Ranked Models

Evidence Quality

81%

Evidence Points

Top Signal

LiveSQLBench: success_rate_pct

All Ranked Models

30 of 30 models

Rank	Model	Score	Confidence	Price / 1M	Evidence sources
🥇	gpt-5-2025-08-07 Strong on LiveSQLBench success_rate_pct and Spider2.0 Snow Text-to-SQL snow_text_to_sql_score_pct	22.7%	30%	—	LiveSQLBenchSpider2.0 Snow Text-to-SQL
🥈	deepseek-r1 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and LiveSQLBench success_rate_pct	22.5%	39%	$0.27	DuckDB NSQL LeaderboardLiveSQLBench
🥉	gpt-4o Strong on DuckDB NSQL Leaderboard all_execution_accuracy and JSONSchemaBench Leaderboard medium_schema_compliance_pct	21.8%	39%	$0.26	DuckDB NSQL LeaderboardJSONSchemaBench Leaderboard
#4	o3-20250416 Strong on LiveSQLBench success_rate_pct and Spider2.0 Snow Text-to-SQL snow_text_to_sql_score_pct	21.0%	30%	$3.50	LiveSQLBenchSpider2.0 Snow Text-to-SQL
#5	qwen-2.5-72b-instruct Strong on DuckDB NSQL Leaderboard all_execution_accuracy and JSONSchemaBench Leaderboard medium_schema_compliance_pct	21.0%	32%	—	DuckDB NSQL LeaderboardJSONSchemaBench Leaderboard
#6	claude-sonnet-4 Strong on LiveSQLBench success_rate_pct and Galileo Agent Leaderboard v2 Avg AC	20.4%	33%	$6.00	LiveSQLBenchGalileo Agent Leaderboard v2
#9	Claude-3.5-Sonnet Strong on DuckDB NSQL Leaderboard all_execution_accuracy and LLM-AggreFact Leaderboard average_score_pct	18.6%	26%	$6.00	DuckDB NSQL LeaderboardLLM-AggreFact Leaderboard
#10	gpt-4o-20241120 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	18.1%	30%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#11	gpt-4.1 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and SciArena Leaderboard rating_elo	15.8%	22%	$3.50	DuckDB NSQL LeaderboardSciArena Leaderboard
#13	gpt-4o-mini-2024-07-18 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	14.1%	24%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#14	gemini-2.5-pro Strong on Galileo Agent Leaderboard v2 Avg AC and Galileo Agent Leaderboard v2 Avg TSQ	13.8%	22%	$3.44	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#16	gpt-4o-2024-08-06 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	13.3%	21%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#17	o4-mini Strong on LiveSQLBench success_rate_pct and SciArena Leaderboard rating_elo	13.0%	20%	$1.93	LiveSQLBenchSciArena Leaderboard
#19	gpt-5-mini-2025-08-07 Strong on SciArena Leaderboard rating_elo and Vals MedQA overall_accuracy_pct	12.7%	19%	—	SciArena LeaderboardVals MedQA
#21	gemini-3.1-pro-preview Strong on Vals LiveCodeBench overall_accuracy_pct and Vals SWE-bench overall_accuracy_pct	12.5%	14%	$4.50	Vals LiveCodeBenchVals SWE-bench
#24	Grok-4-0709 Strong on Galileo Agent Leaderboard v2 Avg TSQ and Galileo Agent Leaderboard v2 Avg AC	11.6%	17%	—	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#25	gemini-2.0-flash-001 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	11.4%	20%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#26	gemini-3-pro-preview Strong on SciArena Leaderboard rating_elo and Vals Mortgage Tax overall_accuracy_pct	11.3%	15%	$4.50	SciArena LeaderboardVals Mortgage Tax
#31	gpt-4.1-20250414 Strong on Galileo Agent Leaderboard v2 Avg AC and Galileo Agent Leaderboard v2 Avg TSQ	10.9%	15%	—	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#35	gemini-2.5-flash Strong on Galileo Agent Leaderboard v2 Avg TSQ and Galileo Agent Leaderboard v2 Avg AC	10.3%	16%	$0.17	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#36	Llama-3.3-70B-Instruct Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	10.3%	15%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#37	gemini-3-flash-preview Strong on Vals Legal Bench overall_accuracy_pct and Vals MedQA overall_accuracy_pct	10.1%	13%	$1.13	Vals Legal BenchVals MedQA
#39	gpt-5.2-2025-12-11 Strong on FACTS Benchmark Suite facts_grounding_score_pct and Vals Tax Eval v2 overall_accuracy_pct	10.0%	12%	—	FACTS Benchmark SuiteVals Tax Eval v2
#40	claude-opus-4-6 Strong on LiveSQLBench success_rate_pct and AgentSet LLM Leaderboard elo_score	9.8%	11%	$10.00	LiveSQLBenchAgentSet LLM Leaderboard
#41	deepseek-v3 Strong on LiveSQLBench success_rate_pct and Galileo Agent Leaderboard v2 Avg AC	9.8%	23%	—	LiveSQLBenchGalileo Agent Leaderboard v2
#42	minimax-m2.1 Strong on LiveSQLBench success_rate_pct and Vals SWE-bench overall_accuracy_pct	9.7%	16%	$0.53	LiveSQLBenchVals SWE-bench
#43	gpt-5.4-2026-03-05 Strong on Vectara HHEM Leaderboard overall_hallucination_error_pct and Vals MedQA overall_accuracy_pct	9.6%	11%	—	Vectara HHEM LeaderboardVals MedQA
#45	gemma-2-27b-it Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	9.4%	16%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#46	Qwen3-30B-A3B Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	9.4%	16%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#47	gpt-5.1-2025-11-13 Strong on Vals Case Law v2 overall_accuracy_pct and Vals MedScribe overall_accuracy_pct	9.3%	12%	—	Vals Case Law v2Vals MedScribe

Compare Models

Select two different models above to compare their evidence side by side.

▶Ranking diagnostics & missing models

Source lift

Ranked

Sources

Quality

Low

Vals Legal Bench

24 rows · 0.5% avg lift

DuckDB NSQL Leaderboard

24 rows · 2.8% avg lift

Vals MedQA

22 rows · 0.5% avg lift

Vals Tax Eval v2

22 rows · 0.5% avg lift

Missing frontier models

grok-4-1-fast-non-reasoning

Thin evidence after weighting

Rank #15

14.9%

▶Taxonomy & task details

Core tasks

task.dashboard_narrativetask.write_memo_brief

Required modes

none

Domains

domain.data_analytics_bi

Related in Data & Analytics

SQL debugging

Diagnose and fix SQL queries for correctness and performance.

Metric definition workshop

Turn ambiguous KPI definitions into precise, measurable specs.

Dashboard narratives

Generate weekly KPI narratives and investigation suggestions.

Chart & Data Visualization Interpretation

Reading charts, graphs, and dashboards to extract insights and answer questions.