Data & Analytics

Data quality assistant

Propose validation checks and likely data issues from schema and symptoms.

task.data_quality_checks_text

Evidence quality is currently limited for this use case. Rankings below are useful for exploration, not a strong winner claim.

Provisional leader

gpt-4o

Current leader based on limited benchmark evidence. Treat this ranking as directional until coverage improves.

24.2%

Best benchmark score

43.5%

Confidence

All ranked models — top 3

🥇

gpt-4o

24.2%

🥈

deepseek-r1

23.8%

🥉

gpt-5-2025-08-07

23.2%

Ranked Models

Evidence Quality

81%

Evidence Points

Top Signal

DuckDB NSQL Leaderboard: all_execution_accuracy

All Ranked Models

30 of 30 models

Rank	Model	Score	Confidence	Price / 1M	Evidence sources
🥇	gpt-4o Strong on DuckDB NSQL Leaderboard all_execution_accuracy and JSONSchemaBench Leaderboard medium_schema_compliance_pct	24.2%	44%	$0.26	DuckDB NSQL LeaderboardJSONSchemaBench Leaderboard
🥈	deepseek-r1 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and LiveSQLBench success_rate_pct	23.8%	41%	$0.27	DuckDB NSQL LeaderboardLiveSQLBench
🥉	gpt-5-2025-08-07 Strong on LiveSQLBench success_rate_pct and Spider2.0 Snow Text-to-SQL snow_text_to_sql_score_pct	23.2%	31%	—	LiveSQLBenchSpider2.0 Snow Text-to-SQL
#4	claude-sonnet-4 Strong on LiveSQLBench success_rate_pct and Galileo Agent Leaderboard v2 Avg AC	22.6%	37%	$6.00	LiveSQLBenchGalileo Agent Leaderboard v2
#7	o3-20250416 Strong on LiveSQLBench success_rate_pct and Spider2.0 Snow Text-to-SQL snow_text_to_sql_score_pct	21.1%	31%	$3.50	LiveSQLBenchSpider2.0 Snow Text-to-SQL
#8	qwen-2.5-72b-instruct Strong on DuckDB NSQL Leaderboard all_execution_accuracy and JSONSchemaBench Leaderboard medium_schema_compliance_pct	20.7%	30%	—	DuckDB NSQL LeaderboardJSONSchemaBench Leaderboard
#9	gpt-4o-20241120 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	20.1%	34%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#11	gpt-4.1 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and Aider Polyglot Leaderboard percent_correct_pct	16.3%	22%	$3.50	DuckDB NSQL LeaderboardAider Polyglot Leaderboard
#12	gpt-4o-mini-2024-07-18 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	15.7%	27%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#14	Claude-3.5-Sonnet Strong on DuckDB NSQL Leaderboard all_execution_accuracy and LanguageBench mmlu:accuracy	14.9%	23%	$6.00	DuckDB NSQL LeaderboardLanguageBench
#15	gpt-4o-2024-08-06 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	14.7%	24%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#16	gemini-2.5-pro Strong on Galileo Agent Leaderboard v2 Avg AC and Galileo Agent Leaderboard v2 Avg TSQ	14.1%	23%	$3.44	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#19	gemini-3.1-pro-preview Strong on Vals Mortgage Tax overall_accuracy_pct and Vals LiveCodeBench overall_accuracy_pct	13.9%	15%	$4.50	Vals Mortgage TaxVals LiveCodeBench
#21	o4-mini Strong on LiveSQLBench success_rate_pct and Aider Polyglot Leaderboard percent_correct_pct	13.1%	20%	$1.93	LiveSQLBenchAider Polyglot Leaderboard
#22	Grok-4-0709 Strong on Galileo Agent Leaderboard v2 Avg TSQ and Galileo Agent Leaderboard v2 Avg AC	12.8%	18%	—	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#23	gemini-2.0-flash-001 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	12.6%	23%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#24	gpt-5-mini-2025-08-07 Strong on Vals MedQA overall_accuracy_pct and Vals LiveCodeBench overall_accuracy_pct	12.5%	18%	—	Vals MedQAVals LiveCodeBench
#28	gpt-4.1-20250414 Strong on Galileo Agent Leaderboard v2 Avg AC and Galileo Agent Leaderboard v2 Avg TSQ	12.1%	17%	—	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#32	Llama-3.3-70B-Instruct Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	11.4%	16%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#33	gemini-3-flash-preview Strong on Vals Legal Bench overall_accuracy_pct and Vals MedQA overall_accuracy_pct	11.2%	14%	$1.13	Vals Legal BenchVals MedQA
#35	gpt-5.2-2025-12-11 Strong on FACTS Benchmark Suite facts_grounding_score_pct and Vals Tax Eval v2 overall_accuracy_pct	11.1%	13%	—	FACTS Benchmark SuiteVals Tax Eval v2
#36	claude-opus-4-6 Strong on LiveSQLBench success_rate_pct and AgentSet LLM Leaderboard elo_score	10.9%	12%	$10.00	LiveSQLBenchAgentSet LLM Leaderboard
#37	deepseek-v3 Strong on LiveSQLBench success_rate_pct and Galileo Agent Leaderboard v2 Avg AC	10.9%	26%	—	LiveSQLBenchGalileo Agent Leaderboard v2
#38	gemini-3-pro-preview Strong on Vals Mortgage Tax overall_accuracy_pct and Vals Legal Bench overall_accuracy_pct	10.8%	14%	$4.50	Vals Mortgage TaxVals Legal Bench
#39	minimax-m2.1 Strong on LiveSQLBench success_rate_pct and Vals SWE-bench overall_accuracy_pct	10.8%	17%	$0.53	LiveSQLBenchVals SWE-bench
#41	gemini-2.5-flash Strong on Galileo Agent Leaderboard v2 Avg TSQ and Galileo Agent Leaderboard v2 Avg AC	10.6%	15%	$0.17	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#42	gpt-5.4-2026-03-05 Strong on Vectara HHEM Leaderboard overall_hallucination_error_pct and Vals MedQA overall_accuracy_pct	10.6%	12%	—	Vectara HHEM LeaderboardVals MedQA
#44	gemma-2-27b-it Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	10.4%	18%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#45	Qwen3-30B-A3B Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	10.4%	18%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#46	gpt-5.1-2025-11-13 Strong on Vals Case Law v2 overall_accuracy_pct and Vals MedScribe overall_accuracy_pct	10.3%	13%	—	Vals Case Law v2Vals MedScribe

Compare Models

Select two different models above to compare their evidence side by side.

▶Ranking diagnostics & missing models

Source lift

Ranked

Sources

Quality

Low

Vals Legal Bench

36 rows · 0.5% avg lift

Vals MedQA

34 rows · 0.6% avg lift

Vals Tax Eval v2

34 rows · 0.5% avg lift

Vals LiveCodeBench

34 rows · 0.5% avg lift

Missing frontier models

No obvious gaps right now.

▶Taxonomy & task details

Core tasks

task.data_quality_checks_text

Required modes

none

Domains

domain.data_analytics_bi

Related in Data & Analytics

SQL debugging

Diagnose and fix SQL queries for correctness and performance.

Metric definition workshop

Turn ambiguous KPI definitions into precise, measurable specs.

Dashboard narratives

Generate weekly KPI narratives and investigation suggestions.

Chart & Data Visualization Interpretation

Reading charts, graphs, and dashboards to extract insights and answer questions.