Data & Analytics

Insight mining from text corpora

Extract themes and actions from large text datasets.

task.insight_mining

Evidence quality is currently limited for this use case. Rankings below are useful for exploration, not a strong winner claim.

Provisional leader

gpt-4o

Current leader based on limited benchmark evidence. Treat this ranking as directional until coverage improves.

22.8%

Best benchmark score

37.8%

Confidence

All ranked models — top 3

🥇

gpt-4o

22.8%

🥈

qwen-2.5-72b-instruct

21.8%

🥉

deepseek-r1

20.5%

Ranked Models

Evidence Quality

80%

Evidence Points

Top Signal

DuckDB NSQL Leaderboard: all_execution_accuracy

All Ranked Models

30 of 30 models

Rank	Model	Score	Confidence	Price / 1M	Evidence sources
🥇	gpt-4o Strong on DuckDB NSQL Leaderboard all_execution_accuracy and JSONSchemaBench Leaderboard medium_schema_compliance_pct	22.8%	38%	$0.26	DuckDB NSQL LeaderboardJSONSchemaBench Leaderboard
🥈	qwen-2.5-72b-instruct Strong on DuckDB NSQL Leaderboard all_execution_accuracy and JSONSchemaBench Leaderboard medium_schema_compliance_pct	21.8%	32%	—	DuckDB NSQL LeaderboardJSONSchemaBench Leaderboard
🥉	deepseek-r1 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and LiveSQLBench success_rate_pct	20.5%	34%	$0.27	DuckDB NSQL LeaderboardLiveSQLBench
#4	gpt-5-2025-08-07 Strong on LiveSQLBench success_rate_pct and Spider2.0 Snow Text-to-SQL snow_text_to_sql_score_pct	19.0%	25%	—	LiveSQLBenchSpider2.0 Snow Text-to-SQL
#6	gpt-4o-20241120 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	18.3%	30%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#8	o3-20250416 Strong on LiveSQLBench success_rate_pct and Spider2.0 Snow Text-to-SQL snow_text_to_sql_score_pct	18.0%	27%	$3.50	LiveSQLBenchSpider2.0 Snow Text-to-SQL
#9	claude-sonnet-4 Strong on LiveSQLBench success_rate_pct and Galileo Agent Leaderboard v2 Avg AC	17.1%	28%	$6.00	LiveSQLBenchGalileo Agent Leaderboard v2
#10	Claude-3.5-Sonnet Strong on DuckDB NSQL Leaderboard all_execution_accuracy and LLM-AggreFact Leaderboard average_score_pct	17.1%	23%	$6.00	DuckDB NSQL LeaderboardLLM-AggreFact Leaderboard
#12	gpt-4.1 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and SciArena Leaderboard rating_elo	14.9%	20%	$3.50	DuckDB NSQL LeaderboardSciArena Leaderboard
#14	gpt-4o-mini-2024-07-18 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	13.1%	22%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#16	gpt-4o-2024-08-06 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	12.5%	20%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#20	gemini-2.5-pro Strong on Galileo Agent Leaderboard v2 Avg AC and Galileo Agent Leaderboard v2 Avg TSQ	11.6%	19%	$3.44	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#21	o4-mini Strong on LiveSQLBench success_rate_pct and SciArena Leaderboard rating_elo	11.3%	19%	$1.93	LiveSQLBenchSciArena Leaderboard
#22	gpt-4.1-20250414 Strong on MMLongBench-Doc Leaderboard acc_score_pct and Galileo Agent Leaderboard v2 Avg AC	11.3%	17%	—	MMLongBench-Doc LeaderboardGalileo Agent Leaderboard v2
#23	gemini-3-pro-preview Strong on BFCL Multi-turn Official Multi Turn Acc and SciArena Leaderboard rating_elo	11.2%	15%	$4.50	BFCL Multi-turn OfficialSciArena Leaderboard
#25	gpt-5-mini-2025-08-07 Strong on SciArena Leaderboard rating_elo and Vals MedQA overall_accuracy_pct	10.6%	16%	—	SciArena LeaderboardVals MedQA
#26	Grok-4-0709 Strong on Galileo Agent Leaderboard v2 Avg TSQ and Galileo Agent Leaderboard v2 Avg AC	10.6%	16%	—	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#27	gemini-3.1-pro-preview Strong on Vals LiveCodeBench overall_accuracy_pct and Vals SWE-bench overall_accuracy_pct	10.5%	12%	$4.50	Vals LiveCodeBenchVals SWE-bench
#33	gemini-2.0-flash-001 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	10.3%	19%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#36	Llama-3.3-70B-Instruct Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	10.0%	14%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#39	gpt-5.2-2025-12-11 Strong on BFCL Multi-turn Official Multi Turn Acc and FACTS Benchmark Suite facts_grounding_score_pct	9.6%	12%	—	BFCL Multi-turn OfficialFACTS Benchmark Suite
#41	gemini-2.5-flash Strong on Galileo Agent Leaderboard v2 Avg TSQ and Galileo Agent Leaderboard v2 Avg AC	9.1%	15%	$0.17	Galileo Agent Leaderboard v2Galileo Agent Leaderboard v2
#43	Qwen3-30B-A3B Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	9.1%	15%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#44	gemma-2-27b-it Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	9.0%	15%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#45	phi-4 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and Vectara HHEM Leaderboard overall_hallucination_error_pct	8.8%	15%	—	DuckDB NSQL LeaderboardVectara HHEM Leaderboard
#46	Qwen3-32B Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	8.6%	14%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#48	gemini-3-flash-preview Strong on Vals Legal Bench overall_accuracy_pct and Vals MedQA overall_accuracy_pct	8.5%	11%	$1.13	Vals Legal BenchVals MedQA
#49	Qwen2.5-Coder-7B Strong on DuckDB NSQL Leaderboard all_execution_accuracy and DuckDB NSQL Leaderboard hard_execution_accuracy	8.4%	12%	—	DuckDB NSQL LeaderboardDuckDB NSQL Leaderboard
#50	deepseek-v3 Strong on LiveSQLBench success_rate_pct and Galileo Agent Leaderboard v2 Avg AC	8.2%	20%	—	LiveSQLBenchGalileo Agent Leaderboard v2
#52	minimax-m2.1 Strong on LiveSQLBench success_rate_pct and Vals SWE-bench overall_accuracy_pct	8.1%	13%	$0.53	LiveSQLBenchVals SWE-bench

Compare Models

Select two different models above to compare their evidence side by side.

▶Ranking diagnostics & missing models

Source lift

Ranked

Sources

Quality

Low

DuckDB NSQL Leaderboard

24 rows · 2.6% avg lift

Vals Legal Bench

22 rows · 0.4% avg lift

Vals MedQA

19 rows · 0.4% avg lift

Vals LiveCodeBench

19 rows · 0.4% avg lift

Missing frontier models

claude-sonnet-4.6

Thin evidence after weighting

Rank #11

20.0%

▶Taxonomy & task details

Core tasks

task.insight_mining

Required modes

mode.long_context

Domains

domain.data_analytics_bi

Related in Data & Analytics

SQL debugging

Diagnose and fix SQL queries for correctness and performance.

Metric definition workshop

Turn ambiguous KPI definitions into precise, measurable specs.

Dashboard narratives

Generate weekly KPI narratives and investigation suggestions.

Chart & Data Visualization Interpretation

Reading charts, graphs, and dashboards to extract insights and answer questions.