Education

Grading and feedback assistant

Provide rubric-tagged feedback drafts for educator review.

task.topic_taggingtask.write_report

Evidence quality is currently limited for this use case. Rankings below are useful for exploration, not a strong winner claim.

Provisional leader

gpt-4.1-20250414

Current leader based on limited benchmark evidence. Treat this ranking as directional until coverage improves.

20.8%

Best benchmark score

33.3%

Confidence

All ranked models — top 3

🥇

gpt-4.1-20250414

20.8%

🥈

claude-sonnet-4

17.7%

🥉

gpt-4.1-mini-20250414

17.2%

Ranked Models

Evidence Quality

80%

Evidence Points

Top Signal

OpenVLM TextVQA Official: textvqa_score_pct

All Ranked Models

30 of 30 models

Rank	Model	Score	Confidence	Price / 1M	Evidence sources
🥇	gpt-4.1-20250414 Strong on OpenVLM TextVQA Official textvqa_score_pct and OpenVLM OCRBench Official ocrbench_score_pct	20.8%	33%	—	OpenVLM TextVQA OfficialOpenVLM OCRBench Official
#6	claude-sonnet-4 Strong on LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct and LanguageBench Translation Official (Split) translation_to:bleu	17.7%	25%	$6.00	LanguageBench Grammar/Clarity Official (Split)LanguageBench Translation Official (Split)
#8	gpt-4.1-mini-20250414 Strong on OpenVLM OCRBench Official ocrbench_score_pct and OpenVLM TextVQA Official textvqa_score_pct	17.2%	27%	—	OpenVLM OCRBench OfficialOpenVLM TextVQA Official
#9	Claude-3.5-Sonnet Strong on LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct and OpenVLM OCRBench Official ocrbench_score_pct	17.1%	27%	$6.00	LanguageBench Grammar/Clarity Official (Split)OpenVLM OCRBench Official
#11	gemini-2.5-flash Strong on LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct and LanguageBench Translation Official (Split) translation_to:bleu	16.3%	22%	$0.17	LanguageBench Grammar/Clarity Official (Split)LanguageBench Translation Official (Split)
#12	gpt-5-2025-08-07 Strong on OpenVLM OCRBench Official ocrbench_score_pct and MathArena Models average_score_pct	16.3%	22%	—	OpenVLM OCRBench OfficialMathArena Models
#18	gpt-4o Strong on OpenVLM OCRBench Official ocrbench_score_pct and OpenVLM MTVQA Official mtvqa_score_pct	14.5%	22%	$0.26	OpenVLM OCRBench OfficialOpenVLM MTVQA Official
#28	gemini-2.5-pro Strong on OpenVLM OCRBench Official ocrbench_score_pct and MathArena Models average_score_pct	13.6%	29%	$3.44	OpenVLM OCRBench OfficialMathArena Models
#29	gemini-2.0-flash-001 Strong on LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct and LanguageBench Translation Official (Split) translation_to:bleu	13.4%	17%	—	LanguageBench Grammar/Clarity Official (Split)LanguageBench Translation Official (Split)
#31	gpt-5-mini-2025-08-07 Strong on OpenVLM OCRBench Official ocrbench_score_pct and MathArena Models average_score_pct	13.3%	19%	—	OpenVLM OCRBench OfficialMathArena Models
#33	gpt-4.1 Strong on LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct and LanguageBench Translation Official (Split) translation_to:bleu	12.9%	18%	$3.50	LanguageBench Grammar/Clarity Official (Split)LanguageBench Translation Official (Split)
#42	gemini-3.1-pro-preview Strong on MathArena Models average_score_pct and Vals GPQA overall_accuracy_pct	11.9%	13%	$4.50	MathArena ModelsVals GPQA
#58	gemini-3-pro-preview Strong on Humanity's Last Exam Leaderboard hle_accuracy_pct and Vals GPQA overall_accuracy_pct	10.7%	13%	$4.50	Humanity's Last Exam LeaderboardVals GPQA
#65	deepseek-r1 Strong on SYCON Bench (Table 2) sycon_unethical_tof_pct and DuckDB NSQL Leaderboard all_execution_accuracy	10.4%	22%	$0.27	SYCON Bench (Table 2)DuckDB NSQL Leaderboard
#67	Qwen-VL-Chat Strong on OpenVLM TextVQA Official textvqa_score_pct and OpenVLM OCRVQA Education & Teaching Official ocrvqa_education_teaching_score_pct	10.2%	19%	—	OpenVLM TextVQA OfficialOpenVLM OCRVQA Education & Teaching Official
#69	Llama-3.1-70B-Instruct Strong on LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct and LanguageBench Translation Official (Split) translation_to:bleu	10.1%	18%	—	LanguageBench Grammar/Clarity Official (Split)LanguageBench Translation Official (Split)
#70	qwen-2.5-72b-instruct Strong on Multilingual MMLU Benchmark mmlu and DuckDB NSQL Leaderboard all_execution_accuracy	10.1%	19%	—	Multilingual MMLU BenchmarkDuckDB NSQL Leaderboard
#72	gpt-5.2-2025-12-11 Strong on Vals GPQA overall_accuracy_pct and Humanity's Last Exam Leaderboard hle_accuracy_pct	9.9%	13%	—	Vals GPQAHumanity's Last Exam Leaderboard
#76	o3-20250416 Strong on MathArena Models average_score_pct and Vals GPQA overall_accuracy_pct	9.6%	15%	$3.50	MathArena ModelsVals GPQA
#81	kimi-k2.5-thinking Strong on MathArena Models average_score_pct and Vals GPQA overall_accuracy_pct	9.4%	14%	—	MathArena ModelsVals GPQA
#89	Grok-4-0709 Strong on Vals GPQA overall_accuracy_pct and Galileo Agent Leaderboard v2 Avg TSQ	9.1%	13%	—	Vals GPQAGalileo Agent Leaderboard v2
#90	Llama-3.3-70B-Instruct Strong on LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct and LanguageBench Translation Official (Split) translation_to:bleu	9.1%	12%	—	LanguageBench Grammar/Clarity Official (Split)LanguageBench Translation Official (Split)
#106	GPT-4.1-nano-2025-04-14 Strong on OpenVLM OCRBench Official ocrbench_score_pct and OpenVLM MTVQA Official mtvqa_score_pct	8.0%	14%	—	OpenVLM OCRBench OfficialOpenVLM MTVQA Official
#114	o4-mini Strong on MathArena Models average_score_pct and Vals GPQA overall_accuracy_pct	7.8%	14%	$1.93	MathArena ModelsVals GPQA
#135	Kimi K2 Thinking Strong on MathArena Models average_score_pct and Vals GPQA overall_accuracy_pct	7.0%	11%	$1.07	MathArena ModelsVals GPQA
#139	phi-4 Strong on LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct and DuckDB NSQL Leaderboard all_execution_accuracy	6.8%	13%	—	LanguageBench Grammar/Clarity Official (Split)DuckDB NSQL Leaderboard
#141	gemini-3.1-flash-lite-preview Strong on Vals GPQA overall_accuracy_pct and Vals Mortgage Tax overall_accuracy_pct	6.7%	12%	$0.56	Vals GPQAVals Mortgage Tax
#157	gpt-4o-mini-2024-07-18 Strong on DuckDB NSQL Leaderboard all_execution_accuracy and LLM Trustworthy Leaderboard privacy	4.9%	10%	—	DuckDB NSQL LeaderboardLLM Trustworthy Leaderboard
#160	Meta-Llama-3-8B-Instruct Strong on Multilingual MMLU Benchmark mmlu and LLM Trustworthy Leaderboard fairness	4.3%	11%	—	Multilingual MMLU BenchmarkLLM Trustworthy Leaderboard
#163	Phi-4-multimodal-instruct Strong on LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct and LanguageBench mmlu:accuracy	3.0%	10%	—	LanguageBench Grammar/Clarity Official (Split)LanguageBench

Compare Models

Select two different models above to compare their evidence side by side.

▶Ranking diagnostics & missing models

Source lift

Ranked

Sources

Quality

Low

Vals GPQA

17 rows · 1.1% avg lift

Vals Mortgage Tax

16 rows · 0.3% avg lift

Vals MedQA

15 rows · 0.3% avg lift

Vals Legal Bench

15 rows · 0.3% avg lift

Missing frontier models

claude-opus-4-5-20251101

Thin evidence after weighting

Rank #10

18.6%

claude-sonnet-4.6

Thin evidence after weighting

Rank #11

20.0%

grok-4-1-fast-reasoning

Thin evidence after weighting

Rank #12

19.5%

grok-4-1-fast-non-reasoning

Thin evidence after weighting

Rank #15

14.9%

▶Taxonomy & task details

Core tasks

task.topic_taggingtask.write_report

Required modes

mode.json_schema

Domains

domain.education_tutoring

Related in Education

Language conversation partner

Conversational practice with gentle corrections and explanations.

Grammar and writing coach

Correct grammar and explain fixes at the learner's level.

Exercise generator

Generate practice problems with solutions and hints by difficulty level.

Lesson plan generator

Generate lesson plans with objectives, activities, and assessments.