Creative

Long-form story co-author

Generate and refine long-form fiction with continuity.

task.creative_story_longformtask.worldbuilding_lore_bible

Evidence quality is currently limited for this use case. Rankings below are useful for exploration, not a strong winner claim.

Provisional leader

Grok-4-0709

Current leader based on limited benchmark evidence. Treat this ranking as directional until coverage improves.

27.6%

Best benchmark score

37.5%

Confidence

All ranked models — top 3

🥇

Grok-4-0709

27.6%

🥈

gemini-3-pro-preview

26.1%

🥉

gemini-2.5-pro

25.9%

Ranked Models

Evidence Quality

82%

Evidence Points

Top Signal

UGI Leaderboard: Writing ✍️

All Ranked Models

30 of 30 models

Rank	Model	Score	Confidence	Price / 1M	Evidence sources
🥇	Grok-4-0709 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	27.6%	38%	—	UGI LeaderboardUGI Leaderboard
🥈	gemini-3-pro-preview Strong on BFCL Multi-turn Official Multi Turn Acc and UGI Leaderboard Writing ✍️	26.1%	33%	$4.50	BFCL Multi-turn OfficialUGI Leaderboard
🥉	gemini-2.5-pro Strong on UGI Leaderboard Writing ✍️ and MWS Vision Bench validation_overall_score	25.9%	36%	$3.44	UGI LeaderboardMWS Vision Bench
#4	gpt-4.1-20250414 Strong on UGI Leaderboard Writing ✍️ and MMLongBench-Doc Leaderboard acc_score_pct	25.4%	39%	—	UGI LeaderboardMMLongBench-Doc Leaderboard
#5	gpt-5-2025-08-07 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	23.7%	30%	—	UGI LeaderboardUGI Leaderboard
#6	o3-20250416 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	23.1%	34%	$3.50	UGI LeaderboardUGI Leaderboard
#7	claude-sonnet-4 Strong on UGI Leaderboard Writing ✍️ and Galileo Agent Leaderboard v2 Avg AC	22.8%	32%	$6.00	UGI LeaderboardGalileo Agent Leaderboard v2
#8	gemini-3.1-pro-preview Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	22.5%	26%	$4.50	UGI LeaderboardUGI Leaderboard
#9	gemini-3-flash-preview Strong on UGI Leaderboard Writing ✍️ and MWS Vision Bench validation_overall_score	21.6%	28%	$1.13	UGI LeaderboardMWS Vision Bench
#10	gpt-5.2-2025-12-11 Strong on BFCL Multi-turn Official Multi Turn Acc and UGI Leaderboard Writing ✍️	21.3%	31%	—	BFCL Multi-turn OfficialUGI Leaderboard
#11	grok-4-1-fast-reasoning Strong on BFCL Multi-turn Official Multi Turn Acc and UGI Leaderboard Writing ✍️	21.1%	31%	$0.28	BFCL Multi-turn OfficialUGI Leaderboard
#13	gpt-5.4-2026-03-05 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	19.2%	22%	—	UGI LeaderboardUGI Leaderboard
#14	claude-sonnet-4.6 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	18.8%	22%	$6.00	UGI LeaderboardUGI Leaderboard
#15	claude-opus-4-5-20251101 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	18.5%	30%	—	UGI LeaderboardUGI Leaderboard
#16	qwen-2.5-72b-instruct Strong on EQ-Bench Leaderboard judgemark_score and Galileo Agent Leaderboard v2 Avg AC	18.2%	33%	—	EQ-Bench LeaderboardGalileo Agent Leaderboard v2
#18	kimi-k2.5-thinking Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	17.7%	22%	—	UGI LeaderboardUGI Leaderboard
#19	o4-mini Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	17.1%	32%	$1.93	UGI LeaderboardUGI Leaderboard
#20	Kimi-K2-Instruct Strong on BFCL Multi-turn Official Multi Turn Acc and UGI Leaderboard Entertainment	17.0%	23%	—	BFCL Multi-turn OfficialUGI Leaderboard
#21	gpt-5.1-2025-11-13 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	16.8%	23%	—	UGI LeaderboardUGI Leaderboard
#22	gemini-2.5-flash Strong on MWS Vision Bench validation_overall_score and Galileo Agent Leaderboard v2 Avg TSQ	16.6%	27%	$0.17	MWS Vision BenchGalileo Agent Leaderboard v2
#23	gpt-5-mini-2025-08-07 Strong on MWS Vision Bench validation_overall_score and Vals MedQA overall_accuracy_pct	16.5%	24%	—	MWS Vision BenchVals MedQA
#25	gpt-4o Strong on EQ-Bench Leaderboard judgemark_score and MEGA-Bench overall_score	16.4%	23%	$0.26	EQ-Bench LeaderboardMEGA-Bench
#26	GLM-4.6 Strong on BFCL Multi-turn Official Multi Turn Acc and UGI Leaderboard Entertainment	15.7%	19%	—	BFCL Multi-turn OfficialUGI Leaderboard
#27	grok-4-fast-reasoning Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	15.7%	25%	$0.28	UGI LeaderboardUGI Leaderboard
#28	grok-4-1-fast-non-reasoning Strong on BFCL Multi-turn Official Multi Turn Acc and UGI Leaderboard Writing ✍️	15.5%	29%	$0.28	BFCL Multi-turn OfficialUGI Leaderboard
#30	Kimi K2 Thinking Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	14.9%	21%	$1.07	UGI LeaderboardUGI Leaderboard
#32	grok-3 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	14.0%	18%	$6.00	UGI LeaderboardUGI Leaderboard
#35	claude-opus-4 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	13.4%	18%	$10.00	UGI LeaderboardUGI Leaderboard
#36	claude-opus-4-1-20250805 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	13.3%	20%	—	UGI LeaderboardUGI Leaderboard
#39	claude-opus-4-6 Strong on UGI Leaderboard Writing ✍️ and UGI Leaderboard Entertainment	12.8%	15%	$10.00	UGI LeaderboardUGI Leaderboard