Model Profile

phi-4

Name: phi-4
Rating: 1.2 (90 reviews)
Author: microsoft

4,096 ctxOpen weights

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: microsoft/phi-4

Author: microsoft

Origin: huggingface_catalog

Arch: unknown

Benchmark Coverage

Scored use cases: 12

Avg confidence: 19.0%

Evidence points: 90

Raw rows: 114

Weighted rows: 24

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 572,008

Intelligence Profile

Dimension Breakdown

IQ0 benchmarks

No iq benchmarks found

Insufficient data

EQ0 benchmarks

No eq benchmarks found

Insufficient data

Accuracy0 benchmarks

No accuracy benchmarks found

Insufficient data

Creativity2 benchmarks

25.6%*

Based1 benchmark

24.0%*

* Low confidence — limited benchmark evidence for this dimension

2/5 dimensions scored · Last updated Apr 21, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

DuckDB NSQL Leaderboard

all_execution_accuracy

6.8%

Normalized value 65.4% · confidence 100.0%

Strongest impact in Metric definition workshop

duckdb_nsql_leaderboard.all_execution_accuracy · Apr 1, 2026

Vectara HHEM Leaderboard

overall_hallucination_error_pct

3.1%

Normalized value 91.2% · confidence 100.0%

Strongest impact in Meeting Summarization

vectara_hhem_leaderboard.overall_hallucination_error_pct · Apr 1, 2026

LanguageBench

overall:mean

3.1%

Normalized value 59.6% · confidence 100.0%

Strongest impact in Archaic and historical translation

languagebench.overall_mean · Apr 1, 2026

LanguageBench Grammar/Clarity Official (Split)

grammar_clarity_score_pct

2.5%

Normalized value 66.0% · confidence 100.0%

Strongest impact in Text tagging and routing

languagebench_grammar_clarity_official.grammar_clarity_score_pct · Apr 1, 2026

LanguageBench Translation Official (Split)

translation_to:bleu

1.7%

Normalized value 23.0% · confidence 100.0%

Strongest impact in Archaic and historical translation

languagebench_translation_official.translation_to_bleu · Apr 1, 2026

Vectara HHEM Leaderboard

law_hallucination_error_pct

1.7%

Normalized value 91.5% · confidence 100.0%

Strongest impact in Legal translation

vectara_hhem_leaderboard.law_hallucination_error_pct · Apr 1, 2026

Some fit rows have limited benchmark evidence.

11 of 12 scored use cases have low confidence or thin contributor coverage.

Coverage Diagnostics

actively scored

Use-Case Scores

Total Measurements

114

Weighted Measurements

Weighted Sources

Raw Source Coverage

ugi_main 60vectara_hhem_leaderboard 21duckdb_nsql_leaderboard 12languagebench 10languagebench_grammar_clarity_official 4languagebench_translation_official 4

Weighted Source Coverage

vectara_hhem_leaderboard 12languagebench 3languagebench_translation_official 3ugi_main 3duckdb_nsql_leaderboard 2languagebench_grammar_clarity_official 1

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Metric definition workshop use_case.data.metric_definition_workshop	data_analytics	11.6%	21.2%	6	DuckDB NSQL Leaderboard: all_execution_accuracy
Legal translation use_case.legal.legal_translation	legal	11.2%	24.6%	10	LanguageBench: overall:mean
Archaic and historical translation use_case.history.archaic_translation	history_linguistics	10.9%	27.5%	9	LanguageBench: overall:mean
Multilingual Customer Support use_case.cx.multilingual_support	customer_experience	10.4%	18.0%	8	Vectara HHEM Leaderboard: overall_hallucination_error_pct
Translation and localization use_case.business.translation_localization	business_productivity	10.4%	19.1%	9	LanguageBench Grammar/Clarity Official (Split): grammar_clarity_score_pct
Text-to-SQL analyst assistant use_case.data.text_to_sql	data_analytics	10.4%	18.6%	6	DuckDB NSQL Leaderboard: all_execution_accuracy
Data quality assistant use_case.data.data_quality_assistant	data_analytics	10.2%	17.9%	6	DuckDB NSQL Leaderboard: all_execution_accuracy
Political risk brief use_case.geo.political_risk_brief	geopolitics	9.9%	17.4%	6	Vectara HHEM Leaderboard: overall_hallucination_error_pct
SQL debugging use_case.data.sql_debugging	data_analytics	9.7%	19.4%	6	DuckDB NSQL Leaderboard: all_execution_accuracy
Cross-lingual summary use_case.business.cross_lingual_summary	business_productivity	9.7%	17.0%	9	Vectara HHEM Leaderboard: overall_hallucination_error_pct
Meeting Summarization use_case.business.meeting_summarization	business_productivity	9.6%	13.2%	7	Vectara HHEM Leaderboard: overall_hallucination_error_pct
Text tagging and routing use_case.business.text_tagging	business_productivity	9.2%	14.7%	8	LanguageBench Grammar/Clarity Official (Split): grammar_clarity_score_pct