Model Profile

Meta-Llama-3-8B-Instruct

Name: Meta-Llama-3-8B-Instruct
Rating: 2.0 (62 reviews)
Author: meta-llama

4,096 ctxOpen weights

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: meta-llama/Meta-Llama-3-8B-Instruct

Author: meta-llama

Origin: huggingface_catalog

Arch: unknown

Benchmark Coverage

Scored use cases: 12

Avg confidence: 22.7%

Evidence points: 62

Raw rows: 45

Weighted rows: 11

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 1,394,471

Intelligence Profile

Dimension Breakdown

IQ0 benchmarks

No iq benchmarks found

Insufficient data

EQ1 benchmark

76.8%*

Accuracy0 benchmarks

No accuracy benchmarks found

Insufficient data

Creativity0 benchmarks

No creativity benchmarks found

Insufficient data

Based1 benchmark

100.0%*

* Low confidence — limited benchmark evidence for this dimension

2/5 dimensions scored · Last updated Apr 21, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

LLM Trustworthy Leaderboard

adv

4.3%

Normalized value 100.0% · confidence 100.0%

Strongest impact in Overrefusal (eval)

llm_trustworthy_leaderboard.adv · Mar 31, 2026

EQ-Bench Leaderboard

eq_bench_score

3.4%

Normalized value 76.8% · confidence 100.0%

Strongest impact in Social post generation

eq_bench.eq_bench_score · Apr 1, 2026

LLM Trustworthy Leaderboard

privacy

3.3%

Normalized value 69.0% · confidence 100.0%

Strongest impact in Overrefusal (eval)

llm_trustworthy_leaderboard.privacy · Mar 31, 2026

LLM Trustworthy Leaderboard

fairness

2.6%

Normalized value 46.8% · confidence 100.0%

Strongest impact in Overrefusal (eval)

llm_trustworthy_leaderboard.fairness · Mar 31, 2026

LLM Trustworthy Leaderboard

toxicity

1.5%

Normalized value 50.0% · confidence 100.0%

Strongest impact in Overrefusal (eval)

llm_trustworthy_leaderboard.toxicity · Mar 31, 2026

DuckDB NSQL Leaderboard

all_execution_accuracy

0.4%

Normalized value 32.7% · confidence 100.0%

Strongest impact in Social post generation

duckdb_nsql_leaderboard.all_execution_accuracy · Apr 1, 2026

Some fit rows have limited benchmark evidence.

7 of 12 scored use cases have low confidence or thin contributor coverage.

Coverage Diagnostics

actively scored

Use-Case Scores

Total Measurements

Weighted Measurements

Weighted Sources

Raw Source Coverage

multilingual_mmlu_leaderboard 17duckdb_nsql_leaderboard 12llm_trustworthy_leaderboard 8icelandic_llm_leaderboard 7eq_bench 1

Weighted Source Coverage

llm_trustworthy_leaderboard 5duckdb_nsql_leaderboard 2multilingual_mmlu_leaderboard 2eq_bench 1icelandic_llm_leaderboard 1

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Overrefusal (eval) use_case.security.overrefusal_eval	risk_eval	20.3%	31.2%	6	LLM Trustworthy Leaderboard: adv
Scam and social engineering resistance (eval) use_case.security.scam_social_engineering_resistance_eval	risk_eval	20.3%	31.2%	6	LLM Trustworthy Leaderboard: adv
Jailbreak resistance (eval) use_case.security.jailbreak_resistance_eval	risk_eval	20.3%	31.2%	6	LLM Trustworthy Leaderboard: adv
Refusal profile (eval) use_case.security.refusal_profile_eval	risk_eval	20.3%	31.2%	6	LLM Trustworthy Leaderboard: adv
Crisis escalation protocol (eval) use_case.safety.crisis_escalation_protocol	risk_eval	20.3%	31.2%	6	LLM Trustworthy Leaderboard: adv
Vulnerability-oriented code review use_case.cyber.vulnerability_review	cybersecurity	12.3%	18.6%	6	LLM Trustworthy Leaderboard: adv
Disinformation and manipulation resistance (eval) use_case.security.disinformation_resistance_eval	risk_eval	10.8%	16.6%	6	LLM Trustworthy Leaderboard: adv
Social post generation use_case.mkt.social_post_generation	marketing_sales	10.0%	16.6%	4	EQ-Bench Leaderboard: eq_bench_score
Campaign brief use_case.mkt.campaign_brief	marketing_sales	10.0%	16.6%	4	EQ-Bench Leaderboard: eq_bench_score
Product positioning and messaging use_case.mkt.product_positioning	marketing_sales	10.0%	16.6%	4	EQ-Bench Leaderboard: eq_bench_score
Ad copy variants use_case.mkt.ad_copy_variants	marketing_sales	9.4%	15.7%	4	EQ-Bench Leaderboard: eq_bench_score
Personalized sales outreach use_case.mkt.sales_outreach_personalized	marketing_sales	9.4%	15.7%	4	EQ-Bench Leaderboard: eq_bench_score