Singularity List

Performance comparison of leading large language models across standard benchmarks.

GPT-4

Claude 2

Llama 2 (70B)

PaLM 2

GPT-3.5

Massive Multitask Language Understanding - tests knowledge across 57 subjects.

Top Score: 89.4% (GPT-4)

Evaluates code generation capabilities on programming problems.

Top Score: 84.9% (GPT-4)

Grade school math problems requiring multi-step reasoning.

Top Score: 92.0% (Claude 2)

Common sense reasoning about everyday situations.

Top Score: 95.3% (GPT-4)

Select models to compare their performance across different benchmarks.

Model 1:

Model 2:

AI Model Performance Analytics