Home

FAQ

HuggingFace

LLMAT

Model Performance vs Size

Question Difficulty Map

Leaderboard

Claude 3 Opus

26

2000.0

Claude 3

GPT-4o

25

1800.0

GPT-4

Claude 3.5 Sonnet

24

70.0

Claude 3.5

GPT-4 Turbo 0125-preview

24

1800.0

GPT-4

GPT-4 Turbo 0409

24

1800.0

GPT-4

Gemma 2 27B IT

23

27.0

Gemma

Claude 3 Haiku

23

20.0

Claude 3

Llama 3 70B

23

70.0

Llama 3

Gemini 1.5 Pro

22

70.0

Gemini

✓

Gemini 1.5 Flash

21

20.0

Gemini

Nous Hermes 2 Yi 34b

20

34.0

Yi

GPT 4o mini

20

20.0

GPT-4

Gemma 2 9B IT

20

9.0

Gemma

Claude 3 Sonnet

20

70.0

Claude 3

Yi 1.5 34B Chat

20

34.0

Yi 1.5

Nous Hermes 2 SOLAR 10.7B

19

10.7

Solar

Llama 3 8B Instruct

19

8.0

Llama 3

Gemini Pro 1.0

19

175.0

Gemini

Hermes 2 Theta Llama 3 8B

19

8.0

Llama 3

Yi 1.5 9B Chat

19

9.0

Yi 1.5

Hermes 2 Pro Llama 3

18

8.0

Llama 3

SFR Iterated DPO Llama 3 8B R

18

8.0

Llama 3

Mistral Nemo Instruct 2407

17

12.0

Mistral

Mixtral 34x2 MoE 60b

17

60.0

Mistral

✓

Starling LM 7B Beta

17

7.0

Mistral

GPT-3.5 Turbo 0125

17

175.0

GPT-3.5

Mixtral 11bx2 MoE 19b

16

19.0

Mistral

✓

Llama 3.1 8B Instruct

16

8.0

Llama 3

Kunoichi DPO v2 7B

16

7.0

Mistral

Hermes 2 Pro Mistral 7B

16

7.0

Mistral

Mistral 7B Instruct v0.2

16

7.0

Mistral

Llama 3 Refueled

16

8.0

Llama 3

Phi 3 Mini 4k Instruct

15

3.8

Phi 3

Mistral 7B Instruct v0.3

14

7.0

Mistral

Phi 3 Mini 4k Instruct (2024-07-01)

14

3.8

Phi 3

Neural Hermes 2.5 7B

14

7.0

Mistral

Gemma 1.1 7b IT

14

8.5

Gemma

Command-R v01

13

35.0

C4AI Command-R

Yi 1.5 6B Chat

13

6.0

Yi 1.5

Gemma 7b IT

12

8.5

Gemma

Mixtral 8x7b v0.1 instruct

12

45.0

Mistral

✓

Vicuna 33b Chat

10

33.0

Llama 1

Zephyr 7B

10

7.0

Mistral

Gemma 1.1 2B IT

10

2.5

Gemma

StableLM Zephyr 3B

9

3.0

StableLM

StableLM 2 1.6B Chat

9

1.6

StableLM

H2O Danube 3 4b Chat

6

4.0

H2O Danube

H2O Danube 1.8b Chat

6

1.8

H2O Danube

CodeLlama 13b Instruct

5

13.0

Llama 2

Gemma 2b IT

5

2.5

Gemma

o1-preview

220.0

o1

o1-mini

8.0

o1

TinyLlama v1.0 chat 1.1b

0

1.1

TinyLlama