최근 Deepseek모델 발표후 모델의 성능과 관련하여 큰 파장이 있었다.
그와 관련하여 대중적으로 사용하는 평가지표들을 확인 해 보자!
평가지표에는 아래와 같이 다양한 사항들이 있다.
출처 : https://huggingface.co/deepseek-ai/DeepSeek-R1
Category | Benchmark (Metric) | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
---|---|---|---|---|---|---|---|
Architecture | – | – | MoE | – | – | MoE | |
# Activated Params | – | – | 37B | – | – | 37B | |
# Total Params | – | – | 671B | – | – | 671B | |
English | MMLU (Pass@1) | 88.3 | 87.2 | 88.5 | 85.2 | 91.8 | 90.8 |
MMLU-Redux (EM) | 88.9 | 88.0 | 89.1 | 86.7 | – | 92.9 | |
MMLU-Pro (EM) | 78.0 | 72.6 | 75.9 | 80.3 | – | 84.0 | |
DROP (3-shot F1) | 88.3 | 83.7 | 91.6 | 83.9 | 90.2 | 92.2 | |
IF-Eval (Prompt Strict) | 86.5 | 84.3 | 86.1 | 84.8 | – | 83.3 | |
GPQA-Diamond (Pass@1) | 65.0 | 49.9 | 59.1 | 60.0 | 75.7 | 71.5 | |
SimpleQA (Correct) | 28.4 | 38.2 | 24.9 | 7.0 | 47.0 | 30.1 | |
FRAMES (Acc.) | 72.5 | 80.5 | 73.3 | 76.9 | – | 82.5 | |
AlpacaEval2.0 (LC-winrate) | 52.0 | 51.1 | 70.0 | 57.8 | – | 87.6 | |
ArenaHard (GPT-4-1106) | 85.2 | 80.4 | 85.5 | 92.0 | – | 92.3 | |
Code | LiveCodeBench (Pass@1-COT) | 33.8 | 34.2 | – | 53.8 | 63.4 | 65.9 |
Codeforces (Percentile) | 20.3 | 23.6 | 58.7 | 93.4 | 96.6 | 96.3 | |
Codeforces (Rating) | 717 | 759 | 1134 | 1820 | 2061 | 2029 | |
SWE Verified (Resolved) | 50.8 | 38.8 | 42.0 | 41.6 | 48.9 | 49.2 | |
Aider-Polyglot (Acc.) | 45.3 | 16.0 | 49.6 | 32.9 | 61.7 | 53.3 | |
Math | AIME 2024 (Pass@1) | 16.0 | 9.3 | 39.2 | 63.6 | 79.2 | 79.8 |
MATH-500 (Pass@1) | 78.3 | 74.6 | 90.2 | 90.0 | 96.4 | 97.3 | |
CNMO 2024 (Pass@1) | 13.1 | 10.8 | 43.2 | 67.6 | – | 78.8 | |
Chinese | CLUEWSC (EM) | 85.4 | 87.9 | 90.9 | 89.9 | – | 92.8 |
C-Eval (EM) | 76.7 | 76.0 | 86.5 | 68.9 | – | 91.8 | |
C-SimpleQA (Correct) | 55.4 | 58.7 | 68.0 | 40.3 | – | 63.7 |
1. MMLU (Massive Multitask Language Understanding)
✅ 개요
- 다양한 학문 분야(57개)에서 다중 선택형 문제(Multiple Choice Question, MCQ)를 통해 LLM의 지식을 평가하는 벤치마크.
- 모델이 얼마나 잘 사전 지식을 활용하고 문제를 해결할 수 있는지를 측정하는 대표적인 테스트.
- Pass@1(모델이 첫 번째 시도에서 정답을 맞힐 확률)로 평가됨.
✅ 특징
- 여러 개의 정답 옵션 중 하나를 선택하는 객관식 문제(MCQ) 형식
- 데이터셋이 크고, 일반적인 AI 평가에 많이 사용됨
- OpenAI GPT-4, Claude, Gemini, Llama 등 대부분의 최신 모델이 MMLU 점수를 기준으로 비교됨
- 문제 난이도: 중간~어려움
2. MMLU-Redux
✅ 개요
- MMLU의 변형 버전으로, 데이터 품질을 개선하고 더 공정한 평가를 제공하기 위해 설계됨.
EM (Exact Match)
기준을 사용하여 정답과 모델의 답이 정확히 일치해야 함.
✅ 특징
- 기존 MMLU에서 데이터 품질이 낮거나 문제가 있는 질문을 수정 또는 제거
- Pass@1 대신 EM(Exact Match, 완전 일치) 기준 사용 → 모델의 답이 정답과 100% 일치해야 점수를 받음
- LLM 평가의 신뢰성을 높이기 위한 개선된 벤치마크
- 문제 난이도: 중간~어려움 (MMLU와 유사)
3. MMLU-Pro
✅ 개요
- MMLU보다 훨씬 더 어려운 문제들로 구성된 벤치마크.
- AI 모델이 고난도의 전문적이고 복잡한 문제를 얼마나 잘 해결하는지를 평가하기 위해 만들어짐.
- MMLU보다 더 깊은 논리적 사고, 도메인 지식이 필요함.
✅ 특징
- Pass@1 대신 EM (Exact Match) 기준 사용
- 난이도가 매우 높은 문제들로 구성됨
- 일반적인 LLM보다는 전문 지식을 필요로 하는 특화된 모델을 평가하는 용도로 적합
- MMLU나 MMLU-Redux보다 전반적으로 점수가 낮게 나오는 경향
- 문제 난이도: 매우 어려움 (전문가 수준의 문제 포함)
4. 차이점 요약
벤치마크 | 평가 기준 | 난이도 | 특징 |
---|---|---|---|
MMLU | Pass@1 | 중간~어려움 | 다양한 학문 분야의 MCQ 평가, 일반적인 AI 성능 비교 |
MMLU-Redux | Exact Match (EM) | 중간~어려움 | MMLU의 개선 버전, 더 공정한 평가를 위한 데이터 정제 |
MMLU-Pro | Exact Match (EM) | 매우 어려움 | MMLU보다 훨씬 더 어려운 문제, 전문적 지식이 필요한 평가 |
📌 결론
- MMLU: 일반적인 AI 모델의 성능을 평가하는 대표적인 벤치마크.
- MMLU-Redux: MMLU보다 더 공정하고 신뢰성 높은 평가.
- MMLU-Pro: 고난도의 문제를 해결할 수 있는 전문적인 AI 모델의 평가에 적합.
🔥 MMLU-Pro에서 높은 점수를 받는 모델은 일반적인 AI가 아니라, 전문적인 지식을 잘 학습한 모델이라고 볼 수 있음!