LLM / MMLU 평가에 대해 (Redux,Pro) 지표 차이점 정리글

최근 Deepseek모델 발표후 모델의 성능과 관련하여 큰 파장이 있었다.

그와 관련하여 대중적으로 사용하는 평가지표들을 확인 해 보자!

평가지표에는 아래와 같이 다양한 사항들이 있다.

출처 : https://huggingface.co/deepseek-ai/DeepSeek-R1

CategoryBenchmark (Metric)Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3OpenAI o1-miniOpenAI o1-1217DeepSeek R1
ArchitectureMoEMoE
# Activated Params37B37B
# Total Params671B671B
EnglishMMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.792.9
MMLU-Pro (EM)78.072.675.980.384.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.883.3
GPQA-Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (Correct)28.438.224.97.047.030.1
FRAMES (Acc.)72.580.573.376.982.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.887.6
ArenaHard (GPT-4-1106)85.280.485.592.092.3
CodeLiveCodeBench (Pass@1-COT)33.834.253.863.465.9
Codeforces (Percentile)20.323.658.793.496.696.3
Codeforces (Rating)7177591134182020612029
SWE Verified (Resolved)50.838.842.041.648.949.2
Aider-Polyglot (Acc.)45.316.049.632.961.753.3
MathAIME 2024 (Pass@1)16.09.339.263.679.279.8
MATH-500 (Pass@1)78.374.690.290.096.497.3
CNMO 2024 (Pass@1)13.110.843.267.678.8
ChineseCLUEWSC (EM)85.487.990.989.992.8
C-Eval (EM)76.776.086.568.991.8
C-SimpleQA (Correct)55.458.768.040.363.7

1. MMLU (Massive Multitask Language Understanding)

✅ 개요

  • 다양한 학문 분야(57개)에서 다중 선택형 문제(Multiple Choice Question, MCQ)를 통해 LLM의 지식을 평가하는 벤치마크.
  • 모델이 얼마나 잘 사전 지식을 활용하고 문제를 해결할 수 있는지를 측정하는 대표적인 테스트.
  • Pass@1(모델이 첫 번째 시도에서 정답을 맞힐 확률)로 평가됨.

✅ 특징

  • 여러 개의 정답 옵션 중 하나를 선택하는 객관식 문제(MCQ) 형식
  • 데이터셋이 크고, 일반적인 AI 평가에 많이 사용됨
  • OpenAI GPT-4, Claude, Gemini, Llama 등 대부분의 최신 모델이 MMLU 점수를 기준으로 비교됨
  • 문제 난이도: 중간~어려움

2. MMLU-Redux

✅ 개요

  • MMLU의 변형 버전으로, 데이터 품질을 개선하고 더 공정한 평가를 제공하기 위해 설계됨.
  • EM (Exact Match) 기준을 사용하여 정답과 모델의 답이 정확히 일치해야 함.

✅ 특징

  • 기존 MMLU에서 데이터 품질이 낮거나 문제가 있는 질문을 수정 또는 제거
  • Pass@1 대신 EM(Exact Match, 완전 일치) 기준 사용 → 모델의 답이 정답과 100% 일치해야 점수를 받음
  • LLM 평가의 신뢰성을 높이기 위한 개선된 벤치마크
  • 문제 난이도: 중간~어려움 (MMLU와 유사)

3. MMLU-Pro

✅ 개요

  • MMLU보다 훨씬 더 어려운 문제들로 구성된 벤치마크.
  • AI 모델이 고난도의 전문적이고 복잡한 문제를 얼마나 잘 해결하는지를 평가하기 위해 만들어짐.
  • MMLU보다 더 깊은 논리적 사고, 도메인 지식이 필요함.

✅ 특징

  • Pass@1 대신 EM (Exact Match) 기준 사용
  • 난이도가 매우 높은 문제들로 구성됨
  • 일반적인 LLM보다는 전문 지식을 필요로 하는 특화된 모델을 평가하는 용도로 적합
  • MMLU나 MMLU-Redux보다 전반적으로 점수가 낮게 나오는 경향
  • 문제 난이도: 매우 어려움 (전문가 수준의 문제 포함)

4. 차이점 요약

벤치마크평가 기준난이도특징
MMLUPass@1중간~어려움다양한 학문 분야의 MCQ 평가, 일반적인 AI 성능 비교
MMLU-ReduxExact Match (EM)중간~어려움MMLU의 개선 버전, 더 공정한 평가를 위한 데이터 정제
MMLU-ProExact Match (EM)매우 어려움MMLU보다 훨씬 더 어려운 문제, 전문적 지식이 필요한 평가

📌 결론

  • MMLU: 일반적인 AI 모델의 성능을 평가하는 대표적인 벤치마크.
  • MMLU-Redux: MMLU보다 더 공정하고 신뢰성 높은 평가.
  • MMLU-Pro: 고난도의 문제를 해결할 수 있는 전문적인 AI 모델의 평가에 적합.

🔥 MMLU-Pro에서 높은 점수를 받는 모델은 일반적인 AI가 아니라, 전문적인 지식을 잘 학습한 모델이라고 볼 수 있음!