LLM / MMLU 평가에 대해 (Redux,Pro) 지표 차이점 정리글
최근 Deepseek모델 발표후 모델의 성능과 관련하여 큰 파장이 있었다. 그와 관련하여 대중적으로 사용하는 평가지표들을 확인 해 보자! 평가지표에는 아래와 같이 다양한 사항들이 있다. 출처 : https://huggingface.co/deepseek-ai/DeepSeek-R1 Category Benchmark (Metric) Claude-3.5-Sonnet-1022 GPT-4o 0513 DeepSeek V3 OpenAI o1-mini OpenAI o1-1217 DeepSeek R1 Architecture – – MoE – – MoE # Activated Params – – 37B – – …