LLM / MMLU 평가에 대해 (Redux,Pro) 지표 차이점 정리글

최근 Deepseek모델 발표후 모델의 성능과 관련하여 큰 파장이 있었다. 그와 관련하여 대중적으로 사용하는 평가지표들을 확인 해 보자! 평가지표에는 아래와 같이 다양한 사항들이 있다. 출처 : https://huggingface.co/deepseek-ai/DeepSeek-R1 Category Benchmark (Metric) Claude-3.5-Sonnet-1022 GPT-4o 0513 DeepSeek V3 OpenAI o1-mini OpenAI o1-1217 DeepSeek R1 Architecture – – MoE – – MoE # Activated Params – – 37B – – …

1. triton inference server 설치 및 테스트

triton inference server를 사용해보자 https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver 트리톤 서버에 대해서 문서를 참조하면 좋을것 같다. 사용에 맞는 도커 컨테이너 뿐만 아니라 헬름차트토 함께 배포 한다. Triton 추론 서버란 무엇인가요? Triton Inference Server는 CPU와 GPU에 최적화된 클라우드 및 에지 추론 솔루션을 제공합니다. Triton은 원격 클라이언트가 서버에서 관리하는 모든 모델에 대한 추론을 요청할 수 있도록 하는 HTTP/REST 및 GRPC 프로토콜을 …