ZeroBench: 최신 멀티모달 모델이 풀 수 없는 벤치마크
최근 대형 멀티모달 모델(LMM)은 언어 및 이미지 이해 능력이 빠르게 발전하고 있지만, 시각적 추론에서는 여전히 한계를 보이고 있습니다. 이런 한계를 보다 명확하게 평가하기 위해 등장한 것이 바로 ZeroBench입니다.
ZeroBench란 무엇인가?
ZeroBench는 기존의 시각적 벤치마크들이 빠르게 모델 발전에 의해 무력화되는 문제를 해결하고자 고안된 초고난도 시각적 추론 벤치마크입니다.
이 벤치마크는 총 100개의 난이도 높은 문제와 334개의 하위 질문으로 구성되어 있으며, 현재 최전선의 LMM 20개를 테스트한 결과 모든 모델이 0%의 정답률을 기록했습니다.
ZeroBench의 주요 특징
- 불가능한 벤치마크: 현재 AI 모델들이 해결할 수 없는 수준의 문제들로 구성
- 다양한 문제 유형: 자연 이미지, 합성 이미지, 다중 이미지 문제 포함
- 철저한 품질 관리: 모든 문제는 전문가 팀이 직접 검토 및 조정
- 모델 성능 평가: 모델의 시각적 오류와 논리적 오류를 철저히 분석
ZeroBench 테스트 결과
20개의 최신 LMM 모델을 대상으로 실험한 결과, 어떠한 모델도 ZeroBench의 주요 질문을 맞추지 못했습니다. 하지만 하위 질문에서는 일부 모델이 부분적으로 정답을 맞히는 경향을 보였습니다.
# 주요 LMM 모델 성능 비교 (Pass@1 기준)
모델명 | 주요 질문 정답률 | 하위 질문 정답률
--------------------------------------------
GPT-4o | 0.0% | 21.18%
Claude 3.5 Sonnet | 0.0% | 24.30%
Gemini 2 Flash | 0.0% | 22.47%
Qwen2-VL-72B | 0.0% | 11.90%
이 실험 결과는 현재 AI 모델이 여전히 시각적 논리와 공간 추론에서 한계를 가진다는 점을 보여줍니다.
결론 및 향후 전망
ZeroBench는 차세대 AI 모델이 극복해야 할 가장 어려운 시각적 과제를 제공하는 벤치마크로, 미래 AI 모델의 발전 방향을 제시할 것입니다.
향후 AI 연구자들은 이와 같은 고난도 벤치마크를 기반으로 더 정교한 시각적 인식 및 추론 능력을 개발해야 할 것입니다.
ZeroBench의 전체 데이터셋 및 실험 결과는 공식 웹사이트에서 확인할 수 있습니다.