한국어 LLM 성능 평가의 새 기준, 'W&B 호랑이 리더보드 4' 공개…추론·안전성·코딩 능력까지 검증한다

대표 이미지

 

한국어 AI 모델의 성능을 객관적으로 평가할 수 있는 대표 플랫폼, '호랑이 리더보드'가 대대적인 업데이트를 거쳐 4번째 버전을 공개했어요.

Weights & Biases Korea(W&B Korea)가 운영하는 호랑이 리더보드는 국내외 AI 연구자와 기업들 사이에서 '한국어 LLM 평가의 표준'으로 자리 잡은 오픈 벤치마크 플랫폼이에요. 이번 호랑이 리더보드 4는 최근 급격히 발전한 대형 언어모델(LLM) 기술 수준에 맞춰 평가 체계를 전면 개편한 것이 핵심이에요.

사실 요즘 AI 모델들은 단순히 문장을 생성하는 수준을 훨씬 넘어섰어요. 복잡한 논리적 사고를 하고, 코드를 작성하고, 실제 업무에 활용할 수 있는 수준까지 발전했죠. 이런 변화에 맞춰 평가 기준도 함께 진화해야 했고, 그 결과물이 바로 이번 업데이트예요.

이번 호랑이 리더보드 4는 한국어 언어 모델 벤치마크 개발의 선두주자인 해례팀(HAERAE Lab)과의 협력을 통해 신뢰성을 한층 높였어요. 단순한 점수 경쟁이 아니라, 실제 현장에서 얼마나 쓸모 있는지를 검증하는 방향으로 설계됐다는 점이 인상적이에요.

주요 업데이트 내용을 좀 더 자세히 살펴볼게요.

첫 번째는 고난이도 추론 평가 강화예요. Arc-AGI, AIME2025 같은 새로운 벤치마크가 추가되면서 모델의 추상적, 수학적 사고력을 더 정밀하게 측정할 수 있게 됐어요. 단순 질의응답을 넘어 논리적 문제 해결 능력까지 종합적으로 평가하는 거죠.

두 번째는 전문지식 및 장문맥 이해 평가의 고도화예요. 기존 KMMLU에 더해 KMMLU-Pro, KMMLU-Hard, HLE, MRCR 등이 새롭게 포함됐어요. 이제 고급 학문 수준의 이해력과 긴 문맥에서의 성능까지 꼼꼼하게 측정할 수 있어요.

세 번째는 애플리케이션 개발 능력 평가가 신설된 점이에요. BFCL(함수 호출), SWE-Bench Verified(버그 수정) 등을 통해 LLM이 실제 환경에서 코드를 작성하고 도구를 활용하는 능력을 평가해요. 요즘 화두인 AI 에이전트로서의 가능성을 검증하는 셈이죠.

네 번째는 안전성 및 신뢰성 평가의 확장이에요. IFEval-ko, HalluLens 등 항목이 추가되면서 모델의 편향성, 제어 가능성, 윤리성을 체계적으로 진단할 수 있게 됐어요. AI 거버넌스에 대한 관심이 높아지는 요즘, 이 부분은 특히 중요해요.

한 가지 더 주목할 점은 W&B Weave라는 강력한 Observability & evaluation 플랫폼을 통해 평가를 진행한다는 거예요. 덕분에 평가 과정과 결과의 투명성이 확보돼서, 왜 이런 점수가 나왔는지 명확하게 추적할 수 있어요.

기업과 연구기관을 위한 활용성도 강화됐어요. 호랑이 리더보드 4는 비공개형 리더보드로 운영되며, 신청을 통해 프라이빗 환경에서 평가를 실행할 수 있어요. W&B 엔터프라이즈 사용 기업이라면 자동평가 환경과 맞춤형 프라이빗 리더보드 구축 서비스까지 지원받을 수 있죠.

평가 결과는 W&B 플랫폼에서 시각화되어 모델별 성능, 비용, 안전성 지표를 한눈에 비교 분석할 수 있어요. 기업 입장에서는 어떤 모델을 선택하고 어떻게 배포할지 데이터에 기반해 빠르게 결정할 수 있는 거예요.

W&B Korea의 오현우 AI Solutions Engineer 매니저는 "호랑이 리더보드 4는 단순한 점수 경쟁이 아니라 한국어 LLM의 실질적 활용성과 안전성을 함께 검증하는 K-AI 생태계의 기준을 제시한다"고 강조했어요. 연구자, 기업, 개발자 모두가 신뢰할 수 있는 데이터를 기반으로 모델을 선택하고 개선할 수 있도록 플랫폼을 지속 확장해 나가겠다는 포부도 밝혔고요.

한국어 LLM 시장이 빠르게 성장하는 만큼, 이런 공정하고 체계적인 평가 플랫폼의 역할은 앞으로 더 중요해질 거예요. 호랑이 리더보드 4가 국내 AI 생태계의 발전에 어떤 기여를 할지 기대가 되네요.

📎 관련 링크

호랑이 리더보드 공식 사이트: https://horangi.ai
Weights & Biases 공식 웹사이트: https://wandb.ai/site

 


📎 관련 링크

시르바이, 중동 최초 AI 자율 드론 군집 기술 공개…현대 전장의 판도 바꾼다

  중동 최초의 AI 기반 자율 드론 군집 기술이 세상에 공개됐어요. 🚁 아부다비에서 열린 UMEX 2026 행사장, 시르바이(SIRBAI)라는 기업이 방위 산업의 새로운 장을 열었어요. 여러 대의 드론이 마치 한 몸처럼 움직이며 스스로 판단하고 협...