AI LLM 모델별 성능 benchmark 비교 사이트 추천 (ChatGPT, Grok3, Claude, Gemini 등)

LLM benchmark 비교 사이트 추천

 

 

AI LLM 모델 성능 비교 사이트 정리 (ChatGPT, Grok3, Claude, Gemini 등)

  • LLM의 모델 성능(Benchmark) 점수를 측정하는 다양한 지표들 방법론들이 있지만, AI LLM 모델들의 성능을 한눈에 비교할 수 있는 사이트에 대해서 소개해드리려고 합니다. 개인적으로 제가 가장 자주 사용하는 사이트를 순위대로 적었습니다.
  • 1. https://llm-stats.com
    2. https://livebench.ai
    3. https://web.lmarena.ai/leaderboard

1. llm-stats.com

AI 언어 모델(LLM)성능(벤치마크) 점수를 비교하여 각 모델별을 table로 만들어 놓은 사이트. 점수를 정리하여 ChatGPT, Grok3, Claude, Gemini 등의 성능을 한눈에 비교하기 쉽게 정리해놓은 사이트 입니다.

사이트 바로가기 링크 : https://llm-stats.com

llm-stats.com 사이트 모습

사이트 접속하시면 스크롤 조금 내리시면 보이는 화면입니다.

사이트 접속시 맨 상단에 AI LLM 모델들이 출시된 순서(X축)성능 점수(Y축)을 한눈에 볼 수 있는 그래프가 나옵니다.(이게 제일 마음에 들어서 1등으로 사용함)

LLM benchmark 비교 사이트 추천

 

이 사이트는 누가 만들었나?

Reddit에 llm-stats.com 만든 사람이 홍보를 했네요 닉네임 : LocalLLaMA 글 입니다.

해당 글 보러가기 : https://www.reddit.com/r/LocalLLaMA/comments/1h4nz7b/i_built_this_tool_to_compare_llms/

llm stats 만든 사람

 

이렇게 홍보하는 모습보니,., 저도 이런 사이트 만들어서 수익화해보고싶네요.

 

 

AI LLM 모델별 성능, 벤치마크 결과 (2025년 03월 최신화)

다음 표는 llm-stat.com에 나온 각 모델의 벤치마크 성능을 표 입니다. 모든 점수는 백분율로 표시되며, 높은 값이 더 나은 성능을 의미합니다.

 

Organization Model License Parameters (B) Context Input $/M Output $/M GPQA MMLU MMLU Pro DROP HumanEval Multimodal
OpenAI o3 Proprietary 128,000 87.7%
Anthropic Claude 3.7 Sonnet Proprietary 200,000 $3.00 $15.00 84.8%
xAI Grok-3 Proprietary 128,000 84.6%
Meta Llama 3.1 405B Instruct Open 405 128,000 $0.90 $0.90 50.7% 87.3% 73.3% 84.8% 89.0%
Meta Llama 3.3 70B Instruct Open 70 128,000 $0.20 $0.20 50.5% 86.0% 68.9% 88.4%
Anthropic Claude 3 Opus Proprietary 200,000 $15.00 $75.00 50.4% 86.8% 68.5% 83.1% 84.9%
Qwen Qwen2.5 32B Instruct Open 32.5 131,072 49.5% 83.3% 69.0% 88.4%
Qwen Qwen2.5 72B Instruct Open 72.7 131,072 $0.35 $0.40 49.0% 71.1% 86.6%
OpenAI GPT-4 Turbo Proprietary 128,000 $10.00 $30.00 48.0% 86.5% 86.0% 87.1%
Amazon Nova Pro Proprietary 300,000 $0.80 $3.20 46.9% 85.9% 85.4% 89.0%
Meta Llama 3.2 90B Instruct Open 90 128,000 $0.35 $0.40 46.7% 86.0%

 

LLM API 가격이 궁금하신분들은 아래 글 클릭

LLM API 비용 총정리 2025년 3월 정보 (ChatGPT, Claude, Gemini, Deepseek 등)

 

 


2. web.lmarena.ai/leaderboard

AI 언어 모델(LLM)의 실시간 코딩(realtime coding competition) 성능 비교 사이트입니다.

역시 코딩은 Claude 모델을 이기는 모델이 잘 없네요

사이트 바로가기 링크 : https://web.lmarena.ai/leaderboard

AI LLM Coding benchmark

 

이 사이트를 추천하는 이유는 (1) 최신 모델이 공개되면 3시간 안에 업데이트 된다는 점 입니다. 다양한 LLM AI 성능 비교 사이트가 있지만, 중간에 업데이트가 멈추는게 제일 큰 흠이거든요.

 

 


3. livebench.ai

AI 언어 모델(LLM)을 테스트하기 위한 다양한 데이터 셋을 미리 정해놓고 모델들이 새로 나올때 마다 테스트를 하여 점수를 메겨두는 사이트 입니다.

사이트 바로가기 링크 : https://livebench.ai/

 

AI LLM 성능 테스트 사이트

 

 

추가 정보

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다