AI LLM 모델별 성능 benchmark 비교 사이트 추천 (ChatGPT, Grok3, Claude, Gemini 등)

AI LLM 모델 성능 비교 사이트 정리 (ChatGPT, Grok3, Claude, Gemini 등)

LLM의 모델 성능(Benchmark) 점수를 측정하는 다양한 지표들 방법론들이 있지만, AI LLM 모델들의 성능을 한눈에 비교할 수 있는 사이트에 대해서 소개해드리려고 합니다. 개인적으로 제가 가장 자주 사용하는 사이트를 순위대로 적었습니다.
1. https://llm-stats.com
2. https://livebench.ai
3. https://web.lmarena.ai/leaderboard

AI 언어 모델(LLM)의 성능(벤치마크) 점수를 비교하여 각 모델별을 table로 만들어 놓은 사이트. 점수를 정리하여 ChatGPT, Grok3, Claude, Gemini 등의 성능을 한눈에 비교하기 쉽게 정리해놓은 사이트 입니다.

사이트 바로가기 링크 : https://llm-stats.com

사이트 접속하시면 스크롤 조금 내리시면 보이는 화면입니다.

사이트 접속시 맨 상단에 AI LLM 모델들이 출시된 순서(X축)별 성능 점수(Y축)을 한눈에 볼 수 있는 그래프가 나옵니다.(이게 제일 마음에 들어서 1등으로 사용함)

Reddit에 llm-stats.com 만든 사람이 홍보를 했네요 닉네임 : LocalLLaMA 글 입니다.

이렇게 홍보하는 모습보니,., 저도 이런 사이트 만들어서 수익화해보고싶네요.

다음 표는 llm-stat.com에 나온 각 모델의 벤치마크 성능을 표 입니다. 모든 점수는 백분율로 표시되며, 높은 값이 더 나은 성능을 의미합니다.

Organization	Model	License	Parameters (B)	Context	Input $/M	Output $/M	GPQA	MMLU	MMLU Pro	DROP	HumanEval	Multimodal
OpenAI	o3	Proprietary	–	128,000	–	–	87.7%	–	–	–	–	❌
Anthropic	Claude 3.7 Sonnet	Proprietary	–	200,000	$3.00	$15.00	84.8%	–	–	–	–	✅
xAI	Grok-3	Proprietary	–	128,000	–	–	84.6%	–	–	–	–	❌
Meta	Llama 3.1 405B Instruct	Open	405	128,000	$0.90	$0.90	50.7%	87.3%	73.3%	84.8%	89.0%	❌
Meta	Llama 3.3 70B Instruct	Open	70	128,000	$0.20	$0.20	50.5%	86.0%	68.9%	–	88.4%	❌
Anthropic	Claude 3 Opus	Proprietary	–	200,000	$15.00	$75.00	50.4%	86.8%	68.5%	83.1%	84.9%	✅
Qwen	Qwen2.5 32B Instruct	Open	32.5	131,072	–	–	49.5%	83.3%	69.0%	–	88.4%	❌
Qwen	Qwen2.5 72B Instruct	Open	72.7	131,072	$0.35	$0.40	49.0%	–	71.1%	–	86.6%	❌
OpenAI	GPT-4 Turbo	Proprietary	–	128,000	$10.00	$30.00	48.0%	86.5%	–	86.0%	87.1%	❌
Amazon	Nova Pro	Proprietary	–	300,000	$0.80	$3.20	46.9%	85.9%	–	85.4%	89.0%	✅
Meta	Llama 3.2 90B Instruct	Open	90	128,000	$0.35	$0.40	46.7%	86.0%	–	–	–	✅

LLM API 가격이 궁금하신분들은 아래 글 클릭

LLM API 비용 총정리 2025년 3월 정보 (ChatGPT, Claude, Gemini, Deepseek 등)

AI 언어 모델(LLM)의 실시간 코딩(realtime coding competition) 성능 비교 사이트입니다.

역시 코딩은 Claude 모델을 이기는 모델이 잘 없네요

이 사이트를 추천하는 이유는 (1) 최신 모델이 공개되면 3시간 안에 업데이트 된다는 점 입니다. 다양한 LLM AI 성능 비교 사이트가 있지만, 중간에 업데이트가 멈추는게 제일 큰 흠이거든요.

AI 언어 모델(LLM)을 테스트하기 위한 다양한 데이터 셋을 미리 정해놓고 모델들이 새로 나올때 마다 테스트를 하여 점수를 메겨두는 사이트 입니다.

사이트 바로가기 링크 : https://livebench.ai/

다른 벤치마크 사이트로는 Vellum AI LLM Benchmark in 2024, YourGPT.ai LLM Leaderboard, Artificial Analysis LLM Leaderboard 등이 있습니다.