시험 잘 보는 기계 : 벤치마크의 시대가 저물어가는 까닭

저는 고등학교 시절의 성적표 한 장을 오래 기억하고 있습니다. 어머니가 성적표를 받아드시고는 한참을 들여다보시다가, 이렇게 한 말씀 하셨지요. "공부는 잘하는데, 세상은 잘 살 수 있을까." 그때는 이 말이 무슨 뜻인지 잘 몰랐습니다. 어른이 되고 나서야, 성적과 삶이 꼭 비례하지 않는다는 것을 천천히 배웠지요.

대한민국의 교육은 오랫동안 시험 점수를 중심에 두고 움직여왔습니다. 내신과 수능이 학생의 미래를 결정하는 것처럼 보였고, 부모님과 선생님들은 그 숫자를 끌어올리는 데 온 힘을 쏟았습니다. 그런데 사회에 나와 보면, 성적이 좋았던 친구와 사회적으로 성공한 친구의 교집합이 생각만큼 크지 않다는 사실을 많은 분들이 경험하셨을 것입니다. 시험의 세계와 삶의 세계는 서로 다른 규칙으로 돌아가기 때문이지요.

2026년 1월의 AI 업계에서 저는 이와 닮은 풍경을 발견합니다. 지난 3년간 AI 업계는 벤치마크 숫자를 중심으로 움직여왔습니다. 새 모델이 나올 때마다 MMLU, AIMEAmerican Invitational Mathematics Examination, GPQA Diamond, SWE-bench, Humanity's Last Exam 같은 이름들이 표로 만들어져 언론에 실렸습니다. 어느 모델이 몇 점을 더 받았는지가 그날의 헤드라인을 결정했지요.

그런데 2026년을 맞이하는 지금, 그 숫자들의 결정력이 눈에 띄게 약해지고 있습니다. 벤치마크의 시대가 저물어가는 중입니다.

▸ 벤치마크가 올라가도 사용자의 체감은 정체되는 이유

2025년 11월에 공개된 구글 제미나이(Gemini) 3를 한 번 떠올려봅시다. LMArena에서 1501 Elo를 기록했고, Humanity's Last Exam에서 37.5%, GPQA Diamond에서 91.9%를 찍었습니다. 당시 발표 시점 기준으로는 여러 항목에서 1등을 차지한 수치였습니다. 그리고 2주 뒤 앤트로픽(Anthropic)의 클로드 오퍼스(Claude Opus) 4.5가 공개되면서 또 다른 수치들이 업데이트되었지요.

저는 이 발표들을 지켜보면서 한 가지를 깨달았습니다. 벤치마크 점수의 변화는 점점 커지는데, 그에 비례해 사용자의 체감 가치는 그만큼 커지지 않고 있다는 것입니다. GPT-4에서 GPT-4o로 넘어갈 때는 "아, 확실히 달라졌다"는 감각이 있었습니다. 음성과 이미지를 자연스럽게 다룬다는 경험 자체가 새로웠지요. 그런데 GPT-5.1에서 GPT-5.2로 넘어가거나, 클로드 4에서 4.5로 넘어갈 때의 체감은 훨씬 은은합니다. 벤치마크 숫자는 분명히 올랐는데, 내 업무에 미치는 변화는 작게 느껴지는 것이지요.

!낡은 성적표 한 장이 책상 위에 놓여 있고, 창문에서 들어오는 빛이 종이를 밝히는 장면

왜 이런 일이 생길까요. 이유는 생각보다 간단합니다. 실제 업무에서 AI의 쓰임새를 결정하는 요소들이 벤치마크로 측정되지 않는 영역에 더 많기 때문입니다. 답변의 톤, 맥락 유지 능력, 모호한 지시를 해석하는 감각, 잘못 이해했을 때 되물어보는 태도, 필요한 경우 스스로 도구를 찾아 쓰는 판단. 이런 것들은 대부분의 벤치마크가 포착하지 못합니다. 벤치마크는 정답이 있는 문제를 잘 푸는 능력을 측정하지만, 실세계의 일은 정답이 없는 문제가 훨씬 많으니까요.

흥미롭게도 2024년에 공개된 'Humanity's Last Exam'이라는 이름 자체가 이 한계를 은연중에 드러냅니다. '인류의 마지막 시험'이라니, 설계 의도 자체가 "AI가 이것마저 풀면 더 이상 시험으로 평가할 게 없다"는 선언이었지요. 그런데 2025년 말 제미나이 3가 이 벤치마크에서 도구 없이 37.5%를 기록했을 때, 업계의 반응은 박수보다 회의론이 먼저였습니다. "정답을 맞혔다는 것과 정답의 이유를 아는 것이 같은 일인가"라는 질문이 뒤따랐지요. 여기서 우리는 한 가지 사실을 발견합니다. 시험 점수는 어느 구간을 넘어가면 변별력이 사라진다는 것입니다. 모델들이 90%를 넘어서기 시작하면 남은 10%가 정말 어려운 문제인지, 아니면 벤치마크 자체의 오류인지를 구분하기 어려워집니다.

▸ 새 지표의 등장 : '사용 사례'가 벤치마크를 대체한다

2026년에 들어 업계의 언어가 바뀌고 있습니다. 발표회의 중심에 벤치마크 표가 놓이던 자리에, 구체적인 사용 사례가 놓이기 시작했습니다. 앤트로픽이 최근 발표에서 강조한 것은 "우리 모델이 GPQA에서 몇 점 더 받았다"가 아니라 "엔터프라이즈 고객들이 코드베이스 분석과 리팩토링에 이 모델을 어떻게 쓰는가"였습니다. 구글은 제미나이 3의 'Generative UI' 기능을 소개하면서, 벤치마크 수치보다 사용자가 질문 하나로 인터랙티브 차트를 만들어내는 데모를 전면에 내세웠지요.

이 변화가 뜻하는 바는 분명합니다. AI 업계가 학문적 평가 체계에서 산업적 평가 체계로 이동하고 있다는 것입니다. 학문의 세계에서는 표준화된 시험으로 모델을 줄세울 수 있지만, 산업의 세계에서는 "이 회사의 고객 문의 자동화에 어떤 모델이 가장 적합한가"가 훨씬 중요한 질문이 됩니다. 그리고 그 답은 벤치마크가 아니라 현장 테스트로만 얻을 수 있습니다.

!책상 위에 놓인 성적표 위에 빈 도구 상자 하나가 얹혀 있는 정물, 숫자를 넘어 도구로 이동하는 시점의 상징

▸ 벤치마크가 지는 자리에 무엇이 오는가

한 발 물러서 보면, 벤치마크가 완전히 무용해지는 것은 아닙니다. 오히려 그 역할이 달라진다고 보는 편이 정확합니다. 지난 3년간 벤치마크가 경쟁의 전면에서 마케팅 수단으로 쓰였다면, 앞으로는 품질 검증의 후면에서 내부 개발 도구로 쓰일 가능성이 높습니다. 새 모델이 이전 버전 대비 퇴행하지 않았음을 증명하는 리그레션 테스트, 또는 의료·법률·금융 같은 도메인에서 최소 기준을 검증하는 적격성 테스트의 용도이지요. 또 한 가지, 에이전트 평가 벤치마크라는 새 종류가 등장하고 있습니다. "이 깃허브 리포지토리의 버그를 찾아 고쳐라" 같은 실제 과제를 주고 끝까지 수행하는 비율을 측정하는 방식입니다. 정답이 아니라 과정과 결과의 정합성을 보는 것이지요.

벤치마크가 지는 자리에는 세 가지가 들어섭니다. 첫째, 통합 경험. 단일 모델 성능보다 에디터·브라우저·문서·데이터베이스와의 연동성이 경쟁의 전장이 됩니다. 2025년 12월 구글이 공개한 Antigravity, Microsoft 365 Copilot에 얹힌 GPT-5.2의 경험이 그 예이지요. 둘째, 비용 대비 가치. 2025년 11월 클로드 오퍼스 4.5가 Sonnet 4 대비 67% 가격을 낮춘 사건은 상징적이었습니다. 앞으로는 "같은 결과를 얻는 데 얼마나 적은 토큰·시간·비용이 들었는가"가 핵심 지표가 됩니다. 셋째, 신뢰성과 안전성의 측정 가능성. 환각(hallucination) 발생률, 편향 제거, 민감 정보 방어, 악의적 프롬프트 저항력 — 엔터프라이즈와 공공 부문에서는 이 지표들이 벤치마크 점수보다 훨씬 중요합니다.

▸ 그래서 우리는 어떻게 모델을 선택해야 하는가

마지막으로 실용적인 조언을 드립니다. 2026년에 AI 모델을 도입하거나 선택해야 하는 여러분께, 저는 벤치마크 표보다 먼저 세 가지를 확인하시기를 권합니다. 첫째, 자신의 실제 업무 시나리오 10개를 미리 준비해 여러 모델에 똑같이 던져보세요. 답변의 품질·속도·일관성을 직접 비교하는 것이 어떤 벤치마크보다 정확합니다. 둘째, 자주 쓰는 도구들과의 연동성을 확인하세요. 성능 1%의 차이보다, 통합 경험 10%의 차이가 일상에 더 큰 영향을 줍니다. 셋째, 가격 구조와 확장성을 장기적으로 봐두세요. 지금 싼 모델이 1년 뒤에도 싸다는 보장은 없습니다.

어머니가 성적표를 보며 말씀하신 "세상은 잘 살 수 있을까"는, 숫자 너머의 진짜 역량을 보려는 질문이었습니다. AI 모델을 고르는 우리의 눈도 같은 방향으로 성숙해지는 중이지요. 시험을 잘 보는 기계가 아니라 세상을 잘 다루는 동료를 우리는 찾고 있습니다. 여러분이 함께 일하는 AI는, 어떤 시험 점수를 가지고 있습니까. 더 중요하게는, 어떤 세상을 여러분과 함께 다루고 있습니까.

#벤치마크 #평가 #수능 #HumanitysLastExam #GPQA

전체 사이트에서 댓글·관련 글을 함께 보시려면

이야기 공장에서 보기 →