한 달에 일곱 개 : 모델 홍수 시대의 선택법

1960년대의 어느 가을, 미국 자동차 회사들은 매년 신차 발표일을 기다리는 관행을 만들어냈습니다. 디트로이트의 빅3, 그러니까 제너럴 모터스·포드·크라이슬러가 가을이 되면 일제히 새 모델을 공개했고, 거의 같은 시기에 같은 가격대의 차량들이 쇼룸에 놓였습니다. 소비자들은 '어느 회사의 58년형이 더 좋은가'를 놓고 몇 주 동안 고민했고, 자동차 잡지들은 스펙 비교표를 대문짝만 하게 싣는 것이 연례 행사였습니다.

60여 년이 지난 지금, 그 풍경을 그대로 옮겨놓은 산업이 하나 있습니다. 생성형 AI 입니다.

2026년 2월, 한 달도 채 되지 않은 기간 동안 주요 AI 제공사들이 일곱 개의 대규모 모델 발표를 쏟아냈습니다. 앤트로픽의 클로드 오퍼스 4.6과 소넷 4.6, 구글의 제미나이(Gemini) 신규 버전, 오픈(AI)의 후속 업데이트, xAI의 그록(Grok) 신버전, 알리바바의 큐웬(Qwen) 업데이트까지. 제 메일함에도 이 기간의 발표 리뷰 요청이 하루에 몇 건씩 들어오고 있습니다.

저는 이 풍경을 보면서 1960년대 디트로이트의 오토쇼를 떠올렸습니다. 발표 빈도 자체가 이미 전략 신호입니다. 누가 더 자주 발표하느냐, 누가 더 최신 스펙을 내세우느냐가 경쟁의 한 축이 되었다는 뜻이지요. 그리고 우리 소비자는 이 홍수 앞에서 무엇을 기준으로 선택해야 하는가라는 묵직한 질문을 받게 됩니다.

▸ 왜 2026년 2월에 이렇게 몰렸는가

이 쏠림 현상은 우연이 아닙니다. 2025년 11월~12월, 구글이 제미나이 3로 벤치마크 1위를 가져가고 앤트로픽이 오퍼스 4.5로 가격을 67% 내리면서 업계 분위기가 재가속되었습니다. 오픈(AI)는 GPT-5.1과 GPT-5.2를 연말에 내놨지요. 이 연속 공세의 리듬이 해를 넘기며 다시 폭발한 것이 2026년 2월입니다.

그런데 각 회사의 발표 스타일은 꽤 다릅니다.

앤트로픽은 '긴 맥락(Long Context)과 에이전트'를 내세웁니다. 2월 5일 오퍼스 4.6, 2월 17일 소넷 4.6과 100만 토큰 베타. 모델의 성격이 점점 기업용 파트너로 기울고 있는 것이 특징입니다.

구글은 2025년 11월의 제미나이 3 이후, 생성형 UIGenerative UI라는 차별화 포인트를 다음 버전에서 어떻게 심화시키느냐에 집중하고 있습니다. 제미나이는 '모델 단독 경쟁'보다 구글 워크스페이스(Google Workspace)·안드로이드(Android)와의 통합을 강점으로 삼고 있지요.

오픈(AI)는 2025년 여름 GPT-5 공개 이후 GPT-5.1과 GPT-5.2로 세분화된 업데이트를 이어가고 있습니다. 1천억 달러 규모의 인프라 투자를 등에 업고 있고, 마이크로소프트 365 코파일럿(Microsoft) 365 Copilot과의 깊은 결합을 활용하고 있습니다.

xAI는 '실시간 정보'와 'X(옛 트위터) 통합'을 무기로 삼는 그록 시리즈입니다. 제품의 성격이 다른 모델들과 가장 다르다는 점에서 따로 자리를 차지합니다.

알리바바의 큐웬은 오픈소스 전략을 고수하며, 다언어 지원과 낮은 가격을 내세우고 있습니다. 중국 시장을 중심으로 확산세가 꾸준합니다.

!쇼윈도우에 진열된 여러 모델이 겹쳐 보이는 저녁 풍경

▸ 스펙 비교표의 함정

이쯤에서 우리는 자동차 잡지의 스펙 비교표 얘기로 다시 돌아가야 합니다. 1960년대 독자들은 엔진의 배기량, 최고 출력, 0~60mph 도달 시간 같은 숫자를 비교하면서 '가장 좋은 차'를 골랐습니다. 그런데 실제로 오래 기억되는 차들은 스펙이 가장 좋은 차들이 아니었습니다. 1964년 포드 머스탱(Ford Mustang)은 당시 기준으로 평범한 엔진을 얹었지만, 가격대·스타일·타깃 고객층의 정확한 조합으로 20세기 후반의 아이콘이 되었지요.

AI 모델도 마찬가지입니다. 2026년 2월의 스펙 비교표를 들여다보면 대동소이한 숫자들이 있습니다. 어느 모델은 휴머니티의 마지막 시험(Humanity)'s Last Exam에서 0.3%p 더 높고, 어느 모델은 AIME에서 1.2%p 낮고, GPQA에서는 또 다른 모델이 앞서는 식입니다. 이 소숫점 차이를 기업 도입의 기준으로 삼는 것은 매우 위험한 결정입니다.

실제로 기업의 AI 도입 현장에서 가장 많이 마주치는 실패 케이스는 '최고 성능 모델을 골랐는데 우리 업무에서 기대만큼 안 나와요'입니다. 모델의 평균 성능과 특정 업무에서의 성능은 같지 않습니다. 벤치마크는 영어·수학·과학·코딩 중심으로 설계되어 있고, 한국어 비즈니스 문서를 해석하거나, 한국식 법률 문서의 뉘앙스를 읽거나, 한국 고객 응대의 어투를 재현하는 능력은 별개의 영역입니다.

▸ 소비자가 던져야 할 네 가지 질문

그렇다면 이 홍수 속에서 우리는 어떻게 선택해야 할까요. 저는 네 가지 질문을 권해드립니다.

첫째, 이 AI로 무엇을 자동화하고 싶은가.

업무가 구체적이지 않으면 어느 모델을 골라도 실패합니다. "문서 요약", "고객 응대", "코드 생성"처럼 용도가 명확해야 벤치마크 숫자가 의미를 가집니다. 코드 생성이라면 SWE-bench, 수학 추론이라면 AIME, 한국어 업무라면 한국어 벤치마크 데이터를 따로 봐야 합니다.

둘째, 어디까지 민감한 데이터를 다루는가.

API로 클라우드 모델을 쓸 수 있는 업무와, 반드시 온프레미스에 내부 모델을 둬야 하는 업무는 다릅니다. 은행·보험·의료·공공은 후자에 가깝고, 이 경우 알리바바 큐웬이나 메타 라마(Meta Llama) 같은 오픈소스 모델이 선택지에 들어와야 합니다.

셋째, 가격의 장기 궤적을 염두에 두고 있는가.

2025년 11월 앤트로픽이 오퍼스 4.5에서 가격을 67% 내렸듯, AI 가격은 매 분기 떨어지는 중입니다. 지금 가장 저렴한 모델을 고르는 것이 1년 뒤에는 가장 비싼 선택이 될 수도 있고, 반대로 지금 비싼 모델의 가격이 6개월 뒤 절반이 될 수도 있습니다. 공급사 종속(Lock-in)을 최소화하고, 쉽게 갈아탈 수 있는 표준 프로토콜(MCP 등) 위에 시스템을 설계하는 것이 장기적으로 유리합니다.

넷째, 조직 구성원이 AI를 다룰 준비가 되어 있는가.

가장 좋은 모델을 도입해도 구성원이 질문을 잘 못하면 소용이 없습니다. 새로운 모델에 만 원을 쓰기 전에 프롬프트 작성 교육에 천 원을 쓰시는 것이 더 큰 효과를 낼 수 있습니다. AI의 성능과 사용자의 질문 능력은 곱셈 관계이기 때문입니다.

!여러 개의 문이 나란히 선 미로의 입구와 그 위에서 비추는 따스한 빛

▸ 경쟁의 축이 이동하는 중

모델 발표의 빈도가 높아지는 현상을 한 발 물러서서 봐야 합니다. 저는 이 현상의 이면에 모델 자체의 차별화가 점점 어려워지고 있다는 신호가 숨어 있다고 봅니다. 상위권 모델들의 벤치마크 점수 차이가 좁혀지고 있는 현실이 그 증거입니다. 차별화가 어려울수록 회사들은 발표의 빈도로 존재감을 드러내게 됩니다.

그렇다면 다음 경쟁의 축은 무엇이 될까요. 저는 세 가지라고 생각합니다.

하나, 에이전트 능력. 단순 질의응답이 아니라, 복잡한 작업을 여러 단계로 나누어 처리하는 능력이 경쟁의 전면으로 나오고 있습니다. 앤트로픽의 클로드 코드, 구글의 안티그래비티(Antigravity)가 이 방향의 투자입니다.

둘, 생태계. 모델 하나의 성능보다 그 모델이 어떤 도구·프로토콜·파트너와 연결되어 있는지가 더 중요해지고 있습니다. 2024년 앤트로픽이 공개한 MCP와 2025년 구글이 공개한 A2A가 이 생태계 경쟁의 예시입니다.

셋, 가격-효율. 같은 성능을 얼마나 싸게 제공하느냐의 경쟁이 본격화되었습니다. 오픈소스 모델들이 이 전장에서 큰 위협이 되고 있지요.

▸ 홍수의 시기에 필요한 것

여러분의 조직이 이 홍수의 한가운데에 있다면, 저는 정보의 수집보다 기준의 정립에 더 많은 시간을 쓰시길 권합니다. 새로 나오는 모델 리뷰를 하루에 한 시간씩 따라가는 것보다, 우리 업무에 적합한 AI의 기준을 문서화해 놓는 것이 훨씬 유익합니다. 기준이 분명하면 새 모델이 나올 때마다 재평가할 필요가 없어집니다. 기준표에 숫자만 갱신하면 되기 때문이지요.

1960년대 디트로이트의 소비자들이 매년 가을 쇼룸에서 길을 잃었던 이유는 자신이 무엇을 원하는지 모른 채 최신 모델의 광채 앞에 섰기 때문입니다. 지금 우리 앞에 놓인 일곱 대의 AI 모델도 마찬가지입니다. 무엇을 원하는지 모른 채 최신의 광채 앞에 서면, 결국 가장 비싼 것을 고르거나 가장 유명한 것을 고르게 됩니다. 어느 쪽도 좋은 선택이 아니지요.

기술의 본질을 이해해야 휩쓸리지 않습니다. 제가 이 책에서 늘 강조해온 말을, 모델 홍수의 이 시기에 다시 한 번 여러분께 드립니다. 어느 모델을 고르느냐보다, 무엇을 원하는지를 먼저 아는 사람이 이 시대의 승자가 될 것입니다.

#AI모델 #경쟁 #오픈AI #앤트로픽 #구글 #xAI #알리바바

전체 사이트에서 댓글·관련 글을 함께 보시려면

이야기 공장에서 보기 →