GPT-5.1과 친절함이라는 업데이트 : 스펙 자랑의 시대가 저물 때

1930년대 미국의 라디오 DJ 한 사람이 있었습니다. 이름은 잊혀도 좋지만, 그가 진행하던 심야 방송에는 매일 밤 수십만 명의 외로운 청취자가 모여들었습니다. 방송의 내용은 그리 특별하지 않았습니다. 음악이 흐르고, 짧은 멘트가 이어지고, 가끔 청취자의 사연이 소개되는 식이었지요. 그런데 그 사연의 마디마디에서 DJ는 놀랄 만큼 온화한 목소리로 청취자의 이름을 불러주었고, 그 한 문장이 종종 한 사람의 밤을 바꿔놓았다고 합니다.

기술이 어느 지점까지 올라서면 결국 사람들이 기억하는 것은 스펙이 아니라 목소리가 되는 것 같습니다. 라디오 수신기의 진공관 개수나 주파수 대역보다, 그 너머에서 들려오는 사람의 톤 말입니다.

2025년 11월 12일, 오픈(AI)가 공개한 GPT-5.1이 이 오래된 이야기를 닮아 있습니다. 이번 공개에서 가장 많이 등장한 단어는 속도도, 파라미터도, 벤치마크도 아니었습니다. "더 따뜻하고, 더 친근하고, 지시에 더 잘 따르는"이라는 형용사들이었습니다. 모델 업데이트의 언어가 스펙 자랑에서 성격 개선으로 이동하고 있는 셈입니다.

▸ Instant와 Thinking : 두 성격의 분기

GPT-5.1은 크게 두 변형으로 공개되었습니다. 하나는 Instant, 다른 하나는 Thinking입니다.

Instant는 이름 그대로 즉답형입니다. 오픈(AI)의 설명을 요약하면, 이전 버전보다 대화적이고, 사용자의 지시를 더 정확히 따르며, 무엇보다 말투가 더 따뜻해졌다는 것이 핵심입니다. 일상적인 대화, 이메일 초안, 간단한 요약 같은 작업에 적합합니다.

Thinking은 좀 더 깊이 파고드는 버전입니다. 복잡한 추론이 필요한 과제에는 더 오래 생각하지만, 단순 과제에서는 오히려 이전보다 더 빠르게 답을 내놓습니다. 일종의 '지능의 가변속도 기어'를 탑재한 셈이지요. 어려운 문제에는 천천히, 쉬운 문제에는 빠르게.

이 구조 자체는 새롭지 않습니다. 작년에 공개된 o1 시리즈부터 이어진 '추론형 모델'의 계보가 GPT-5.1 Thinking에 계승되어 있지요. 놀라운 것은 이 두 변형을 나누는 기준입니다. 이제 모델은 '크기'나 '모달리티'로 갈라지지 않습니다. 사용자가 기대하는 태도와 속도로 갈라집니다. 이 분기가 의미하는 바는 생각보다 큽니다.

▸ 왜 '친절함'이 업데이트 항목이 되었나

한 발 물러서 봅시다. 지난 3년 동안 우리는 모델 공개 때마다 거의 같은 포맷의 발표문을 읽어 왔습니다. "벤치마크에서 X%를 달성했고, 이전 세대보다 Y배 빠르고, 컨텍스트 윈도우가 Z토큰으로 확장되었다." 이 문법은 2022년 GPT-3.5 시절부터 거의 공식처럼 굳어져 있었습니다.

그런데 2025년의 어느 시점부터 이 언어가 흔들리기 시작했습니다. 수치로 모델을 차별화하기가 점점 어려워진 것이 첫 번째 이유입니다. 주요 벤치마크에서 상위 모델들의 점수 차이는 이미 오차 범위 안으로 수렴하고 있고, 소비자는 "91.2점과 91.8점의 차이"를 체감하지 못합니다.

두 번째 이유는 더 근본적입니다. 지난 1년 사이 사용자들이 AI와 지내는 절대 시간이 부쩍 늘었습니다. 하루에 몇 번 질문을 던지던 시절을 지나, 이제는 몇 시간씩 대화하는 사용자들이 일상에 포함되기 시작했습니다. 이 시간이 길어질수록 사용자는 모델의 '정답 능력'만큼이나 그 모델과 있는 시간의 질을 느낍니다. 답이 맞는 것만으로는 부족합니다. 대화가 기분 좋은지, 지시를 잘 들어주는지, 과도하게 훈계조는 아닌지, 과도하게 아첨은 아닌지가 체류 시간을 결정하지요.

샘 올트먼이 최근 몇 번의 발언에서 강조한 키워드가 "pleasant(유쾌한)"였다는 점은 의미심장합니다. 3년 전의 오픈(AI)가 "더 똑똑한" 모델을 만들겠다고 했다면, 2025년 말의 오픈(AI)는 "더 함께 있기 좋은" 모델을 만들겠다고 말하고 있는 것입니다.

▸ 친절함 뒤에 숨은 전쟁

그렇지만 저는 이 '친절함'이라는 업데이트 항목을 순수하게 미학적인 선택으로만 보지 않습니다. 그 뒤에는 꽤 냉정한 비즈니스 계산이 있습니다.

첫째, 사용자 유지(retention)의 문제입니다. 경쟁 모델들의 성능이 엎치락뒤치락하는 국면에서, 사용자가 한 서비스를 떠나지 않을 이유는 결국 감정적 애착에 가까워집니다. 커피 원두를 바꾸기는 쉬워도, 매일 아침 마시던 카페의 바리스타를 바꾸기는 어렵습니다.

둘째, 오용 완화의 문제이기도 합니다. 2024년부터 지속적으로 보고되어 온 'AI 의존도' 논란에서 오픈(AI)가 택한 방향은 흥미롭습니다. 차갑고 거리감 있는 응답을 기본값으로 두는 것이 아니라, 따뜻하되 경계선을 분명히 하는 응답을 설계하는 쪽이지요. Instant 변형이 '친근함'과 '지시 순응'을 동시에 올렸다는 것은, 친근함이 자칫 아첨(sycophancy)으로 미끄러지지 않도록 세심하게 조율되었다는 뜻이기도 합니다.

셋째, AGI 레이스의 교착이라는 가능성도 부정할 수 없습니다. 성능의 곡선이 완만해지는 국면에서 기업들은 여러 방향의 차별화를 찾아야 합니다. 톤·스타일·성격은 그중에서 가장 '느껴지되 측정하기 어려운' 영역이지요. 이 영역에서 먼저 깃발을 꽂는 것이 오픈(AI)의 전략인 셈입니다.

▸ 한국 사용자가 눈여겨볼 지점

GPT-5.1의 이번 변화를 한국 맥락에 옮겨 보면, 기업 도입의 관점에서 의외의 시사점이 드러납니다. 지난 2년간 한국의 많은 기업은 "어떤 모델이 가장 정확한가"라는 질문에 매달려 왔습니다. 그렇지만 실제 고객 서비스나 내부 지원 업무에 AI를 투입해본 담당자들은 공통으로 말합니다. 정확도만큼이나 중요한 것이 응대의 톤이었다고 말입니다.

한국어 고객 응대에서 존대법의 미묘한 결, 사과의 무게, 거절의 기술은 어느 벤치마크에도 나오지 않지만 실제 만족도를 결정짓는 변수입니다. GPT-5.1이 '친절함'을 업데이트 항목으로 공식화했다는 것은, 앞으로 모델 선택의 기준에 톤 품질이라는 새로운 축이 들어온다는 신호이기도 합니다.

저는 이 변화가 두 가지 방향으로 번질 것이라 봅니다. 하나는 "이 모델로 고객을 대하면 어떤 느낌이 남는가"를 평가하는 새로운 종류의 벤치마크가 등장할 것이라는 점입니다. 또 하나는 한국어 특유의 톤 설계를 잘하는 기업, 즉 언어 그 자체를 잘 아는 조직이 새로운 경쟁력을 가지게 되리라는 점입니다.

▸ 기술의 성숙은 어디에서 드러나는가

기술의 성숙은 종종 스펙시트의 여백에서 드러납니다. 1910년대의 자동차 광고는 마력 수와 속도계의 최고 눈금을 강조했지만, 1960년대가 되자 광고의 주인공은 시트의 질감, 문이 닫히는 소리, 비 오는 날 와이퍼가 지나가는 리듬으로 옮겨갔습니다. 기술이 충분히 좋아져서 더 이상 숫자로 차별화하기 어려워질 때, 시장은 경험의 질로 경쟁의 장을 옮깁니다.

GPT-5.1이 '친절함'을 업데이트 항목의 앞자리에 올렸다는 것은, AI 업계가 그런 성숙의 문턱에 가까이 와 있음을 시사합니다. 물론 이 해석에는 반론도 가능합니다. 진짜 AGI를 향한 진보가 정체되었기 때문에 기업들이 측정 어려운 영역으로 도피하고 있을 뿐이라는 시각이지요. 두 해석 모두 일리가 있고, 둘 다 진실의 한 조각을 담고 있다고 저는 생각합니다.

분명한 것은, 우리가 AI와 맺는 관계가 이제 도구에서 동반자에 가까운 쪽으로 이동하고 있다는 사실입니다. 도구는 정밀하면 됩니다. 동반자는 정밀하면서도 함께 있기에 편해야 합니다. 오픈(AI)가 이번에 업데이트한 것은 모델의 지능이라기보다, 모델이 세상에 드러내는 태도에 가깝습니다.

여러분은 AI에게 무엇을 기대하시나요. 정답을 척척 내어주는 빠른 동료입니까, 아니면 늦은 밤 라디오처럼 곁에 있어 주는 따뜻한 목소리입니까. 어쩌면 우리는 지금, 그 질문에 답해야 할 시점을 맞고 있는지도 모릅니다. 질문하는 인간만이 살아남는다는 명제는, 이제 '어떤 AI를 고를 것인가'라는 질문에도 고스란히 적용됩니다.

#gpt-5.1 #openai #톤 #친절함 #모델업데이트

전체 사이트에서 댓글·관련 글을 함께 보시려면

이야기 공장에서 보기 →